(12)发明专利申请
(10)申请公布号 CN 106126711 A(43)申请公布日 2016.11.16
(21)申请号 201610509368.X(22)申请日 2016.06.30
(71)申请人 北京奇虎科技有限公司
地址 100088 北京市西城区新街口外大街
28号D座112室(德胜园区)申请人 奇智软件(北京)有限公司(72)发明人 王智广
(74)专利代理机构 北京智汇东方知识产权代理
事务所(普通合伙) 11391
代理人 康正德 盛惠华(51)Int.Cl.
G06F 17/30(2006.01)
权利要求书2页 说明书12页 附图2页
CN 106126711 A()发明名称
百科词条分类方法及装置(57)摘要
本发明提供了一种百科词条分类方法及装置。该方法包括从资源站点的网页中提取出包含类别信息的资源数据;基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系;获取一个或多个待分类的百科词条,与所述一个或多个主宾结构数据关系进行匹配;将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。本发明实施例可以利用资源站点的网页中资源数据已知的类别信息来确定百科词条的类别,相比于现有技术中利用机器学习方法,先人工标注部分词条类别,然后预测未知的词条类别,本发明实施例提供的技术方案能够节省人力成本,并且准确率较高。
CN 106126711 A
权 利 要 求 书
1/2页
1.一种百科词条分类方法,包括:
从资源站点的网页中提取出包含类别信息的资源数据;
生成一个或多个携带类别信息的主宾结构数据关系;基于所述资源数据,
获取一个或多个待分类的百科词条,与所述一个或多个主宾结构数据关系进行匹配;将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。2.根据权利要求1所述的方法,其中,所述类别信息包括主宾结构数据中的主语类别信息;
所述将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类,包括:将匹配上的主宾结构数据中的主语类别信息作为对应百科词条所属的分类。3.根据权利要求1或2所述的方法,其中,所述类别信息包括主宾结构数据中的宾语类别信息,所述百科词条进一步包括百科词条的属性数据;
所述将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类,包括:将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属的分类。
4.根据权利要求1-3中任一项所述的方法,其中,所述匹配上是指百科词条与主宾结构数据中的主语匹配上,且百科词条的属性数据与主宾结构数据中的宾语匹配上。
5.根据权利要求1-4中任一项所述的方法,其中,所述百科词条的属性数据包括锚链接;
将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属的分类,包括:
将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的锚链接所属的分类。6.根据权利要求1-5中任一项所述的方法,其中,从资源站点的网页中提取出包含类别信息的资源数据,包括:
确定资源站点的网页的资源类别;
确定用于提取资源数据的一个或多个类别信息根据所述资源站点的网页的资源类别,
字段;
利用所述一个或多个类别信息字段,从所述资源站点的网页中提取出包含类别信息的资源数据。
7.根据权利要求1-6中任一项所述的方法,其中,从资源站点的网页中提取出包含类别信息的资源数据,包括:
从预先建立的资源数据模板库中,选取与所述资源站点的网页对应的资源数据模板;利用所述资源数据模板从所述资源站点的网页中提取出包含类别信息的资源数据。8.根据权利要求1-7中任一项所述的方法,其中,还包括:收集多个资源站点的网页;
分析所述多个资源站点的网页,确定各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息;
记录所述各个资源站点的网页、所述各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息之间的对应关系,生成所述资源数据模板库。
9.根据权利要求1-8中任一项所述的方法,其中,所述资源数据包括数据类别和数据名
2
CN 106126711 A
权 利 要 求 书
2/2页
称;
基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系,包括:将所述数据类别和所述数据名称进行组合,生成一个或多个携带类别信息的主宾结构数据关系。
10.一种百科词条分类装置,包括:资源数据提取模块,适于从资源站点的网页中提取出包含类别信息的资源数据;数据关系生成模块,适于基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系;
匹配模块,适于获取一个或多个待分类的百科词条,与所述一个或多个主宾结构数据关系进行匹配;
分类模块,适于将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。
3
CN 106126711 A
说 明 书
百科词条分类方法及装置
1/12页
技术领域
[0001]本发明涉及互联网应用技术领域,特别是一种百科词条分类方法及装置。背景技术
[0002]百科是指天文、地理、自然、人文、宗教、信仰、文学等全部学科的知识的总称。互联网上的百科是一个知识库,是一部内容开放、自由的网络百科全书,其包含了各种各样的词条。种类多是百科的特点,在一些应用中需要对百科词条进行分类(比如人物类、电影作品类、音乐作品类等),由于百科的许多词条是网友参与编辑的,所以并没有明确的分类信息。[0003]相关技术中主要利用机器学习的方法对百科词条进行分类,具体地,从百科词条的内容中提取能够代表词条类别的关键词,利用机器学习方法,先人工标注部分词条类别,然后预测未知的词条类别。然而,利用机器学习来分类,一个是需要人工标注大量的标注集,二是准确率也有限。[0004]因此,如何快速、准确地对百科词条进行分类成为亟待解决的技术问题。发明内容
[0005]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的百科词条分类方法及相应的装置。[0006]依据本发明的一方面,提供了一种百科词条分类方法,包括:[0007]从资源站点的网页中提取出包含类别信息的资源数据;[0008]基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系;[0009]获取一个或多个待分类的百科词条,与所述一个或多个主宾结构数据关系进行匹配;
[0010]将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。[0011]可选地,所述类别信息包括主宾结构数据中的主语类别信息;
[0012]所述将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类,包括:
[0013]将匹配上的主宾结构数据中的主语类别信息作为对应百科词条所属的分类。[0014]可选地,所述类别信息包括主宾结构数据中的宾语类别信息,所述百科词条进一步包括百科词条的属性数据;
[0015]所述将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类,包括:
[0016]将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属的分类。
[0017]可选地,所述匹配上是指百科词条与主宾结构数据中的主语匹配上,且百科词条的属性数据与主宾结构数据中的宾语匹配上。[0018]可选地,所述百科词条的属性数据包括锚链接;
4
CN 106126711 A[0019]
说 明 书
2/12页
将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属
的分类,包括:
[0020]将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的锚链接所属的分类。
[0021]可选地,从资源站点的网页中提取出包含类别信息的资源数据,包括:[0022]确定资源站点的网页的资源类别;
[0023]根据所述资源站点的网页的资源类别,确定用于提取资源数据的一个或多个类别信息字段;
[0024]利用所述一个或多个类别信息字段,从所述资源站点的网页中提取出包含类别信息的资源数据。[0025]可选地,从资源站点的网页中提取出包含类别信息的资源数据,包括:[0026]从预先建立的资源数据模板库中,选取与所述资源站点的网页对应的资源数据模板;
[0027]利用所述资源数据模板从所述资源站点的网页中提取出包含类别信息的资源数据。
[0028]可选地,所述方法还包括:[0029]收集多个资源站点的网页;
[0030]分析所述多个资源站点的网页,确定各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息;
[0031]记录所述各个资源站点的网页、所述各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息之间的对应关系,生成所述资源数据模板库。[0032]可选地,所述资源数据包括数据类别和数据名称;[0033]基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系,包括:[0034]将所述数据类别和所述数据名称进行组合,生成一个或多个携带类别信息的主宾结构数据关系。
[0035]依据本发明的另一方面,包括:还提供了一种百科词条分类装置,[0036]资源数据提取模块,适于从资源站点的网页中提取出包含类别信息的资源数据;[0037]数据关系生成模块,适于基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系;[0038]匹配模块,适于获取一个或多个待分类的百科词条,与所述一个或多个主宾结构数据关系进行匹配;[0039]分类模块,适于将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。
[0040]可选地,所述类别信息包括主宾结构数据中的主语类别信息,所述分类模块还适于:
[0041]将匹配上的主宾结构数据中的主语类别信息作为对应百科词条所属的分类。[0042]可选地,所述类别信息包括主宾结构数据中的宾语类别信息,所述百科词条进一步包括百科词条的属性数据,所述分类模块还适于:
[0043]将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属
5
CN 106126711 A
说 明 书
3/12页
的分类。
[0044]可选地,所述匹配上是指百科词条与主宾结构数据中的主语匹配上,且百科词条的属性数据与主宾结构数据中的宾语匹配上。[0045]可选地,所述百科词条的属性数据包括锚链接,所述分类模块还适于:
[0046]将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的锚链接所属的分类。
[0047]可选地,所述资源数据提取模块还适于:[0048]确定资源站点的网页的资源类别;
[0049]根据所述资源站点的网页的资源类别,确定用于提取资源数据的一个或多个类别信息字段;
[0050]利用所述一个或多个类别信息字段,从所述资源站点的网页中提取出包含类别信息的资源数据。[0051]可选地,所述资源数据提取模块还适于:[0052]从预先建立的资源数据模板库中,选取与所述资源站点的网页对应的资源数据模板;
[0053]利用所述资源数据模板从所述资源站点的网页中提取出包含类别信息的资源数据。
[00]可选地,所述装置还包括资源数据模板库生成模块,适于:[0055]收集多个资源站点的网页;
[0056]分析所述多个资源站点的网页,确定各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息;
[0057]记录所述各个资源站点的网页、所述各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息之间的对应关系,生成所述资源数据模板库。[0058]可选地,所述资源数据包括数据类别和数据名称,所述数据关系生成模块还适于:[0059]将所述数据类别和所述数据名称进行组合,生成一个或多个携带类别信息的主宾结构数据关系。
[0060]在本发明实施例中,首先从资源站点的网页中提取出包含类别信息的资源数据,并基于资源数据,生成一个或多个携带类别信息的主宾结构数据关系。随后,获取一个或多个待分类的百科词条,与一个或多个主宾结构数据关系进行匹配,将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。由此可见,本发明实施例可以利用资源站点的网页中资源数据已知的类别信息来确定百科词条的类别,相比于现有技术中利用机器学习方法,先人工标注部分词条类别,然后预测未知的词条类别,本发明实施例提供的技术方案能够节省人力成本,并且准确率较高。[0061]进一步,本发明实施例采用百科词条和其属性数据与主宾结构数据关系进行匹配,来确定百科词条和其属性数据的类别,而非单纯地利用百科词条与主宾结构数据关系进行匹配,解决了百科词条可能存在歧义导致分类不准确的问题,提高了分类的准确性。例如,由于存在词条名歧义的问题,可能很多人都叫“张三”,但是类别可能不相同(可能为演员、医生、教师等),本发明实施例辅助了“张三”的一些相关的属性数据来进行词条分类,极大地提高了分类的准确率,比如此“张三”有一个相关属性为“儿科常见问题大全”,则可以
6
CN 106126711 A
说 明 书
4/12页
确定此“张三”为撰写《儿科常见问题大全》的“张三”,那么确定此“张三”为医生。[0062]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
[0063]根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。附图说明
[00]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:[0065]图1示出了根据本发明一个实施例的百科词条分类方法的流程图;[0066]图2示出了根据本发明一个实施例的百科词条分类装置的结构示意图;[0067]图3示出了根据本发明另一个实施例的百科词条分类装置的结构示意图。具体实施方式
[0068]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。[0069]为解决上述技术问题,本发明实施例提供了一种百科词条分类方法。图1示出了根据本发明一个实施例的百科词条分类方法的流程图。如图1所示,该方法至少包括以下步骤S102至步骤S108:[0070]步骤S102,从资源站点的网页中提取出包含类别信息的资源数据;[0071]步骤S104,基于步骤S102提取的资源数据,生成一个或多个携带类别信息的主宾结构数据关系;
[0072]步骤S106,获取一个或多个待分类的百科词条,与一个或多个主宾结构数据关系进行匹配;
[0073]步骤S108,将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。
[0074]在本发明实施例中,首先从资源站点的网页中提取出包含类别信息的资源数据,并基于资源数据,生成一个或多个携带类别信息的主宾结构数据关系。随后,获取一个或多个待分类的百科词条,与一个或多个主宾结构数据关系进行匹配,将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。由此可见,本发明实施例可以利用资源站点的网页中资源数据已知的类别信息来确定百科词条的类别,相比于现有技术中利用机器学习方法,先人工标注部分词条类别,然后预测未知的词条类别,本发明实施例提供的技术方案能够节省人力成本,并且准确率较高。
[0075]上文步骤S102中提及的资源站点可以是提供某些特定领域的资源数据的站点,这些站点提供了有关这个领域的全部深度信息或相关服务。例如,资源站点“豆瓣电影”提供
7
CN 106126711 A
说 明 书
5/12页
了影视信息、用户评论等资源数据;资源站点“读书”提供了图书详情、书榜、书评等资源数据,等等,本发明不限于此。
[0076]步骤S102中从资源站点的网页中提取出包含类别信息的资源数据,本发明实施例提供了多种实施方式,如利用资源数据的信息字段或者资源数据在网页中的位置信息等方式,下面将分别进行详细介绍。[0077]方式一,利用资源数据的信息字段的方式。在该方式中,可以确定资源站点的网页的资源类别,随后根据资源站点的网页的资源类别,确定用于提取资源数据的一个或多个类别信息字段。进而,利用一个或多个类别信息字段,从资源站点的网页中提取出包含类别信息的资源数据。例如,当确定出资源站点为影视类资源时,确定用于提取资源数据的类别信息字段为“电影”、“导演”、“编剧”、“主演”、“类型”等。又如,当确定出资源站点为书籍类资源时,确定用于提取资源数据的类别信息字段为“作者”、“出版社”等。[0078]方式二,基于资源数据在网页中的位置信息的方式。在该方式中,可以从预先建立的资源数据模板库中,选取与资源站点的网页对应的资源数据模板。进而,利用资源数据模板从资源站点的网页中提取出包含类别信息的资源数据。例如,从资源站点“豆瓣电影”的网页中左上角位置处提取出包含类别信息的资源数据。[0079]进一步地,本发明实施例提供了一种可选的建立的资源数据模板库的方案,即,收集多个资源站点的网页,并分析多个资源站点的网页,确定各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息,随后记录各个资源站点的网页、各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息之间的对应关系,生成资源数据模板库。在本发明的可选实施例中,还可以对收集的大量资源站点的网页的结构和/或主题进行分析,将具有相同结构和/或主题的网页划分为属于同一页面类型的资源站点的网页,从而可以确定同一页面类型的资源站点的网页中包含类别信息的资源数据在网页中的位置信息,这样可以不用记录每个资源站点的网页中包含类别信息的资源数据在网页中的位置信息,可以节省存储资源。
[0080]以上方式一或方式二分别介绍了如何从资源站点的网页中提取出包含类别信息的资源数据,在实际应用中,可以结合方式一和方式二进行资源数据的提取,本发明对此不作。如下表1所示为从影视类资源站点中提取的资源数据,在表1中,资源数据包含数据类别和数据名称,这里的数据类别为资源数据的类别信息。另外,表1最后一行的省略号表示还有其他资源数据,这里未全部示出。[0081]表1
[0082]
数据类别数据名称电影老炮儿导演管虎编剧管虎、董润年主演冯小刚、许晴、张涵予、刘桦、李易峰、吴、梁静等类型剧情、动作、犯罪............[0083]在步骤S104中,基于步骤S102提取的资源数据,生成一个或多个携带类别信息的
8
CN 106126711 A
说 明 书
6/12页
主宾结构数据关系。以上文表1为例,可以将数据类别和数据名称进行组合,生成一个或多个携带类别信息的主宾结构数据关系,生成结果如下表2所示。表2最后一行的省略号表示还有其他主宾结构数据,这里未全部示出。[0084]表2
[0085]
主语(括号中为类别)谓语宾语(括号中为类别)老炮儿(电影)主演冯小刚(演员)冯小刚(演员)参演的电影作品老炮儿(电影)管虎(导演)导演的电影作品老炮儿(电影)………………[0086]上文步骤S106中获取一个或多个待分类的百科词条,这里的百科词条可以仅是百科词条本身,也可以包括百科词条的属性数据。例如,待分类的百科词条“冯小刚”,其属性数据可以是“老炮儿”、“集结号”等。
[0087]在获取到一个或多个待分类的百科词条之后,将其与一个或多个主宾结构数据关系进行匹配,本发明实施例提供了多种实施手段,如百科词条与主宾结构数据中的主语进行匹配;或者将百科词条与主宾结构数据中的主语匹配,且将百科词条的属性数据与主宾结构数据中的宾语匹配,等等。并且,步骤S106中的匹配方式不同,步骤S108中的分类方式也有所不同,下面将分别进行详细介绍。[0088]情况一,将百科词条与主宾结构数据中的主语进行匹配,由于类别信息包括了主宾结构数据中的主语类别信息,此时,可以将匹配上的主宾结构数据中的主语类别信息作为对应百科词条所属的分类。例如,待分类的百科词条为“冯小刚”,将百科词条“冯小刚”与表2中的主宾结构数据中的主语进行匹配,得到匹配上的主宾结构数据为“冯小刚(演员)、老炮儿(电影)”,此时可以将匹配上的主宾结构数据中的主语“冯小刚”类别信息“演员”作为百科词条“冯小刚”所属的分类。[00]情况二,将百科词条与主宾结构数据中的主语匹配,以及将百科词条的属性数据与主宾结构数据中的宾语匹配,可以提高百科词条分类的精确度。例如,待分类的百科词条为“冯小刚”,将百科词条“冯小刚”与下表3中的主宾结构数据中的主语进行匹配,得到匹配上的主宾结构数据为“冯小刚(演员)、老炮儿(电影)”、“冯小刚(教师)、一个不能少(书籍)”,此时无法精确判断百科词条“冯小刚”的类别。[0090]表3
[0091]
主语(括号中为类别)谓语宾语(括号中为类别)老炮儿(电影)主演冯小刚(演员)冯小刚(演员)参演的电影作品老炮儿(电影)管虎(导演)导演的电影作品老炮儿(电影)………………冯小刚(教师)发表的文学作品一个不能少(书籍)[0092]为了解决这一问题,本发明实施例进一步获取了百科词条的属性数据,即获取到百科词条“冯小刚”的属性数据,如“老炮儿”、“集结号”等,将百科词条“冯小刚”的属性数据
9
CN 106126711 A
说 明 书
7/12页
与表3中的主宾结构数据中的宾语进行匹配,将匹配上的主宾结构数据“冯小刚(演员)、老炮儿(电影)”中的主语“冯小刚”类别信息“演员”作为百科词条“冯小刚”所属的分类。[0093]进一步地,在上述情况二中,还可以将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属的分类。仍以上述举例为例,匹配上的主宾结构数据为“冯小刚(演员)、老炮儿(电影)”,那么可以将匹配上的主宾结构数据“冯小刚(演员)、老炮儿(电影)”中的宾语“老炮儿”类别信息“电影”作为百科词条“冯小刚”的属性数据“老炮儿”的类别。
[0094]在本发明的另一实施例中,百科词条的属性数据还可以包括锚链接,这里的锚链接实际上就是链接文本,又叫锚文本,可以理解为带有文本的超链接,就叫锚链接。锚文本可以作为文本链接所在的页面的内容的评估。本发明实施例可以将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的锚链接所属的分类。仍以上述举例为例,待分类的百科词条“冯小刚”,其属性数据为锚链接,如下表4所示。在表4中示出了部分超链关系。[0095]表4
[0096]
锚链接对应的网页链接老炮儿http://baike.baidu.com/subview/10701921/16783450.htm集结号http://baike.baidu.com/view/776916.htm天下无贼http://baike.baidu.com/subview/39918/6272046.htm…………[0097]此时,将百科词条“冯小刚”的属性数据(即锚链接)与表3中的主宾结构数据中的宾语进行匹配,将匹配上的主宾结构数据“冯小刚(演员)、老炮儿(电影)”中的主语“冯小刚”类别信息“演员”作为百科词条“冯小刚”所属的分类。并且,将匹配上的主宾结构数据“冯小刚(演员)、老炮儿(电影)”中的宾语“老炮儿”类别信息“电影”作为百科词条“冯小刚”的锚链接“老炮儿”的类别。这里,可以记录锚链接“老炮儿”对应的网页链接的类别为“电影”。
[0098]需要说明的是,在实际应用中,上述所有可选实施方式可以采用结合的方式任意组合,形成本发明的可选实施例,在此不再一一赘述。
[0099]基于上文各个实施例提供的百科词条分类方法,基于同一发明构思,本发明实施例还提供了一种百科词条分类装置。图2示出了根据本发明一个实施例的百科词条分类装置的结构示意图。如图2所示,该装置至少可以包括资源数据提取模块210、数据关系生成模块220、匹配模块230以及分类模块240。
[0100]现介绍本发明实施例的百科词条分类装置的各组成或器件的功能以及各部分间的连接关系:
[0101]资源数据提取模块210,适于从资源站点的网页中提取出包含类别信息的资源数据;
[0102]数据关系生成模块220,与资源数据提取模块210相耦合,适于基于资源数据,生成一个或多个携带类别信息的主宾结构数据关系;[0103]匹配模块230,与数据关系生成模块220相耦合,适于获取一个或多个待分类的百科词条,与一个或多个主宾结构数据关系进行匹配;
10
CN 106126711 A[0104]
说 明 书
8/12页
分类模块240,与匹配模块230相耦合,适于将匹配上的主宾结构数据对应的类别
信息作为对应百科词条所属的分类。[0105]在本发明一实施例中,类别信息包括主宾结构数据中的主语类别信息,分类模块240还适于:
[0106]将匹配上的主宾结构数据中的主语类别信息作为对应百科词条所属的分类。[0107]在本发明一实施例中,类别信息包括主宾结构数据中的宾语类别信息,百科词条进一步包括百科词条的属性数据,分类模块240还适于:
[0108]将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属的分类。
[0109]在本发明一实施例中,匹配上是指百科词条与主宾结构数据中的主语匹配上,且百科词条的属性数据与主宾结构数据中的宾语匹配上。[0110]在本发明一实施例中,百科词条的属性数据包括锚链接,分类模块240还适于:[0111]将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的锚链接所属的分类。
[0112]在本发明一实施例中,资源数据提取模块210还适于:[0113]确定资源站点的网页的资源类别;[0114]根据资源站点的网页的资源类别,确定用于提取资源数据的一个或多个类别信息字段;
[0115]利用一个或多个类别信息字段,从资源站点的网页中提取出包含类别信息的资源数据。
[0116]在本发明一实施例中,资源数据提取模块210还适于:[0117]从预先建立的资源数据模板库中,选取与资源站点的网页对应的资源数据模板;[0118]利用资源数据模板从资源站点的网页中提取出包含类别信息的资源数据。[0119]在本发明一实施例中,如图3所示,上文图2展示的装置还可以包括资源数据模板库生成模块250,与资源数据提取模块210相耦合,适于:[0120]收集多个资源站点的网页;[0121]分析多个资源站点的网页,确定各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息;
[0122]记录各个资源站点的网页、各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息之间的对应关系,生成资源数据模板库。[0123]在本发明一实施例中,资源数据包括数据类别和数据名称,数据关系生成模块220还适于:
[0124]将数据类别和数据名称进行组合,生成一个或多个携带类别信息的主宾结构数据关系。
[0125]根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
[0126]在本发明实施例中,首先从资源站点的网页中提取出包含类别信息的资源数据,并基于资源数据,生成一个或多个携带类别信息的主宾结构数据关系。随后,获取一个或多个待分类的百科词条,与一个或多个主宾结构数据关系进行匹配,将匹配上的主宾结构数
11
CN 106126711 A
说 明 书
9/12页
据对应的类别信息作为对应百科词条所属的分类。由此可见,本发明实施例可以利用资源站点的网页中资源数据已知的类别信息来确定百科词条的类别,相比于现有技术中利用机器学习方法,先人工标注部分词条类别,然后预测未知的词条类别,本发明实施例提供的技术方案能够节省人力成本,并且准确率较高。[0127]进一步,本发明实施例采用百科词条和其属性数据与主宾结构数据关系进行匹配,来确定百科词条和其属性数据的类别,而非单纯地利用百科词条与主宾结构数据关系进行匹配,解决了百科词条可能存在歧义导致分类不准确的问题,提高了分类的准确性。例如,由于存在词条名歧义的问题,可能很多人都叫“张三”,但是类别可能不相同(可能为演员、医生、教师等),本发明实施例辅助了“张三”的一些相关的属性数据来进行词条分类,极大地提高了分类的准确率,比如此“张三”有一个相关属性为“儿科常见问题大全”,则可以确定此“张三”为撰写《儿科常见问题大全》的“张三”,那么确定此“张三”为医生。[0128]在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。[0129]类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
[0130]本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0131]此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0132]本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的百科词条分类装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这
12
CN 106126711 A
说 明 书
10/12页
样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0133]应该注意的是上述实施例对本发明进行说明而不是对本发明进行,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0134]至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。[0135]本发明实施例的一方面,提供了A1、一种百科词条分类方法,包括:[0136]从资源站点的网页中提取出包含类别信息的资源数据;[0137]基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系;[0138]获取一个或多个待分类的百科词条,与所述一个或多个主宾结构数据关系进行匹配;
[0139]将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。[0140]A2、根据A1所述的方法,其中,所述类别信息包括主宾结构数据中的主语类别信息;
[0141]所述将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类,包括:
[0142]将匹配上的主宾结构数据中的主语类别信息作为对应百科词条所属的分类。[0143]A3、根据A1或A2所述的方法,其中,所述类别信息包括主宾结构数据中的宾语类别信息,所述百科词条进一步包括百科词条的属性数据;
[0144]所述将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类,包括:
[0145]将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属的分类。[0146]A4、根据A1-A3中任一项所述的方法,其中,所述匹配上是指百科词条与主宾结构数据中的主语匹配上,且百科词条的属性数据与主宾结构数据中的宾语匹配上。[0147]A5、根据A1-A4中任一项所述的方法,其中,所述百科词条的属性数据包括锚链接;[0148]将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属的分类,包括:
[0149]将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的锚链接所属的分类。
[0150]A6、根据A1-A5中任一项所述的方法,其中,从资源站点的网页中提取出包含类别
13
CN 106126711 A
说 明 书
11/12页
信息的资源数据,包括:
[0151]确定资源站点的网页的资源类别;
[0152]根据所述资源站点的网页的资源类别,确定用于提取资源数据的一个或多个类别信息字段;
[0153]利用所述一个或多个类别信息字段,从所述资源站点的网页中提取出包含类别信息的资源数据。[01]A7、根据A1-A6中任一项所述的方法,其中,从资源站点的网页中提取出包含类别信息的资源数据,包括:
[0155]从预先建立的资源数据模板库中,选取与所述资源站点的网页对应的资源数据模板;
[0156]利用所述资源数据模板从所述资源站点的网页中提取出包含类别信息的资源数据。
[0157]A8、根据A1-A7中任一项所述的方法,其中,还包括:[0158]收集多个资源站点的网页;
[0159]分析所述多个资源站点的网页,确定各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息;
[0160]记录所述各个资源站点的网页、所述各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息之间的对应关系,生成所述资源数据模板库。[0161]A9、根据A1-A8中任一项所述的方法,其中,所述资源数据包括数据类别和数据名称;
[0162]基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系,包括:[0163]将所述数据类别和所述数据名称进行组合,生成一个或多个携带类别信息的主宾结构数据关系。
[01]本发明实施例的另一方面,还提供了B10、一种百科词条分类装置,包括:[0165]资源数据提取模块,适于从资源站点的网页中提取出包含类别信息的资源数据;[0166]数据关系生成模块,适于基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系;[0167]匹配模块,适于获取一个或多个待分类的百科词条,与所述一个或多个主宾结构数据关系进行匹配;[0168]分类模块,适于将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。
[0169]B11、根据B10所述的装置,其中,所述类别信息包括主宾结构数据中的主语类别信息,所述分类模块还适于:
[0170]将匹配上的主宾结构数据中的主语类别信息作为对应百科词条所属的分类。[0171]B12、根据B10或B11所述的装置,其中,所述类别信息包括主宾结构数据中的宾语类别信息,所述百科词条进一步包括百科词条的属性数据,所述分类模块还适于:
[0172]将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属的分类。
[0173]B13、根据B10-B12中任一项所述的装置,其中,所述匹配上是指百科词条与主宾结
14
CN 106126711 A
说 明 书
12/12页
构数据中的主语匹配上,且百科词条的属性数据与主宾结构数据中的宾语匹配上。[0174]B14、根据B10-B13中任一项所述的装置,其中,所述百科词条的属性数据包括锚链接,所述分类模块还适于:
[0175]将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的锚链接所属的分类。
[0176]B15、根据B10-B14中任一项所述的装置,其中,所述资源数据提取模块还适于:[0177]确定资源站点的网页的资源类别;
[0178]根据所述资源站点的网页的资源类别,确定用于提取资源数据的一个或多个类别信息字段;
[0179]利用所述一个或多个类别信息字段,从所述资源站点的网页中提取出包含类别信息的资源数据。[0180]B16、根据B10-B15中任一项所述的装置,其中,所述资源数据提取模块还适于:[0181]从预先建立的资源数据模板库中,选取与所述资源站点的网页对应的资源数据模板;
[0182]利用所述资源数据模板从所述资源站点的网页中提取出包含类别信息的资源数据。
[0183]B17、根据B10-B16中任一项所述的装置,其中,还包括资源数据模板库生成模块,适于:
[0184]收集多个资源站点的网页;
[0185]分析所述多个资源站点的网页,确定各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息;
[0186]记录所述各个资源站点的网页、所述各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息之间的对应关系,生成所述资源数据模板库。[0187]B18、根据B10-17中任一项所述的装置,其中,所述资源数据包括数据类别和数据名称,所述数据关系生成模块还适于:
[0188]将所述数据类别和所述数据名称进行组合,生成一个或多个携带类别信息的主宾结构数据关系。
15
CN 106126711 A
说 明 书 附 图
1/2页
图1
16
CN 106126711 A
说 明 书 附 图
2/2页
图2
图3
17
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- oldu.cn 版权所有 浙ICP备2024123271号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务