您的当前位置：首页文本挖掘系统及工具[发明专利]

文本挖掘系统及工具[发明专利]

来源：年旅网

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 1060555 A (43)申请公布日 2016.10.26

(21)申请号 201510497553.7(22)申请日 2015.08.13(30)优先权数据

1879/CHE/2015 2015.04.10 IN

(71)申请人穆西格马交易方案私人有限公司

地址印度班加罗尔(72)发明人高拉夫·翟恩狄平德·迪因格拉

祖宾·道拉蒂

巴拉特·阿帕德拉斯塔(74)专利代理机构北京英赛嘉华知识产权代理

有限责任公司 11204

代理人王达佐王艳春

权利要求书2页说明书10页附图18页

(51)Int.Cl.

G06F 17/30(2006.01)

()发明名称

文本挖掘系统及工具(57)摘要

本发明提供了一种用于从多个输入数据集中提取相关文本的文本挖掘系统。文本挖掘系统包括输入接口模块，该输入接口模块配置成使一个或多个用户能够选择用于多个输入数据集的多个源。文本挖掘系统还包括文本分析模块，该文本分析模块配置成接收多个输入数据集并通过分析多个输入数据集而生成输出数据集。文本分析模块包括数据处理模块，该数据处理模块配置成将多个输入数据集转换成分析文本集。文本分析模块还包括探索性分析模块，该探索性分析模块配置成确定分析文本集中的多个相关性。文本分析模块还包括主题建模模块和报告模块，主题建模模块配置成识别在分析文本集中反复出现的多个主题，报告模块配置成生成用于文本分析模块的多个报告。文本挖掘系统还包括存储电路，该存储电路设置成储存多个输入数据集、分析文本集以及输出数据集。

C N 1 0 6 0 5 5 5 4 5 A CN 1060555 A

权利要求书

1/2页

1.一种用于从多个输入数据集中提取相关文本的文本挖掘系统，所述系统包括：

输入接口模块，配置成使一个或多个用户能够选择用于多个输入数据集的多个数据源；

文本分析模块，配置成接收所述多个输入数据集并通过分析所述多个输入数据集而生成输出数据集，所述文本分析模块包括:

数据处理模块，配置成将所述多个输入数据集转换成分析文本集；探索性分析模块，配置成确定所述分析文本集中的多个相关性；主题建模模块，配置成识别在所述分析文本集中反复出现的多个主题；以及报告模块，配置成生成用于所述文本分析模块的多个报告；以及存储电路，配置成储存所述多个输入数据集、所述分析文本集以及所述输出数据集。2.根据权利要求1所述的系统，其中所述数据处理模块还配置成通过从所述多个输入数据集中过滤不相关元素来执行预处理任务。

3.根据权利要求1所述的系统，其中所述文本分析模块还包括文本分类模块，该文本分类模块配置成基于所述探索性分析模块的结果生成多个模型；其中每个模型提供一个或多个已分类的文本集以获得由用户确定的预定义目标。

4.根据权利要求3所述的系统，其中所述文本分类模块还配置成通过以下步骤对所述分析文本集进行分类：

通过识别用于样本数据集的多个类别来创建实际分类模块；以及通过在所述分析文本集上应用所识别的类别来创建预测分类模块；其中所述样本数据集是所述分析本文集的子集。

5.根据权利要求3所述的系统，其中所述文本分类模块还配置成以迭代方式对所述实际分类模块和所述预测分类模块进行比较。

6.根据权利要求1所述的系统，其中所述探索性分析模块配置成对所述分析文本集进行频率分析，以确定在指定范围中频繁出现的一元分词、二元分词以及文本的频率。

7.根据权利要求1所述的系统，其中所述探索性分析模块配置成对所述分析文本集进行关系分析，以确定表示所述分析文本集中的单词之间的相关性的关联得分。

8.根据权利要求1所述的系统，其中所述探索性分析模块还配置成以条形图、文字标签云、表格或它们的组合的形式生成与频率分析和关系分析相对应的视觉表示。

9.根据权利要求1所述的系统，其中所述主题建模模块使用多种机器学习算法来识别在所述分析文本集中反复出现的所述多个主题。

10.根据权利要求1所述的系统，其中所述报告模块还配置成使所述用户能够访问由所述文本分析模块生成的多个报告。

11.根据权利要求1所述的系统，其中所述文本分析模块配置成以多种语言操作。12.一种用于从多个输入数据集中提取相关文本的文本挖掘工具，所述文本挖掘工具包括：

输入接口模块，配置成使用户能够选择用于多个输入数据集的多个源；数据处理接口，配置成使用户能够选择一个或多个变量以触发数据处理任务，其中所述数据处理任务将所述多个输入数据集转换成分析文本集；

探索性分析接口，配置成使用户能够选择一种或多种分析方式以触发探索性分析任

CN 1060555 A

权利要求书

2/2页

务，其中所述探索性分析任务确定在所述分析文本集中的多个相关性；

主题建模接口，配置成使用户能够选择一个或多个输入参数以触发主题建模任务，其中所述主题建模任务识别在所述分析文本集中反复出现的多个主题；以及

报告接口，配置成基于选定的标准生成多个报告。13.根据权利要求12所述的文本挖掘工具，其中所述文本处理接口还配置成使用户能够在一个或多个数据清理任务间进行选择。

14.根据权利要求12所述的文本挖掘工具，其中所述探索性分析接口还配置成使用户能够在频率分析和关系分析之间进行选择。

15.根据权利要求12所述的文本挖掘工具，其中所述文本分析模块配置成对多种语言的输入数据集进行分析。

16.一种用于从多个输入数据集中提取相关文本的方法，所述方法包括：从多个源选择多个输入数据集；

转换所述多个输入数据集以生成分析文本集；

通过执行探索性分析确定所述分析文本集中存在的相关性；基于所述探索性分析的结果生成一个或多个模型；

执行主题建模以识别在所述分析文本集中反复出现的主题；基于选定的标准生成多个报告；以及生成输出数据集。

17.根据权利要求16所述的方法，还包括对所述分析文本集执行频率分析以确定在指定频率范围中频繁出现的一元分词、二元分词以及文本的频率。

18.根据权利要求16所述的方法，还包括对所述分析文本集执行关系分析以确定表示所述分析文本集中的单词的相关性的关联得分。

19.根据权利要求16所述的方法，还包括存储所述多个报告以使用户能够访问来自单个位置的多个报告。

20.根据权利要求16所述的方法，其中所述多个输入数据集是多语言的。

CN 1060555 A

说明书文本挖掘系统及工具

1/10页

技术领域

本发明大体上涉及文本挖掘系统，更具体地，涉及用于从来自多个源的文本中获得相关信息的系统和工具。

[0001]

背景技术

文本挖掘，有时另外称为文本数据挖掘或者文本分析，是指从多个源接收的文本

中提取相关信息的操作。其中，典型的文本挖掘任务包括文本分类、文本聚类、概念或实体提取、粒度分类生成、情感分析、文档总结以及实体关系模型等等。[0003] 文本挖掘系统可用于建立特定事件的大型信息档案。数据挖掘可广泛应用于如安全、生物医药、网络媒体、市场情绪分析、学术和软件等各个领域以满足多种多样的研究和商业需求。此外，文本挖掘还可用于某些电子邮件的垃圾邮件过滤器中，作为确定可能为广告或其他无用内容的消息的特征的方法。[0004] 然而，使用现有的文本挖掘系统要求分析应用的终端用户必须具有足够的技能来完成所有任务，这些任务中有些需要大量的专业知识，因此导致其成本将十分昂贵。此外，文本挖掘所收集的巨量数据大多是半结构化、非结构化和组织不良的，其包括词汇、句法以及语义的歧义。现有的文本挖掘工具使用基于文本的搜索，其只能找到包括用户指定的单词或短语的文档而且需要人工干预来解释信息并使其具有实际价值。[0005] 因此，期望能够进行自动文本挖掘，由此减少对用户具有本领域特殊专业技能的需求。

[0002]

发明内容

简言之，根据本发明的一方面，提供了一种用于从多个输入数据集提取相关文本

的文本挖掘系统。该文本挖掘系统包括输入接口模块，其配置成使一个或多个用户能够选择用于多个输入数据集的多个源。文本挖掘系统还包括文本分析模块，其配置成接收所述多个输入数据集并通过分析多个输入数据集而生成输出数据集。文本分析模块包括数据处理模块，其配置成将多个输入数据集转换成分析文本集。文本分析模块还包括探索性分析模块，其配置成确定分析文本集中的多个相关性。文本分析模块还包括主题建模模块和报告模块，主题建模模块配置成识别在分析文本集中反复出现的多个主题，报告模块配置成生成用于文本分析模块的多个报告。文本挖掘系统还包括存储电路，其配置成储存多个输入数据集、分析文本集以及输出数据集。[0007] 根据本发明的另一方面，提供了用于从多个输入数据集中提取相关文本的文本挖掘工具。文本挖掘工具包括输入接口模块和数据处理接口，输入接口模块配置成使用户能够选择用于多个输入数据集的多个源，数据处理接口配置成使用户能够选择一个或多个变量以触发数据处理任务。该数据处理任务将多个输入数据集转换成分析文本集。数据处理工具还包括探索性分析接口，其配置成使用户能够选择一种或多种分析方式以触发探索性分析任务。探索性分析任务确定分析文本集中的多个相关性。文本挖掘工具还包括主题建

[0006]

CN 1060555 A

说明书

2/10页

模接口，其配置成使用户能够选择一个或多个输入参数以触发主题建模任务。主题建模任务识别在分析文本集中反复出现的多个主题，并且报告接口配置成基于选定的标准生成多个报告。

[0008] 根据本发明的又一方面，提供了用于从多个输入数据集中提取相关文本的方法。该方法包括从多个源选择多个输入数据集并转换多个输入数据集以生成分析文本集。该方法还包括通过执行探索性分析确定该分析文本集中存在的相关性并且基于探索性分析的结果生成一个或多个模型。该方法还包括执行主题建模以识别在分析文本集中反复出现的主题、基于选定的标准生成多个报告并生成输出数据集。附图说明

当参照附图阅读以下详细说明时，本发明的这些和其他特征、方面以及优点将变得更好理解，所有附图中相同的字符代表相同的部分，其中：

[0010] 图1为根据本技术的各方面实现的文本挖掘系统的框图；

[0011] 图2为根据本技术的各方面实现的使用文本挖掘系统从输入数据集中提取相关文本的一种方法的流程图；

[0012] 图3为根据本技术的各方面实现的示例性文本分析模块的框图；[0013] 图4为根据本技术的各方面实现的分类分析文本集的方法的流程图；[0014] 图5为根据本技术的各方面实现的文本挖掘工具的示例性主界面；

[0015] 图6A至图6C为根据本技术的各方面实现的文本挖掘工具的示例性数据处理界面；

[0016] 图7为根据本技术的各方面实现的文本挖掘工具的探索性分析界面的示例；[0017] 图8A和图8B为根据本技术的各方面实现的文本挖掘工具的示例性报告生成界面；

[0018] 图9为根据本技术的各方面实现的、示出文本挖掘工具的模型定义的示例性文本分类界面；

[0019] 图10为根据本技术的各方面实现的文本挖掘工具的示例性模型构建界面；[0020] 图11为根据本技术的各方面实现的文本挖掘工具的示例性模型诊断界面；[0021] 图12为根据本技术的各方面实现的文本挖掘工具的示例性迭代历史查看界面；[0022] 图13为根据本技术的各方面实现的文本挖掘工具的示例性主题建模界面；

[0023] 图14为根据本技术的各方面实现的文本挖掘工具的示例性主题分布表查看界面；以及

[0024] 图15为根据本技术的各方面实现的布置为从多个输入数据集提取相关文本的通用计算机的框图。

[0009]

具体实施方式

[0025] 本发明提供了一种文本挖掘系统，其配置成从输入数据集提取相关文本以实现精确的数据分析。该文本挖掘系统通过将输入文本结构化、导出结构化文本中的模式以及评估和解译结构化文本，来从文本中获取相关信息。在实施方式示例中，文本挖掘技术包括各种任务，如：数据处理、探索性分析、文本分类、主题建模以及报告生成。这些任务可根据需

CN 1060555 A

说明书

3/10页

要单独执行且不需要遵循指定的顺序。[0026] 说明书中提及的“一个实施方式”、“实施方式”、“示例性实施方式”，是表示所描述的实施方式可包括特定的特征、结构或特性，但各个实施方式可以不必包括该特定特征、结构或特性。此外，这种用词不必指向同一实施方式。此外，当结合实施方式描述特定的特征、结构或特性时，无论是否明确描述，将这些特征、结构或特性与其他实施方式相结合均属于本领域技术人员的知识范围内。

[0027] 图1为根据本技术的各方面实现的文本挖掘系统的框图，该系统配置成根据本技术从输入数据集中提取相关文本。文本挖掘系统10通常包括用户接口12、文本分析模块14以及存储电路16。每个部件在下文中进一步详细描述。[0028] 文本挖掘系统10配置成从多个源24、26和28接收输入数据集18、20、22。输入数据集的示例包括从诸如社交媒体平台、销售和市场渠道、财务报告等的多个源获得的大量的文本、字母数字数据等。就本说明书和权利要求而言，术语“社交媒体平台”可以涉及任何类型的计算机化机制，通过该机制人们可以互相联络或通信。一些社交媒体平台可以是以正式方式便于用户之间端到端通信的应用程序。其他社交网络可以是较不正式的，且可以包括用户的邮件联系人列表、电话簿、邮件列表或可使用户从中发起或接收通信的其他数据库。此外，应注意，术语“用户”可以指自然人以及以“用户”方式运行的其他实体，如公司、组织、企业、团队或者其他人群。

[0029] 用户接口12配置成使用户能够提供用于预定义操作的一组关键词。与关键词相关的输入数据集是从以参考数字24、26、28整体标记的多个来源获得的。源的示例为诸如Twitter、Facebook等的社交网络、来自各个商业部门的商业报告以及特定股票市场的走势和预测等。

[0030] 文本分析模块14耦接到用户接口12，并且配置成接收根据用户指定的关键词得到的输入数据集18、20、22，并通过精读该输入数据集生成输出数据集。输出数据集30是指从该输入数据集提取的相关文本。文本分析模块14执行与选定的关键词相关的多种操作，如数据处理、探索性分析、文本分类、主题建模以及报告生成，以从输入数据集18、20、22提取相关文本。文本分析模块14还配置成通过允许用户从多种语言中选择输入数据集来提供语言兼容性。

[0031] 存储电路16耦接至文本分析模块14，并且配置成储存输入数据集18、20、22和输出数据集30。从输入数据集18、20、22提取相关文本的方式在下文中进一步详细描述。[0032] 图2为根据本技术的各方面实现的使用文本挖掘系统从输入数据集中提取相关文本的一种方法的流程图。输入数据集可从上面描述的各种社交媒体平台得到。该过程的每个步骤描述如下。[0033] 在块42处，接收到根据用户指定的关键词得到的输入数据集。关键词是由用户通过用户接口12提供的。通常，输入数据集可以包括用于如某种产品、该产品名称、公司或组织名称等的关键词。在一个实施方式中，输入数据集可以是基于用户指定的语言偏好的任何语言。语种的示例包括但不限于英语、德语、西班牙语、葡萄牙语、法语等。在块44处，输入数据集被转换成分析文本集。在一个实施方式中，输入数据集通过执行数据处理任务进行预处理以过滤不相关文本。例如，停止词、特殊字符、电话号码、URL’s、电子邮件地址等就是从输入数据集中去除的一些不相关文本的示例。在另一示例

[0034]

CN 1060555 A

说明书

4/10页

中，如名词、动词、形容词等的不相关文本被去除或集合在一起以形成分析文本集。[0035] 在块46处，执行探索性分析以确定所述分析文本集中存在的相关性。探索性分析建立输入数据集间存在的复杂关系。探索性分析的示例包括频率分析和关系分析。[0036] 在块48处，基于探索性分析的结果来生成提供一个或多个已分类的文本集的一个或多个模型。每个模型提供一个或多个已分类的文本集以实现由用户确定的预定义目标。文本分类的过程包括：识别分析文本中的固有结构以及根据相似度将变量归为一个或多个类别。

[0037] 在块50处，执行主题建模以识别在分析文本集中反复出现的主题。分析文本集既可以是已分类的文本集或者未分类的文本集。基于分析文本集中存在的若干题目识别主题。该过程捕获在数学框架中反复出现的文本的标识，以允许基于单词的统计对分析文本集进行检查，在每个分析文本集中识别主题并确定主题的平衡。此外，确定主题中每个单词的相对重要性。

[0038] 在块52处，基于用户提供的所期望的条件生成多个报告。多个报告可在所述过程流的不同阶段生成。不同的报告可以在报告框架的同一个位置查看并且可简便地对比不同报告的结果。

[0039] 在块处，基于上面所述的探索性分析、分类和主题建模步骤的结果生成输出数据集。生成的输出数据集然后用于各种分析操作。文本分析模块操作的方式在下文中进一步详细描述。

[0040] 图3为根据本技术的各方面实现的示例性文本分析模块的框图。文本分析模块60包括数据处理模块62、探索性分析模块、文本分类模块66、主题建模模块68以及报告模块70。每个部件在下文中进一步详细描述。

[0041] 数据处理模块62配置成将输入数据集转换成分析文本集。数据处理模块62通过清理输入数据集执行此操作。在一个实施方式中，数据处理模块62配置成通过从输入数据集中过滤不相关成分来执行预处理任务。由用户提供的输入数据集可以是基于由用户指定的语言偏好的任何语言。语种的示例包括但不限于英语、德语、西班牙语、葡萄牙语、法语等。输入数据集的清理包括检测、纠正或去除不相关文本。数据处理模块62还执行包括断词、断句、词性标注、命名实体提取、分块、语法分析、共指消解等的各种任务。

[0042] 探索性分析模块在由数据处理模块62生成的分析文本集上进行操作，并且其配置成确定在分析文本集中存在的各种相关性。在一个实施方式中，探索性分析模块还包括在下文中进一步详细描述的频率分析模块72和关系分析模块74。

[0043] 频率分析模块72配置成执行分析文本集的详细分析。该详细分析包括如去除稀疏词语、识别具有用于分析的最低阈值频率的词语、识别最频繁出现的一元分词或二元分词(两个词的组合)以及识别分析文本集中的热门词语的操作。[0044] 关系分析模块74配置成根据所述变量、词性以及热门关键词数量确定关键词的出现频率。在一个示例性实施方式中，当用户选定任意热门关键词时，将搜索分析文本集中的相关词语。对于分析文本集中的相关词语中的每个计算其相关得分。相关得分表示其他词语与选定词语间存在的相关强度。此外，还会计算其他参数，例如表示分析文本集中特定词语出现的数量的词语频率。

[0045] 文本分类模块66配置成基于探索性分析模块的结果生成多个分析文本集的模

CN 1060555 A

说明书

5/10页

型。如前所述，所述分析文本集可以为已分类的文本集或者可以为未分类的文本集。文本分类模块66使用机器学习模型执行如模型构建、模型诊断、预测以及迭代历史等的多种操作。

[0046] 在一种实施方式中，首先通过对分析文本集的子集(例如，样本数据集)进行手动分类来执行文本分类。文本分类模块66通过建立实际分类模块对分析文本集进行分类，实际分类模块通过识别用于样本数据集的多个类别来创建；然后通过在分析文本集上应用所识别的类别创建预测性分类模块。文本分类模块66进一步以迭代方式对实际分类模块和预测性分类模块进行比较。[0047] 然后，用于手动分类的参数被外推为分析文本集的其余部分。在一个实施方式中，监督机器学习算法被应用于分析文本集。监督机器学习可以使用机器学习规则或手动编码规则定制。例如，在模型建立期间可通过使用如支持向量机(SVM)、随机森林、GLMNET和最大熵等的训练数据和算法来创建模型。

[0048] 主题建模模块68配置成识别在分析文本集中反复出现的多个主题。主题建模模块68提供了一种分析大量未标记文本的简单方法。通常，分析文本集包括频繁一起出现的一串单词。主题建模模块68利用语境线索关联具有类似含义的词语，并区分具有多重含义的词语的用法。此外，主题建模模块68通过统计规律识别遍布在数据集中的隐藏的主题模式并用这些主题对文本进行注释。这些主题注释进一步用来整理、归纳和搜索文本。

[0049] 主题建模模块68使用一套非监督式机器学习算法来检查文本。在一个示例性实施方式中，使用了隐含狄利克雷分配(LDA)算法。LDA算法生成语料库的概率模式，这允许各组观测值通过未观测组解释，以解释文本的一些部分相似的原因。

[0050] 报告模块70配置成使用户能够访问由文本分析模块60生成的多个报告。这些报告以这种方式生成，以允许将各主题和每个主题的关键词视为词云，并提供查看主题分布表的可能性。报告模块70还便于储存报告以使用户能够从单个位置访问多个报告。手动分类分析文本集的方式在下文中进一步详细描述。

[0051] 图4为根据本技术的各方面实现的对分析文本集进行分类的一种方法的流程图。该过程的每个步骤描述如下。[0052] 在块76处，从分析文本集中选出样本数据集。如前所述，样本数据集为分析文本集的子集。在块77处，使用由用户定义的多个参数手动分类样本数据集以创建实际分类模块。文本分类的过程包括：识别输入数据集中的固有结构并根据相似度将变量分组为一个或多个类别。此外，通过对分析文本集应用所识别的类别来创建预测性分类模块。以迭代方式对实际分类模块和预测性分类模块进行比较。[0053] 在块78处，对样本数据集进行外推以对分析文本集的剩余部分进行分类。外推是通过使用机器学习模型执行如模型构建、模型诊断、预测以及迭代历史等操作完成的。例如，在构建模型期间，可通过使用训练数据以及如支持向量机(SVM)、随机森林、GLMNET和最大熵等的算法来创建模型。

[00] 以上描述的文本挖掘系统可以作为配置成在计算设备上执行的文本挖掘工具来实现。该文本挖掘工具配置成从输入数据集中提取相关文本并包括多个接口。相关接口中的一些在下文进一步描述。

[0055] 图5为根据本技术的各方面实现的文本挖掘工具的示例性主界面。主界面80使

CN 1060555 A

说明书

6/10页

用户能够通过使用“ADD DATASET”选项卡82来添加输入数据集。用于待添加输入数据集的路径可通过“DATASET PATH”(数据集路径)选项卡84来指定。此外，各个现有的输入数据集可以用窗格86查看。

[0056] 图6A至图6C为根据本技术的各方面实现的文本挖掘工具的示例性数据处理界面。数据处理界面6A到6C使得用户能够在输入数据集上执行多个数据处理操作以生成分析文本集。在所示实施方式中，数据预处理界面90使用户能够执行主要涉及报告生成(单元92)和报告查看(单元94)的操作。在报告生成操作期间，用户可使用在数据预处理界面90中提供的数据集栏(单元96)来选择输入数据集。数据处理界面6A和6B还使用户能够执行与多种语言如英语、德语、西班牙语、葡萄牙语及法语等的数据处理有关的操作。用户可使用分析语言栏(单元97)指定语种偏好。在所示实施方式中，用户指定的语种偏好为英语。

[0057] 数据预处理界面90还包括关于面板层级98、变量面板100和报告102的窗格。变量面板100允许用户选择包括分类变量(单元104)在内的多个变量。此外，提供了数据集查看面板(单元106)供用户快速查看所选变量的数据。数据集查看面板(单元106)还允许用户在所选变量中搜索特定词语。用户还可使用选项卡“Create Indicator”(单元108)创建指示变量，以用于随后可用于执行分析的所搜索的数据。

[0058] 图6B示出了使用户能够执行多个数据清理操作(单元112)的数据清理界面110。数据清理界面110便于用户选择新变量或对现有变量进行操作。数据清理操作(单元112)从输入数据集中去除噪声。执行的数据清理操作的示例包括移除电话号码、移除特殊字符、移除停用词、移除URLs、移除空格、移除电子邮件地址等。数据清理界面110还允许用户指定数据清理操作的顺序，并且该顺序还可以按要求由用户改变。此外，允许用户在指定的数据清理操作顺序的任何阶段/步骤创建变量。

[0059] 图6C示出使用户能够通过基于用户提供的某些分隔符分割输入数据集来执行观察分割(单元122)的观察分割界面120。分割后的输入数据集可进一步用来执行分析。观察分割(单元122)允许更好地理解在输入数据集中呈现的情感/类别。输入数据集和处理过程分别使用数据集(单元124)栏和处理过程(单元126)栏进行选择。多个分割选项(单元128)通过使用关于分割变量(单元130)、分隔符(单元132)、最小分割长度(单元134)和分割后最小长度(单元136)的栏进行指定。在观察分割界面120中设置的分割预览窗格(单元138)便于用户预览与所选分割选项有关的注释。

[0060] 图7为根据本技术的各方面实现的文本挖掘工具的探索性分析界面的示例。在所示实施方式中，探索性分析界面150包括频率分析(单元152)和关系分析(1)。频率分析(单元152)和关系分析(1)中的每个进一步包括关于报告生成(单元156)和报告查看(单元158)的栏。

[0061] 频率分析(单元152)对分析文本集进行详细分析并执行如移除稀疏词语、识别具有用于分析的最低阈值频率的词语、识别最频繁出现的一元分词或二元分词(两个词的组合)以及识别热门词语的操作中的一些。在示例性实施方式中，用户可使用变量窗格160与来自选项窗格162的若干选项一起从选择变量。设置在选项窗格162中的若干选项包括属性(单元1)、词性(单元166)以及分析类型(单元168)。用户可以指定如最小单词长度(单元170)、最小文档频率(单元172)、实体类型(单元174)、常用词语(单元176)

CN 1060555 A

说明书

7/10页

以及热门词语(单元178)的参数。

[0062] 关系分析(单元1)根据用户选定的变量、词性以及热门关键词数量生成并显示出现的关键词的频率。

[0063] 图8A为根据本技术的各方面实现的文本挖掘工具的示例性报告生成界面180。如图所示，执行频率分析生成的报告可通过如条形图(单元182)、文字标签云(单元184)或表格(单元186)的可视化形式查看。与频率分析相关的若干参数通过如关键词(单元188)、频率(单元190)、频率份额(单元192)、注释数量(单元194)和注释份额(单元196)的列表形式查看。

[00] 图8B示出使用户能够对在两个不同输入数据集上执行的频率分析操作进行比较的对照界面200。用于对比的输入数据集和相应的报告可以通过界面200中设置的由参考数字202至208表示的选择栏进行选择。对比模式通过单选按钮210选择并使用对比表格(单元212)查看。对比结果突出关键对比属性，如相似单词计数、不相似单词计数、kappa值、卡方值等。对比界面200向用户提供选项以通过各种用户友好格式导出对比结果。[0065] 图9是示出根据本技术的各方面实现的文本挖掘工具的模型定义的示例性文本分类界面。文本分类界面220包括关于模型定义(单元222)、模型构建(单元224)、模型诊断(单元226)、预测(单元228)以及迭代历史(单元230)的多个栏。在调用模型定义(单元222)选项卡时，可使用训练数据集(单元232)和在“options”栏234中得到的如支持向量机(SVM)、随机森林、GLMNET和最大熵等的各种算法来创建多个机器学习模型。训练数据集232包括所有变量以及包含所指定类别的最终结果变量的完备集。例如，所述变量可以描述文档的独特单词而所需类别可以描述情感类型如积极、消极和中立。

[0066] 图10为根据本技术的各方面实现的文本挖掘工具的示例性模型构建界面。模型构建界面240包括与输入数据集选择(单元242)、因变量(单元244)以及迭代次数(单元246)有关的多个栏。模型构建界面240还包括窗格248以表示与所选模型相关的统计。[0067] 图11为根据本技术的各方面实现的文本挖掘工具的示例性模型诊断界面。如图所示，一旦建立了模型，便基于模型统计使用模型诊断界面250进一步进行评估作为模型诊断的一部分。如使用窗格252所示出的，模型是使用与特定模型有关的预测数据与实际数据进行比对来评估的。同样的评价还可以使用如饼状图(单元2)的多种可视化方式查看。

[0068] 图12为根据本技术的各方面实现的文本挖掘工具的示例性迭代历史查看界面。一旦如上所述执行了模型诊断后，接着进行预测步骤，该步骤需要对涉及模型部分的更大输入数据集进行打分以对文本分类。预测步骤的结果可以导致迭代历史，借助于表格和图表(单元2)，迭代历史便于对各种迭代(单元262)进行对比。

[0069] 图13为根据本技术的各方面实现的文本挖掘工具的示例性主题建模界面。主题建模界面270包括选择栏(单元272)和报告栏(单元274)，报告栏允许关于与主题数量有关的模型选择并基于由用户选择的一个或多个标准生成报告。此外，主题建模界面270还允许基于预定义的主题搜索和探索文档集。如图14(主题分布界面280)所示，可以生成报告作为主题建模的结果，主题建模的结果允许以词云的方式查看主题和每个主题的关键词并且还提供查看主题分布表的可能性。

[0070] 以上所述的系统提供包括处理多种语言的数据集的诸多优点。此外，本文所述的

CN 1060555 A

说明书

8/10页

技术使用实际分类技术和预测技术将数据分类成特定类别。此外，本文所述的技术还包括对不同主题的文本中反复出现的单词进行建模等。

[0071] 以上所述的技术可以通过图1和图3所示的文本挖掘系统执行。以上所述的技术可具体化为装置、系统、方法和/或者计算机程序产品。相应地，以上所述主题的部分或全部可具体化在硬件和/或者软件中(包括固件、常驻软件、微代码、状态机、门阵列等)。此外，所述主题可以采取计算机可用或计算机可读存储介质上的诸如分析工具的计算机程序产品的形式，该介质具有集于介质中的计算机可用或计算机可读程序代码，以供指令执行系统使用或与其联系。在本说明书上下文中，计算机可用或计算机可读的存储介质可以是可包含、存储、通信、传送或传输程序的任何介质，以供指令执行系统、装置或设备使用或与其联系。

[0072] 计算机可用或计算机可读介质可以为例如但不限于，电子、磁性、光学、电磁、红外或半导体系统、装置、设备或传送介质。举例来说，但并非，计算机可读介质可包括计算机存储介质和通信介质。

[0073] 当本主题具体化在计算机可执行指令的一般环境中时，实施方式可包括由一个或多个系统、计算机或其他设备执行的程序模块。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。通常，程序模块的功能可以根据期望在各种实施方式中组合或分配。

[0074] 图15是示出了根据本技术的布置为从多个输入数据集提取相关文本的示例性计算系统300框图。在非常基础的配置302中，计算系统300通常包括一个或多个处理器304以及系统存储器306。存储总线308可用于在处理器304与系统内存306之间进行通信。[0075] 根据所期望的配置，处理器304可以为包括但不限于微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)或者以上的任意组合的任意类型。处理器304可包括一级或多级缓存，如一级缓存310、二级缓存320、处理器内核314以及寄存器316。示例性处理器内核314可以包括算术逻辑单元(ALU)、浮点单元(FPU)、数字信号处理芯(DSP Core)或以上的任意组合。示例性存储控制器318也可与处理器304一起使用，或在一些实现中，存储控制器318可作为处理器304的内部部件。[0076] 根据所期望的配置，系统存储器306可以为包括但不限于易失性存储器(如RAM)、非易失性存储器(如ROM、闪存等)或以上的任意组合的任意类型。系统存储器306可以包括操作系统320、作为应用程序322的文本分析模块324以及作为程序数据326的输入数据集328。

[0077] 文本分析模块324配置成接收输入数据集328并通过分析输入数据集328生成输出数据集。所述基础配置302在图15中由内部虚线框中的组件示出。

[0078] 计算系统300可具有附加的特性或功能以及附加的接口以便于在基础配置302与任何所需设备和接口之间进行通信。例如，总线/接口控制器330可用于促进基础配置302与一个或多个数据储存设备332通过存储接口总线338进行通信。数据储存设备332可以是可移动存储设备334、不可移动存储设备336或以上的组合。可移动存储设备和不可移动存储设备的示例包括磁盘设备，举例来说，如软盘驱动器和硬盘驱动器(HDD)、诸如CD光盘(CD)驱动器或数字多用盘(DVD)驱动器的光盘驱动器、固态硬盘(SSD)以及磁带驱动器。计算机存储介质的示例可以包括以储存如计算机可

[0079]

CN 1060555 A

说明书

9/10页

读指令、数据结构、程序模块或其他数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。[0080] 系统内存306、可移动存储设备334以及不可移动存储设备336是计算机存储介质的示例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储技术；CD-ROM、数字多用盘(DVD)或其他光学存储；盒式磁带(magnetic cassettes)、磁带、磁盘存储或其他磁性存储设备；或者可用于存储所期望的信息并且可由计算系统300访问的任何其他介质。

[0081] 计算系统300还可包括接口总线340以便于通过总线/接口控制器330从各种接口设备(如输出设备342、外设接口344和通信设备346)到基础配置302的通信。示例性输出设备342包括图形处理单元348和音频处理单元350，其可配置成通过一个或多个A/V端口352与如显示器或扬声器的各种外部设备通信。

[0082] 示例性外设接口344包括串行接口控制器3或并行接口控制器356，其可配置成通过一个或多个I/O端口358与诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备等)或其他外围设备(如打印机、扫描仪等)外部设备通信。示例性通信设备346示例包括网络控制器360，其可以配置成便于通过一个或多个通信端口3在网络通信链路上与一个或多个其他计算设备362进行通信。

[0083] 网络通信链路可以是通信介质的一个示例。通信介质通常可由计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据具体化(例如载波或其他传输机制)，并且可包括任何信息传送介质。“调制数据信号”可以是具有其特征集中的一种或多种特征的信息或以对信号中的信息编码的方式变换的信号。举例来说，但非，通信介质可包括诸如有线网络或直接有线连接的有线介质，以及无线介质诸如声学、射频(RF)、微波、红外线(IR)和其他无线介质的无线介质。本文所用的术语计算机可读介质可包括存储介质和通信介质。

[0084] 计算系统300可实现为小外形因素便携式(或可移动)电子设备，诸如手机、个人数据助理(PDA)、个人媒体播放设备、无线网络手表设备、个人耳机设备、特定应用设备、或者包括任何以上功能的混合式设备等。可以注意到，计算系统300还可实现为包括便携式计算机配置和非便携式计算机配置的个人计算机。[0085] 本领域人员应理解，通常，用于本文中的术语，尤其是用于所附权利要求书(例如，所附权利要求书的主体)中的术语通常旨在为“开放式”术语(例如，术语“包括”应被解释为“包括但不限于”，术语“具有”应被解释为“至少具有”，术语“包括”应被解释为“包括但不限于”等)。本领域人员还应理解，如果引入的权利要求陈述的具体数量是有意图的，则该意图将被明确地记载于权利要求中，没有这种陈述时则不存在这种意图。[0086] 例如，为了有助于理解，下面所附的权利要求书可包括引导性短语“至少一个”和“一个或多个”的使用以引入权利要求的陈述。但是，即使当相同的权利要求包括引导短语“一个或多个”或“至少一个”以及如“一个(a)”或“一个(an)”(例如，“一个(a)”和/或“一个(an)”应被解释为是指为“至少一个”或“一个或多个”)的不定冠词时，使用这样的短语不应被解释为暗示由不定冠词“一个(a)”或“一个(an)”引导的权利要求陈述将包括这种引导权利要求陈述的特定权利要求为仅包括一种这种陈述的实施方式；以上同样适用于使用定冠词引导的权利要求陈述。此外，即使明确列举了引导的权利要求陈述的具

CN 1060555 A

说明书

10/10页

体数量，本领域的技术人员应认识到这样的陈述应被解释为是指至少所列举数量(例如，没有任何修饰的“两个陈述”的直白陈述，是指至少两个陈述，或者两个或两个以上陈述。)[0087] 尽管本文仅对若干实施方式的某些特性进行了说明和陈述，但是本领域技术人员将想到多种修改和改变。因此，应理解，所附权利要求旨在覆盖落入本发明精神范围内的所有这些修改和改变。

CN 1060555 A

说明书附图

1/18页

图1

CN 1060555 A

说明书附图

2/18页

图2

CN 1060555 A

说明书附图

3/18页

图3

CN 1060555 A

说明书附图

4/18页

图4

CN 1060555 A

说明书附图

5/18页

图5

CN 1060555 A

说明书附图

6/18页

图6A

CN 1060555 A

说明书附图

7/18页

图6B

CN 1060555 A

说明书附图

8/18页

图6C

CN 1060555 A

说明书附图

9/18页

图7

CN 1060555 A

说明书附图

10/18页

图8A

CN 1060555 A

说明书附图

11/18页

图8B

CN 1060555 A

说明书附图

12/18页

图9

CN 1060555 A

说明书附图

13/18页

图10

CN 1060555 A

说明书附图

14/18页

图11

CN 1060555 A

说明书附图

15/18页

图12

CN 1060555 A

说明书附图

16/18页

图13

CN 1060555 A

说明书附图

17/18页

图14

CN 1060555 A

说明书附图

18/18页

图15

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文