您好,欢迎来到年旅网。
搜索
您的当前位置:首页中文分词系统报告

中文分词系统报告

来源:年旅网


《算法设计与分析》课程

实验报告

一. 工程背景:

中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。

二. 概述:

1. 如何进行分词?

最容易想到的办法是,用一个大词典,把所有的词都存入词典中,扫描输入的文本,查找所有可能的词,然后看哪个词可以做为输出。如:

输入文本: 我是学生 词: 我/是/学生

总结起来,分词的算法分为: 1. 基于字符串匹配的分词方法 2. 基于理解的分词方法 3. 基于统计的分词方法 2.分词的问题 1.通用词表和切分规范

信息处理中分词单位的定义比传统意义上的词更宽泛些。分词系统可以面向解决实际问题的需求和真实语料中使用的频繁程度来规定“分词单位”。对于一个分词系统而言,制定一个一致性的分词单位切分规范是需要考虑的. 2.歧义切分字段

文本中歧义切分字段的判别。汉语中歧义切分字段最基本有两种类型:

交集型歧义字段,如:“好地/方”,“好/地方”两种切分结果。 组合型歧义。如:“有/才能/”。“他/才/能/告诉/你” 3.未登录词识别(新词) 3.中文分词解决方法

a.处理新词。

识别新词是最近几年分词技术研究的重点。总结起来,无非分成两种: 1. 基于规则的方法。 2. 基于统计、机器学习。

随着Machine Learning(机器学习)技术的不断进步,其应用范围也越来越广,中文分词算法也从中受益。ANN(人工神经网络), 最大熵模型, HMM(隐马尔可夫模型)等算法都在新词识别中有应用。

机器学习识别新词的好处在于自动寻找一些识别新词的特征,其准确度和召回率都能达到比较高的水平。但机器学习算法需要有足够多的训练语料,人工准备准确的大规模的训练语料也会十分困难。另外,机器学习算法一般速度会比较慢,优化速度,使之用于海量数据处理,也是使用机器学习的一个关键点。

4.目前分词广泛的方法

1.基于词表的分词-最大匹配(MM) 2.基于统计的分词

3.基于规则和基于统计相结合

三. 功能描述:

1. 字典的生成:

字典是通过语料生成的,“Dictiontary.txt”,将语料的内容采用

方式将其存储到字典中,采用流的方式按行读取。

HashMap的

2. 查词:

在字典中进行查找,通过HasnMap的containKey(String S)方法进行查找。 3. 分词:

此工程面向的对象是文档的分词,输入文档的名字,将分词的结果打印到控制台上,采用的是前向最大的方式对文本进行遍历。最大正向匹配算法的基本思想:假设字典中最长词语的长度为m,先根据汉语标点符号,及特征词把汉语句子划分成短句,然后去取前m个字,在字典中查找是否有这个词,如果存在,短语就去掉这个词;如果不存在就去掉m的字的最后一个字,检查是否是单字,若是输出次字并减去此字,若不是就继续判断看字库是否存在这个词,如此反复循环,知道输出一个词。此后继续去短语的前m个字,这样就可以将一个短语分成词语的组合了。

4. 结果显示:

四. 实验总结:

通过此次的试验首先是了解了学科内的新东西新知识,因为以前从未接触过这类的知识,再次是对算法和算法的重要性有了更深刻的体会,第一次体会到“算法是一个程序的核心”等等一系列思想。最后,开阔了视野,看到了不足,以后还有很多需要学习的东西。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- oldu.cn 版权所有 浙ICP备2024123271号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务