卯卯 | 炼就一手绝世刀法!

日出东海落西山,愁也一天,喜也一天。遇事不钻牛角尖,人也舒坦,心也舒坦!

中文分词

在中文自然语言中,词是组成句、段章的基本语言单元。由于汉语词语之间没有明显的区分标记,因此,在进行中文自然语言处理前,通常是先将汉语文本中的字符串切分成合理的词语序列,并在此基础上进行其他分析处理。中文的词法分析在很多情况下表现为中文分词,她也是自然语言处理中的一项基础性的工作。分词能将每段文本分成独立的词汇单元,词性标准能标引出每个词的此次那个。

中文分词就是将中文字符串切分成合理词语的过程,它是中文信息处理的一个基础环节。

相关学者和研究人员在这个领域已经取得了一些客观成果,也有了一些通用分词算法。需要指出的是,分词算法想获得更好的切分精度,通常需要利用更多的语言资料,这样必定会耗费更多时间。影响分词准确率的一大因素是歧义,切分歧义包括组合型歧义和交集型歧义。组合型歧义就是对于字符串AB,可以切分为AB,又可以切分为A/B,如‘人才’存在组合切分歧义,‘你/是/个/人才’及‘只有/你/的/人/才/会/理/他’;交集型歧义就是ABC,可以切分为AB/C,又可以切分为A/BC。如‘杭州/市长/春药/店’与‘杭州市/长春/药店’。限于当前的处理技术,汉语切分要做到百分之百的正确率比较难的,而且由于语言本身的复杂性,汉语词汇也没有确定的界定标准,加之网络未登录词、自定义词、缩略词、自造词等广泛应用,导致了不同的信息处理技术对分词标准不同要求。例如,对于信息检索系统来说,可能更倾向于较小的分词单位,比如把‘并行计算机’切分成‘并行/计算机’,‘计算语言学’切分成‘计算/语言学’,使得无论用‘并行计算机’还是用‘计算机’‘计算语言学’或‘语言学’检索都能查找到。当然,分词单元的粒度大小需要考虑到查全率和查准率。对于当前的一些实际应用来说,可能时间效率是更重要的。对于那些有较高切分精度的分词算法,因为速度慢,不仅无法满足实际应用需求,有时甚至也无法满足其他自然语言处理研究的需要。在目前的许多实际应用产品中,为了保证速度,不得不牺牲部分准确度,可能也采取了一些较简单的切分算法。


发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

«   2025年4月   »
123456
78910111213
14151617181920
21222324252627
282930
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
搜索
最新留言
文章归档
网站收藏
友情链接
  • RainbowSoft Studio Z-Blog
  • 订阅本站的 RSS 2.0 新闻聚合

Powered By Z-BlogPHP 1.5.2 Zero

转载请注明文章出处!!!!!