卯卯 | 炼就一手绝世刀法!

日出东海落西山,愁也一天,喜也一天。遇事不钻牛角尖,人也舒坦,心也舒坦!

实际应用中的分词以及会遇到的各种问题。---自定义词典+正则的形式分词。-结巴

中文分词可以用jieba,hanlp

jieba和hanlp都是可以加载自定义词典的,

在jieba中:

(1)只是加载词典并不调整词频,在分词时,有些词是可以分的开,有的词任然分不开,这时就需要动态的调整词频,这样词就一定可以分开。

(2)有些词是不能加到词典中的,因为穷举不完,例如,10%,20.5%。。。这种穷举不完的又有一定的特点的词,就可以运用正则的方式,进行分词。

为什么在jieba分词的时候我们要调整词频呢?

image.png


在hanlp中:

(1)有些词分不开的时候,加载自定义的词典,分词是按照加载进词的顺序分词的,如果想按照词尽量长的来分词,先是对词进行一下排序。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

«   2025年4月   »
123456
78910111213
14151617181920
21222324252627
282930
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
搜索
最新留言
文章归档
网站收藏
友情链接
  • RainbowSoft Studio Z-Blog
  • 订阅本站的 RSS 2.0 新闻聚合

Powered By Z-BlogPHP 1.5.2 Zero

转载请注明文章出处!!!!!