中文分词可以用jieba,hanlp
jieba和hanlp都是可以加载自定义词典的,
在jieba中:
(1)只是加载词典并不调整词频,在分词时,有些词是可以分的开,有的词任然分不开,这时就需要动态的调整词频,这样词就一定可以分开。
(2)有些词是不能加到词典中的,因为穷举不完,例如,10%,20.5%。。。这种穷举不完的又有一定的特点的词,就可以运用正则的方式,进行分词。
为什么在jieba分词的时候我们要调整词频呢?
在hanlp中:
(1)有些词分不开的时候,加载自定义的词典,分词是按照加载进词的顺序分词的,如果想按照词尽量长的来分词,先是对词进行一下排序。