2018-05-18 17:03:53
在中文自然语言中,词是组成句、段章的基本语言单元。由于汉语词语之间没有明显的区分标记,因此,在进行中文自然语言处理前,通常是先将汉语文本中的字符串切分成合理的词语序列,并在此基础上进行其他分析处理。中文的词法分析在很多情况下表现为中文分词,她也是自然语言处理中的一项基础性的工作。分词能将每段文本分成独立的词汇单元,词性标准能标引出每个词的此次那个。中文分词就是将中文字符串切分成合理词语的过程,它是中文信息处理的一个基础环节。相关学者和研究人员在这个领域已经取得了一些客观成果,也有了一些通用分词算
2018-05-10 11:18:47
有时候我们在爬虫过程中会遇到汉字中间有空格(/n/r/xaQ)的情况,至此我们需要对数据进行清洗:元素路径: body > p > img当前已输入 50 个字符