2018-07-12 23:04:49
上一篇中我们利用词性进行了关键词提取。但是日期是无法过滤的,因为时间表达上形式不一。错误观念:一旦遇到需要匹配文章或者段落中部分实体的时候,一般第一会想到的就是正则,但是由于表达形式不同文本表达形式的不同,往往正则很无能为力或者准确率不高。只有针对非常整齐单一的文本(时间是写的相同格式18-2-10、18/3/4等)才适合用正则,例如我们在做爬虫时,面对网页中标签的里的内容时。在实际应用中可能需要过滤掉日期、人名、地名等,这一篇中使用的思路就是先识别、再过滤-采用stanfordnlp命名实体识
2018-07-12 14:36:46
1,文本去噪音:去噪音的方法有很多种,去停用词,或者通过词性来去噪音。这里介绍的是利用hanlp词性识别的方法去噪音的方法。2,调用。