卯卯 | 炼就一手绝世刀法!

日出东海落西山,愁也一天,喜也一天。遇事不钻牛角尖,人也舒坦,心也舒坦!

日期、人名、地名、机构名等关键命名实体识别-使用stanfordnlp命名实体识别方法。

上一篇中我们利用词性进行了关键词提取。但是日期是无法过滤的,因为时间表达上形式不一。

错误观念:一旦遇到需要匹配文章或者段落中部分实体的时候,一般第一会想到的就是正则,但是由于表达形式不同文本表达形式的不同,往往正则很无能为力或者准确率不高。只有针对非常整齐单一的文本(时间是写的相同格式18-2-10、18/3/4等)才适合用正则,例如我们在做爬虫时,面对网页中标签的里的内容时。

在实际应用中可能需要过滤掉日期、人名、地名等这一篇中使用的思路就是先识别、再过滤-采用stanfordnlp命名实体识别。





image.png


image.png

树结果:

image.png

树遍历合并函数:

image.png


结果<Data>连续的两个节点相加,得到最终的Data实体,并保存为json文件:image.png

json文件结果:

image.png






发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

«   2025年4月   »
123456
78910111213
14151617181920
21222324252627
282930
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
搜索
最新留言
文章归档
网站收藏
友情链接
  • RainbowSoft Studio Z-Blog
  • 订阅本站的 RSS 2.0 新闻聚合

Powered By Z-BlogPHP 1.5.2 Zero

转载请注明文章出处!!!!!