卯卯 | 炼就一手绝世刀法!

日出东海落西山,愁也一天,喜也一天。遇事不钻牛角尖,人也舒坦,心也舒坦!

机器标注—训练数据集、测试数据集、验证数据集生成——通过结巴加载字典(词和类别)将标注问题转化为词性识别问题。

将原始的样本——标注,分割成可训练的数据集。最后生成的文档样式如下:

image.png

并进行数据分配:dev:test:train=12:2:1来生成序列化的数据集。

程序设计的思想:

前期准备

一、对于一个崭新的领域我们需要一个标注的标准文档——这个一般需要领域里的专业人员来完成。例如医学领域:

image.png

二、有了这个标准的标注细节文档,还要有对应的词典——一般通过网络上的爬取,自己来准备。样式如下:

image.png

有了以上两个条件针对我们的领域数据我们就可以处理了。

思路——这里利用词典进行命名实体的标注为后期的模型训练准备数据集:

第一步:加载词典并调整词频。

image.png

第二步:将语料一篇一篇的读进来,并统计总共多少语料,——便于后期train、test、dev数据集的分配。

image.png

第三步:利用加载了领域词典和词频调节的工具进行词性识别。

image.png

第四步:对词性识别后的结果进行标注处理。

image.png

image.png

image.png

第五步:标注思想。

image.png

image.png







发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

«   2025年4月   »
123456
78910111213
14151617181920
21222324252627
282930
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
搜索
最新留言
文章归档
网站收藏
友情链接
  • RainbowSoft Studio Z-Blog
  • 订阅本站的 RSS 2.0 新闻聚合

Powered By Z-BlogPHP 1.5.2 Zero

转载请注明文章出处!!!!!