卯卯 | 炼就一手绝世刀法!

日出东海落西山,愁也一天,喜也一天。遇事不钻牛角尖,人也舒坦,心也舒坦!

运用CNN对情感句子进行分类和膨胀CNN对医疗命名实体识别feed_dict数据准备的区别(一)

区别:

区别一:情感表达的句子相对较短,全部最长的句子也就56个词组成,因此在数据准备和特征提取时优先将每个不同长度的句子都统一padding 上0,在model中词嵌入后,结果类似长、宽都是一样的图片,进行卷积。主要用的事tf的learn来实现句子等长功能。

如图:每个batch喂进去的‘图片’都是一样大小。

image.png

image.png



区别一:由于医疗文本是段落,长短不一,有的10几个字,有的高达400-500字。因此为了节约资源,选着在batch的时候进行padding上0,具体的做法是先对输入的所有的特征按一个文本中字的个数先排序,这样相对短长的文本就会排在前面,再取batchsize,比如batchsize=60,前60个相对较短的文本就会在前面,这时对这个取出的60个,padding上0。最后的结果在model中词嵌入后,结果类似每个batch之间,所有图片的长都是一样的,但是宽可能不一样,要根据每次取出来的那60文本中哪个最长,但是一定是越来越长的,因为我们先在前面对文本先排过序。(注:分类器不是softmax时才可以使用这种方法,softmax需要输入是等长的,这里用的最后接的事CRF

image.png

image.png






发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

«   2025年4月   »
123456
78910111213
14151617181920
21222324252627
282930
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
搜索
最新留言
文章归档
网站收藏
友情链接
  • RainbowSoft Studio Z-Blog
  • 订阅本站的 RSS 2.0 新闻聚合

Powered By Z-BlogPHP 1.5.2 Zero

转载请注明文章出处!!!!!