卯卯 | 炼就一手绝世刀法！-自然语言处理第2页

2019-03-23 21:54:51

根据底层的编码来去噪音，unicodedata.category()参考链接：http://ju.outofmemory.cn/entry/374250类型码类型信息LuLetter, uppercaseLlLetter, lowercaseLtLetter, titlecaseLmLetter, modifierLoLetter, otherMnMark, nonspacingMcMark, spacing combiningMeMark, enclosingNdNumber, decimal

2019-03-10 23:00:08

运用CNN对情感句子进行分类和膨胀CNN对医疗命名实体识别feed_dict数据准备的区别(四)

区别4：1.1CNN对情感句子进行分类使用卷积核，padding参数是‘VALID',卷积完的结果是(?, 56, 1,128)。（padding参数如果是‘SAME'，卷积完的结果为(?, 56, 128,128)。）1.2,CNN对情感句子进行分类，只卷积了一次就进入了全连接。2.1 膨胀CNN卷积了多次，并且膨胀卷积的输入是一个普通卷积的结果，此时的padding=’SAME‘,最后卷积完的’图片‘大小没有变化。普通卷积的结果再膨胀卷积多次后，累加卷积结果，最后再

2019-03-10 20:48:33

运用CNN对情感句子进行分类和膨胀CNN对医疗命名实体识别feed_dict数据准备的区别(三)

区别三：dropout的位置不一样，CNN对情感句子进行分类是卷积层到全链接层加了dropout。膨胀CNN对医疗命名实体识别是还没进行卷积的时候dropout。（加入了字的上下文信息，字的长度信息，要去掉一些，否这会太精确，免得过拟合发生？）

2019-03-10 18:36:14

运用CNN对情感句子进行分类和膨胀CNN对医疗命名实体识别feed_dict数据准备的区别(二)

区别二：在CNN网络中词嵌入的部分有所不同，词嵌入——将字的编号，对应到session.run(tf.global_variables_initializer())后，代表的字向量的过程。不同的是：医疗命名实体识别的创建模型过程中，session.run(tf.global_variables_initializer())后，用word2vec提前生成好的vec.txt,字向量替代了session.run(tf.global_variables_initializer())后变量，这样，词再嵌入

2019-03-10 08:51:27

运用CNN对情感句子进行分类和膨胀CNN对医疗命名实体识别feed_dict数据准备的区别(一)

区别：区别一：情感表达的句子相对较短，全部最长的句子也就56个词组成，因此在数据准备和特征提取时优先将每个不同长度的句子都统一padding 上0，在model中词嵌入后，结果类似长、宽都是一样的图片，进行卷积。主要用的事tf的learn来实现句子等长功能。如图：每个batch喂进去的‘图片’都是一样大小。区别一：由于医疗文本是段落，长短不一，有的10几个字，有的高达400-500字。因此为了节约资源，选着在batch的时候进行padding上0，具体的做法是先对输入的所有的特征按一个文本中字的

2019-03-06 21:43:48

命名实体识别标注总结

在之前学校的时候用人工标注数据，CRF++实现了一个关于招聘信息的命名实体识别。（前面的文章有写，自自行寻找。）参加工作以后发现之前虽然实现了命名实体识别，但是实体并没有识别到详细的类别上。因为自己目前在医疗行业，实际需求是不但要识别出哪些实体，还要识别出实体是属于哪个类别的实体。比如，心脏病是一个实体，还要识别出他是一个病DIS，那么标记就变成了：心 B-DIS脏 I-DIS病 E-DIS而不是之前的：心 B脏 I病 E这样在数据集准备的手段和方法就会有所差别，之前手工标注(职位要求：1,懂【

2019-02-09 19:49:10

特定领域命名实体识别词典的准备

第一步：写好命名实体个标注的文档。第二步：从医疗网站上爬取相关信息，制作成上述文档约束的词典，留着备用。词典里的数据也可以是从教课书里某些地方确定是什么类型标注的。生成的词典可能还有少部分是错误的需要人大概的去检查看一下。

2019-02-09 17:58:23

医学命名实体识别的难点

1、如何生成深度学习可用的标签数据——给大两的医疗文本打上实体类别的标签。（程序自动化打标签，分词技术）2、传统的基于规则和机器学习算法的实体识别准确率不高，如何提升。3、部分医疗实体名字特别长，如何获取更长的上下文依赖，让识别准确率更高。用膨胀的卷积神经网络4、类别不均衡，有些类别的词特别少，有些很多。有些词就是很少的，例如，一些修饰词就很少。5、未登录词如何处理。（药品的名字千千万，未必都收集齐了。）

卯卯 | 炼就一手绝世刀法！

日出东海落西山，愁也一天，喜也一天。遇事不钻牛角尖，人也舒坦，心也舒坦！

2019-03-23 21:54:51

LSTM文本分类代码解释图——LSTM的图形化理解

作者:yangli | 分类:自然语言处理 | 浏览:1353 | 评论:0

2019-03-16 19:52:44

文本噪音去干净

作者:yangli | 分类:自然语言处理 | 浏览:773 | 评论:0

2019-03-10 23:00:08

运用CNN对情感句子进行分类和膨胀CNN对医疗命名实体识别feed_dict数据准备的区别(四)

作者:yangli | 分类:自然语言处理 | 浏览:710 | 评论:0

2019-03-10 20:48:33

运用CNN对情感句子进行分类和膨胀CNN对医疗命名实体识别feed_dict数据准备的区别(三)

作者:yangli | 分类:自然语言处理 | 浏览:610 | 评论:0

2019-03-10 18:36:14

运用CNN对情感句子进行分类和膨胀CNN对医疗命名实体识别feed_dict数据准备的区别(二)

作者:yangli | 分类:自然语言处理 | 浏览:796 | 评论:0

2019-03-10 08:51:27

运用CNN对情感句子进行分类和膨胀CNN对医疗命名实体识别feed_dict数据准备的区别(一)

作者:yangli | 分类:自然语言处理 | 浏览:1165 | 评论:0

2019-03-06 21:43:48

命名实体识别标注总结

作者:yangli | 分类:自然语言处理 | 浏览:829 | 评论:0

2019-02-09 19:49:10

特定领域命名实体识别词典的准备

作者:yangli | 分类:自然语言处理 | 浏览:1232 | 评论:0

2019-02-09 17:58:23

医学命名实体识别的难点

作者:yangli | 分类:自然语言处理 | 浏览:1008 | 评论:0

2019-02-08 23:31:05

文章相似度计算

作者:yangli | 分类:自然语言处理 | 浏览:796 | 评论:0

Powered By Z-BlogPHP 1.5.2 Zero

转载请注明文章出处！！！！！

« 2025年7月 »
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31