2019-02-09 19:49:10
第一步:写好命名实体个标注的文档。第二步:从医疗网站上爬取相关信息,制作成上述文档约束的词典,留着备用。词典里的数据也可以是从教课书里某些地方确定是什么类型标注的。生成的词典可能还有少部分是错误的需要人大概的去检查看一下。
2019-02-09 17:58:23
1、如何生成深度学习可用的标签数据——给大两的医疗文本打上实体类别的标签。(程序自动化打标签,分词技术)2、传统的基于规则和机器学习算法的实体识别准确率不高,如何提升。3、部分医疗实体名字特别长,如何获取更长的上下文依赖,让识别准确率更高。用膨胀的卷积神经网络4、类别不均衡,有些类别的词特别少,有些很多。有些词就是很少的,例如,一些修饰词就很少。5、未登录词如何处理。(药品的名字千千万,未必都收集齐了。)
2019-02-07 11:42:04
但是对于大量的文本来说,分出来的词:这个颗哈夫曼树叶是非常大,复杂度也很高。现在优化:才用负采样的方法。
2019-02-04 11:53:11
https://blog.csdn.net/HHTNAN/article/details/81739196
2019-01-26 10:32:43
参考链接:https://jingyan.baidu.com/album/22a299b5e6e4909e18376a4b.html?picindex=1
2019-01-21 22:03:46
为什么要用神经网络来训练词向量,而不是用N-gram:神经网络训练出来的模型:1,能发现近似的含义的词。2,求解出来空间是符合我们真实逻辑的。
2019-01-21 21:18:05
结果:代码:# -*- coding: utf-8 -*-from gensim.models import Word2Vecfrom sklearn.decomposition import PCAfrom matplotlib import pyplot# 训练的语料sentences = [['this', 'is', 'the', 'first', 'sentence', 'for',
2019-01-21 11:23:29
1,准确率是相对于机器的标准效率来说,机器标准正确的和错误的比:2,召回率是相对于监督的数据而言,原始数据正确的被标注的和没有正确被标注的;3,F值是综合评价指标:2×准确率×召回率/(准确率+召回率)