卯卯 | 炼就一手绝世刀法！-自然语言处理第3页

2019-02-07 17:43:06

CBOW(continuous bag of words)原理

但是对于大量的文本来说，分出来的词：这个颗哈夫曼树叶是非常大，复杂度也很高。现在优化：才用负采样的方法。

2019-01-21 22:03:46

N-gram语言模型（基于词频统计）和word2vec（基于上下文信息）训练出来的词向量模型有什么优缺点？？？

为什么要用神经网络来训练词向量，而不是用N-gram：神经网络训练出来的模型：1，能发现近似的含义的词。2，求解出来空间是符合我们真实逻辑的。

2019-01-21 21:18:05

gensim训练word2vec并使用PCA实现二维可视化

结果：代码：# -*- coding: utf-8 -*-from gensim.models import Word2Vecfrom sklearn.decomposition import PCAfrom matplotlib import pyplot# 训练的语料sentences = [['this', 'is', 'the', 'first', 'sentence', 'for',

2019-01-21 11:23:29

自然语言模型的评估——准确率，召回率，综合评价指标F值

1，准确率是相对于机器的标准效率来说，机器标准正确的和错误的比：2，召回率是相对于监督的数据而言，原始数据正确的被标注的和没有正确被标注的；3，F值是综合评价指标：2×准确率×召回率/(准确率+召回率)

2018-08-03 16:11:49

机器标注—训练数据集、测试数据集、验证数据集生成——通过结巴加载字典（词和类别）将标注问题转化为词性识别问题。

将原始的样本——标注，分割成可训练的数据集。最后生成的文档样式如下：并进行数据分配：dev:test:train=12:2:1来生成序列化的数据集。程序设计的思想：前期准备：一、对于一个崭新的领域我们需要一个标注的标准文档——这个一般需要领域里的专业人员来完成。例如医学领域：二、有了这个标准的标注细节文档，还要有对应的词典——一般通过网络上的爬取，自己来准备。样式如下：有了以上两个条件针对我们的领域数据我们就可以处理了。思路——这里利用词典进行命名实体的标注为后期的模型训练准备数据集：第一步：加

2018-08-02 10:27:12

CRF模型评估和模型确定后的批处理

接着上一篇的CRF使用。在我们运用测试集的获得如下样式之后，就可以对我们的模型进行效果评估的了，评估以三个准确率、召回率、F值字母B的准确率，就是B字母在最右边那列和中间那列一起出现的次数（也就是标正确的B出现的次数）除以 B字母在最右边那列出现的次数（即机器标出B的次数）。计算字母B的召回率，就是B字母在最右边那列和中间那列一起出现的次数（也就是标正确的B出现的次数）除以 B字母在中间那列出现的次数。计算字母B的F值，这个就直接套公式了，把你上面刚刚算出的准确率*召回率*2

2018-08-01 13:16:51

CRF命名实体识别（一）-字标注分词原理完全一样，只是序列化时略微有点区别（可以采用机械分词-逆向最大匹配算法+词典）。

CRF运用较多场景：1）基于字标注的分词 2）基于词或字标注的主题提取（人名、地名、机构名、品牌、商品等实体识别）CRF原理：如何轻松愉快的理解条件随机场（CRF）？链接：http://www.jianshu.com/p/55755fc649b1实操流程：图片引用自别处。（本文的例子是一个命名实体识别）实际操作：第一步：将文本以‘【】’人工对实体进行标注。1、负责【互联网金融】【大数据】的针对不同场景的获第二步：写序列标注程序。标注成如下样式：注意：文件编码格式保存成gbk,我的保

卯卯 | 炼就一手绝世刀法！

日出东海落西山，愁也一天，喜也一天。遇事不钻牛角尖，人也舒坦，心也舒坦！

2019-02-07 17:43:06

Python包的安装

作者:yangli | 分类:自然语言处理 | 浏览:948 | 评论:0

2019-02-07 11:42:04

CBOW(continuous bag of words)原理

作者:yangli | 分类:自然语言处理 | 浏览:1507 | 评论:0

2019-01-21 22:03:46

N-gram语言模型（基于词频统计）和word2vec（基于上下文信息）训练出来的词向量模型有什么优缺点？？？

作者:yangli | 分类:自然语言处理 | 浏览:956 | 评论:0

2019-01-21 21:18:05

gensim训练word2vec并使用PCA实现二维可视化

作者:yangli | 分类:自然语言处理 | 浏览:1375 | 评论:0

2019-01-21 11:23:29

自然语言模型的评估——准确率，召回率，综合评价指标F值

作者:yangli | 分类:自然语言处理 | 浏览:1056 | 评论:0

2018-08-03 16:11:49

机器标注—训练数据集、测试数据集、验证数据集生成——通过结巴加载字典（词和类别）将标注问题转化为词性识别问题。

作者:yangli | 分类:自然语言处理 | 浏览:977 | 评论:0

2018-08-02 10:27:12

CRF模型评估和模型确定后的批处理

作者:yangli | 分类:自然语言处理 | 浏览:820 | 评论:0

2018-08-01 13:16:51

CRF命名实体识别（一）-字标注分词原理完全一样，只是序列化时略微有点区别（可以采用机械分词-逆向最大匹配算法+词典）。

作者:yangli | 分类:自然语言处理 | 浏览:2082 | 评论:0

2018-07-27 10:42:23

TF-IDF理解

作者:yangli | 分类:自然语言处理 | 浏览:1358 | 评论:0

2018-07-27 10:39:52

one-hot

作者:yangli | 分类:自然语言处理 | 浏览:953 | 评论:0

Powered By Z-BlogPHP 1.5.2 Zero

转载请注明文章出处！！！！！

« 2025年7月 »
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31