卯卯 | 炼就一手绝世刀法！-自然语言处理第4页

2018-07-20 15:07:54

基于TF-IDF挖掘符合语言规范的N-Gram-即挖掘哪些词同时的高频出现在一起，哪些字同时的高频的出现在一起（注先去停用词）。

N-Gram的最根本是数学思想就是条件概率。结合上一篇的N-Gram,我们会了解到它的背后原理，利用这个原理，可以去计算哪些词或者字在语料中高频的连续出现在一起。实际应用：我们可以挖掘出病历文本中某些疾病的几个症状通常同时出现，以及所用药物同时出现。用于病历文本的知识挖掘。基于TF-IDF挖掘符合语言规范的N-Gram-即挖掘哪些词同时的高频出现在一起，哪些字同时的高频的出现在一起（注先去停用词）——停用词的去除方法可以参考《去噪音数据（停用词、形容词、动词等）-信息提取（利用hanlp词性识别

2018-07-19 17:19:41

N-GRAM语言模型算法

在特定领域我们需要利用该模型构建自己的分词和词性标注，已有的分词工具或词性标注工具在通用领域可能会很好，但是在特定领域效果会很差。前提假设：前后的两个词是有联系的（也是HMM的假设前提），通过条件概率来计算句子的合理性。一张词频表（含有大量的文本——我们的语料库，在中文中我们需要分词再做词频统计），第二张表则是一个关键词共现矩阵和Bi-GRAM计算。Tri-GRAM相似。另一例子：注：基于N-gram还出现了更多有价值的语言模型，如NNLM、CBOW等。

2018-07-17 16:00:12

依存句法和语义依存分析

知识图谱所常用的nlp技术：事件抽取可间接等价于命名实体识别。关系抽取可以等价于谓语的提取（依存句法分析）。采用的方法：哈工大的依存句法分析一：依存句法分析。（主谓宾，定状补）哈工大的标注：二、依存语义分析。弥补（TF-IDF时关键词提取，再计算语义相似度漂移的问题。）依存语义分析目标是跨越句子表层句法结构束缚，直接获取深层的语义信息。分析句子各个语言单位之间的语义并联，并将语义关联以依存结构呈现。重

2018-07-17 13:55:42

Stanford NLP在Python环境中的安装、介绍和使用

Stanford nlp特点：1，一个集成的语言分析工具（java编写）。2，支持多种语言的处理（少数几个支持中文处理的工具）。3，分析的准确性高。4，多种语言可以调用操作。5，方便的简单的部署web服务。python环境下安装：1）pip install stanfordcorenlp2)在https://stanfordnlp.github.io/CoreNLP/index.html下载Stanford CoreNLP文件。并下载中文处理jar包（在同一份网页）。3，把解压后的Stanfo

2018-07-12 23:04:49

日期、人名、地名、机构名等关键命名实体识别-使用stanfordnlp命名实体识别方法。

上一篇中我们利用词性进行了关键词提取。但是日期是无法过滤的，因为时间表达上形式不一。错误观念：一旦遇到需要匹配文章或者段落中部分实体的时候，一般第一会想到的就是正则，但是由于表达形式不同文本表达形式的不同，往往正则很无能为力或者准确率不高。只有针对非常整齐单一的文本（时间是写的相同格式18-2-10、18/3/4等）才适合用正则，例如我们在做爬虫时，面对网页中标签的里的内容时。在实际应用中可能需要过滤掉日期、人名、地名等，这一篇中使用的思路就是先识别、再过滤-采用stanfordnlp命名实体识

2018-07-12 14:36:46

去噪音数据（停用词、形容词、动词等）-信息提取（利用hanlp词性识别去噪音的方法）

1，文本去噪音：去噪音的方法有很多种，去停用词，或者通过词性来去噪音。这里介绍的是利用hanlp词性识别的方法去噪音的方法。2，调用。

2018-07-08 23:33:13

结巴分词加载词典、调整词典优先分词、正则结合切分引文和汉字组合词、以及hanlp加载词典及配置

1，jieba分词及字典加载、未登录词处理，正则结合词典解决单单加载词典也无法解决的问题。措施一：加载词典，然后调整加载的字典的词频。有些词还是会分布准确，可以分词后查看分词结果，将没分准的词拷贝到词典中，扩展词典。措施二：结合措施一，处理有些在字典里有也无法准确分出的词的处理。例如III期，3期，35.3%等，我们需要结合正则表达式来处理。（思想：显示正则匹配没一行句子，匹配到那些特殊的词，例如3期、III期等，用“FLAGS”来代替，然后进行分词，再join这些词以空格或者‘/’来区分每一个

2018-07-07 11:31:22

Hanlp的环境的安装及hanlp安装及分词测试

应用场景及介绍：Hanlp由模型与算法组成的java工具包，目标是普及自然语言处理在生产环境中的应用。 HanLp具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。功能：中文分词、词性标注、命名实体识别、依存句法分析（jieba是没有该功能的）、关键词提取、新词发现、短语提取、自动摘要、文本分类

2018-07-04 23:09:03

windows10-GPU深度学习环境安装

一，本机的配置：二，文件准备。VS2015，官网社区版（2012，2013，2017也支持），注意CUDA8.0不支持VS2017CUDA9.0，官网下载地址cuDNN V7.05，官网下载，需要填调查表，进去后可看历史版本Anaconda3-5.0.1，清华镜像下载Tensorflow，Github下载下载页面如上，具体位置参见后文。注意：安装CUDA9.0前请确认VS2015已安装！三，安装，1. VS2017只需安装C++组件，见下图（引用自参考1），一路默认就行。

2018-06-27 17:02:47

分词（一）-逆向最大匹配分词算法

分词，分词的重要性不想多说，分词的方法也多种多样根据你的任务来选择适当的方法吧。逆向最大匹配分词算法在我看来已经很老了，但是在学校学习老师还是会建议我们以任务的形式来再完成一遍，算是个自然语言处理的基础吧，能够帮助我们更好的理解什么是分词。逆向最大匹配分词的原理：逆向向最大匹配分词需要在已有词典的基础上，从被处理文档的末端开始匹配扫描，每次取最末端的i个字符（分词所确定的阈值i）作为匹配字段，若匹配失败，则去掉匹配字段最前面的一个字，继续匹配。而且选择的阈值越大，分词越慢，但准确性越好。优点：逆

卯卯 | 炼就一手绝世刀法！

日出东海落西山，愁也一天，喜也一天。遇事不钻牛角尖，人也舒坦，心也舒坦！

2018-07-20 15:07:54

基于TF-IDF挖掘符合语言规范的N-Gram-即挖掘哪些词同时的高频出现在一起，哪些字同时的高频的出现在一起（注先去停用词）。

作者:yangli | 分类:自然语言处理 | 浏览:1397 | 评论:0

2018-07-19 17:19:41

N-GRAM语言模型算法

作者:yangli | 分类:自然语言处理 | 浏览:730 | 评论:0

2018-07-17 16:00:12

依存句法和语义依存分析

作者:yangli | 分类:自然语言处理 | 浏览:1653 | 评论:0

2018-07-17 13:55:42

Stanford NLP在Python环境中的安装、介绍和使用

作者:yangli | 分类:自然语言处理 | 浏览:788 | 评论:0

2018-07-12 23:04:49

日期、人名、地名、机构名等关键命名实体识别-使用stanfordnlp命名实体识别方法。

作者:yangli | 分类:自然语言处理 | 浏览:1010 | 评论:0

2018-07-12 14:36:46

去噪音数据（停用词、形容词、动词等）-信息提取（利用hanlp词性识别去噪音的方法）

作者:yangli | 分类:自然语言处理 | 浏览:1127 | 评论:0

2018-07-08 23:33:13

结巴分词加载词典、调整词典优先分词、正则结合切分引文和汉字组合词、以及hanlp加载词典及配置

作者:yangli | 分类:自然语言处理 | 浏览:1865 | 评论:0

2018-07-07 11:31:22

Hanlp的环境的安装及hanlp安装及分词测试

作者:yangli | 分类:自然语言处理 | 浏览:1177 | 评论:0

2018-07-04 23:09:03

windows10-GPU深度学习环境安装

作者:yangli | 分类:自然语言处理 | 浏览:998 | 评论:0

2018-06-27 17:02:47

分词（一）-逆向最大匹配分词算法

作者:yangli | 分类:自然语言处理 | 浏览:1008 | 评论:0

Powered By Z-BlogPHP 1.5.2 Zero

转载请注明文章出处！！！！！

« 2025年7月 »
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31