卯卯 | 炼就一手绝世刀法!

日出东海落西山,愁也一天,喜也一天。遇事不钻牛角尖,人也舒坦,心也舒坦!

bert中的transformer,以及内部的attention和残差

参考链接:https://baijiahao.baidu.com/s?id=1622064575970777188&wfr=spider&for=pcBERT的名字由来:Bidirectional Encoder Representations from Transformers RNN会将它之前已经处理过的前面的所有单词/向量的表示与它正在处理的当前单词/向量结合起来。而注意力机制会将所有相关单词的理解融合到我们正在处理的单词中。

LSTM的升级应用——seq2seq(无监督问题,内部转换成有监督问题,编码到解码,解码结果再还原,还原后的结果跟原来的输入组成有监督问题)

seq2seq有哪些应用呢?

BP神经网络的理解图-经典

LSTM文本分类 代码解释图——LSTM的图形化理解

LSTM-因为RNN可能产生梯度消失和梯度爆炸的问题以及对于长期依赖的问题没有办法解决。

LSTM特别适合解决这类需要长时间依赖的问题。LSTM是RNN的一种,大体结构一致,区别在于:LSTM的‘记忆细胞’是改造过的,该记录的信息会一致传递,不该记录的信息会被截断掉。LSTM外部的结构:下图是多个LSTM想连。忘记门:为什么信息会增强或增加呢?——下图解释。

关系抽取SEnet的网络结构过程

远程监督的有噪声的关系抽取:SE的全过程:三层卷积后的结果乘上每个通道上相互独立的权重。下面的图主要是每个通道上权重特征提取的过程:

什么时候dropout?过拟合(train准确率和test准确率差控制在3%以内)

dropout设置的设置大一点马上就不会过拟合,去掉更多的神经元

变量初始化的学问,能提高2—5%的影响,何试初始化,开根号防止过大,或过小

参考链接:https://zhuanlan.zhihu.com/p/39076763 

赋值,浅拷贝,深拷贝的区别

参考链接:https://www.cnblogs.com/xulf/p/4320676.html赋值:针对不同的数据结构,string不管怎么赋值内存地址不变,因为string是一种不可变的数据类型。list赋值,内存地址是会改变的,list数据类型是一种可变的数据类型。#针对list的浅拷贝和深拷贝:1,浅拷贝在拷贝嵌套的list结构时,只是拷贝了顶层,深层没有拷贝。2,深拷贝,所有的深度,内存地址都被拷贝了一份。 

梯度消失和梯度爆炸

根本的原因都是网络深度太大,Ssigmod容易引起梯度消失,用relu改进。梯度爆炸的情况比较少。
«   2019年3月   »
123
45678910
11121314151617
18192021222324
25262728293031
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
搜索
最新留言
文章归档
网站收藏
友情链接
  • RainbowSoft Studio Z-Blog
  • 订阅本站的 RSS 2.0 新闻聚合

Powered By Z-BlogPHP 1.5.2 Zero

转载请注明文章出处!!!!!