卯卯 | 炼就一手绝世刀法！

RNN的缺点-并行计算的能力

ELMO为代表的这种基于特征融合的预训练方法。NLP里还有一种典型做法，一般将这种方法称为“基于Fine-tuning的模式”，而GPT就是这一模式的典型开创者。使用：

至于在实际训练中的小技巧：bert参数先训练，后又不训练，后面的几个epoch只是训练我们自己所接的网络结构的可以参考：bert在实际项目中的处理这篇文章。一共是改两个地方：在下游任务代码中的，是第一处。这是第二处：

我们的比赛实践结果：意思是：数据噪声数据越小，切分的数据集可以是0.9，0.8或者1.0。如果噪声数据很大，切分0.7，0.6效果会更好一点。

‹‹ 1 ››

最新留言

网站收藏

友情链接