2019-08-29 16:41:12
ELMO为代表的这种基于特征融合的预训练方法。NLP里还有一种典型做法,一般将这种方法称为“基于Fine-tuning的模式”,而GPT就是这一模式的典型开创者。使用:
2019-08-29 09:58:45
至于在实际训练中的小技巧:bert参数先训练,后又不训练,后面的几个epoch只是训练我们自己所接的网络结构的可以参考:bert在实际项目中的处理这篇文章。一共是改两个地方:在下游任务代码中的,是第一处。这是第二处:
2019-08-29 09:34:15
我们的比赛实践结果:意思是:数据噪声数据越小,切分的数据集可以是0.9,0.8或者1.0。如果噪声数据很大,切分0.7,0.6效果会更好一点。