2019-08-27 11:18:03
google根据中文的一部分数据已经为中文预训练了一个模型,bert-base-cased(12层,768,12头),之所以要预训练是为了针对领域的数据有更好的拟合能力。例如法律方面的数据。预训练模型文件夹所包含的文件:用原始数据生成一句一行,隔行分段后,供130M数据,生成examples.tf_cored大概要1小时。后面用run_pretraining.py训练,大概10000步要一小时(设备信息:54G内存,16G显存。),根据设备性能,我选着的是句子256个长-(经过解析源码:预训练阶
2019-08-27 10:52:48
参考链接:https://www.jianshu.com/p/160c4800b9b5