1,W变量初始化,-使用截断正态分布
2,使用drop-out防止过拟合的发生。
3,损失函数(代价函数的影响)
4,优化器——更新W的速度。不同的优化器也更会影响模型收敛的速度,参考上一篇文章,选着优化器,都可以试试效果,再决定。
1,W变量初始化,-使用截断正态分布
2,使用drop-out防止过拟合的发生。
3,损失函数(代价函数的影响)
4,优化器——更新W的速度。不同的优化器也更会影响模型收敛的速度,参考上一篇文章,选着优化器,都可以试试效果,再决定。
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。