batch_size

2025614

10:23

batch size较小,样本方差较大,此时学习率应该小一点。

 

增大batch size,真不一定会缩短训练时间,因为gpu利用率本来就是100%,而且在nlp中由于对每个batch是动态pad的,会pad到当前batch中最长序列的长度,所以增加batch size反而会pad更多的0,降低计算效率。

 

已使用 OneNote 创建。