batch_size
2025年6月14日
10:23
batch size较小,样本方差较大,此时学习率应该小一点。
增大batch size,真不一定会缩短训练时间,因为gpu利用率本来就是100%,而且在nlp中由于对每个batch是动态pad的,会pad到当前batch中最长序列的长度,所以增加batch size反而会pad更多的0,降低计算效率。
已使用 OneNote 创建。