🚀介绍我们的新工作:基于神经 Ansatz 的配置到性能的缩放法则。 一个在大规模预训练日志上训练的语言模型可以准确预测训练配置如何影响预训练性能,并且能够推广到计算能力提高 10 倍的运行。