因果性 – 冯金伟博客园

离开Meta的大佬们，留下作品还在陆续发表，今天轮到田渊栋。这次他带领团队把目光投向了大模型强化学习训练中一个令人困惑的现象：为什么RL训练明明带来巨大性能提升，却只改变了极少数参数。论文剖析了可 … 继续阅读这些大神在Meta的论文看一篇少一篇了