一水 发自 凹非寺 量子位 | 公众号 QbitAI 小模型身上的“秘密”这下算是被扒光了! 知名开源项目OpenEvolve作者,刚刚用一篇长文揭示了70M小模型的几个重要发现: 其一,架构的重要性 … 继续阅读 小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟
一水 发自 凹非寺 量子位 | 公众号 QbitAI 小模型身上的“秘密”这下算是被扒光了! 知名开源项目OpenEvolve作者,刚刚用一篇长文揭示了70M小模型的几个重要发现: 其一,架构的重要性 … 继续阅读 小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟