强化学习 – 冯金伟博客园

阿里通义实验室智能计算团队推出新算法FIPO

4月7日，阿里通义实验室智能计算团队宣布推出新算法FIPO（Future-KL Influenced Policy Optimization），引入Future-KL机制，奖励关键Token，解决纯强 … 继续阅读阿里通义实验室智能计算团队推出新算法FIPO

财联社3月18日电，腾讯高管3月18日在财报发布后的媒体会上透露，HY 3.0正在内部业务测试中，计划在4月对外推出。这是一次混元模型的重大升级，相比HY2.0版本效果进步明显，推理和agent能力有 … 继续阅读腾讯混元新模型计划4月对外推出

3月10日，腾讯混元3D团队开源首个面向世界模型的强化学习后训练框架WorldCompass。据介绍，这是一个专为长时序、交互式世界模型设计的强化学习（RL）后训练框架。如果说世界模型是引擎，那么Wo … 继续阅读腾讯混元开源首个面向世界模型的强化学习后训练框架

财联社2月22日电，据智谱官微消息，智谱推出了 GLM-5，这是一款旨在推动编程范式从“Vibe Coding”（氛围编程）转向“Agentic Engineering”（智能体工程）的下一代基础模型 … 继续阅读智谱发布GLM-5技术报告技术细节全公开

每经AI快讯，11月20日，蚂蚁集团宣布开源万亿参数强化学习高性能权重交换框架Awex。

11月20日，蚂蚁集团宣布开源万亿参数强化学习高性能权重交换框架Awex。据介绍，今年10月，蚂蚁集团开源了两款万亿参数旗舰模型，包括非思考的Ling-1T和思考模型Ring-1T。其中Ring-1T … 继续阅读蚂蚁开源万亿参数强化学习高性能权重交换框架Awex

界面新闻记者 | 徐美慧界面新闻编辑 | 文姝琪如果让人类在工厂中学会一项精密装配技能，需要多久？机器人的答案是10分钟。只需要10分钟，智元让机器人在真实产线“学会技能并稳定上岗”。 11月3日， … 继续阅读机器人“10分钟上岗”，智元实现真机强化学习工业落地

每经记者：杨煜每经编辑：董兴生丨 2025年11月4日星期二丨 NO.1 智元机器人真机强化学习落地智元机器人宣布其研发的真机强化学习技术已在与龙旗科技合作的验证产线中成功落地，标志着该技术 … 继续阅读智元机器人真机强化学习落地；云深处科技更名“股份有限公司”｜数智早参

11月3日，智元机器人宣布，其研发的真机强化学习技术，已在与龙旗科技合作的验证产线中成功落地。

每经AI快讯，11月3日，据智元机器人官微消息，智元机器人宣布其研发的真机强化学习技术已在与龙旗科技合作的验证产线中成功落地，标志着该技术首次从学术论文走向工业应用。这项技术突破解决了精密制造产线的刚 … 继续阅读智元机器人与龙旗科技合作落地真机强化学习技术