财联社4月3日讯(编辑 史正丞)美国科技公司微软周四宣布,3款内部开发的AI模型正式推出广泛商用,展示该公司试图摆脱依赖长期合作伙伴OpenAI的努力。
具体来说,微软AI超级智能团队开发的MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2三款模型,涵盖了企业AI中最具商业价值的3项能力——语音转录、语音生成和图像创建。

(微软首席执行官纳德拉宣布这项更新,来源:X)
微软表示,MAI-Transcribe-1是市面上最常用转录模型中准确率最高的。在涵盖所有语言的测试中,其平均错误率为3.9%。而OpenAI的GPT-Transcribe错误率为4.2%,Gemini 3.1 Flash为4.9%。
MAI-Voice-1语音生成模型据称可以在“单块GPU”上实现不到一秒内生成60秒音频,并能在长内容生成中保持语音的一致性。
MAI-Image-2最早发布于3月19日,周四也跟着另外两款模型一同实现广泛商用。目前该模型在“大模型竞技场”的文生图排名中位居第三,仅次于谷歌爆品Nano Banana 2和OpenAI的GPT-Image 1.5。
横向对比价格,MAI-Image-2的文本输入起步价格为每100万词元(tokens)5美元,图像输出为每100万词元33美元起。谷歌的Gemini 3 Pro图像生成模型为每100万词元120美元,Gemini 3.1 Flash图像为每100万词元60美元。
目标:自主开发世界前沿大模型
微软的最新举措源自于去年10月,当时公司与OpenAI重组了合作关系,允许微软单独或与第三方合作伙伴一起追求通用人工智能的权利。此前的协议虽然允许微软使用OpenAI知识产权,但同时也禁止其开发竞争性的人工智能系统。
微软AI首席执行官穆斯塔法·苏莱曼公开表示,该团队到2027年的目标是“能够真正达到最先进水平”,涵盖能够响应或生成文本、图像和音频的模型。
苏莱曼介绍称,公司正在构建训练模型所需的算力,并从去年10月开始部署英伟达GB200芯片。
他说:“从那时开始,我们将在接下来的大约12到18个月内逐步提升,达到前沿规模的计算能力。”
作为谷歌DeepMind的联合创始人,苏莱曼于2024年加入微软,负责将人工智能融入其消费产品。去年10月微软与OpenAI敲定协议后,苏莱曼于去年11月全职接手领导微软AI超级智能团队。在上个月的内部重组中,苏莱曼的职责被缩小为模型开发,前Snap高管雅各布·安德里欧接手微软面向企业和个人用户的Copilot助手产品。
苏莱曼对媒体表示:“我们想强调的是,在未来三到五年推进自身最先进AI能力、实现长期自主这一战略使命的重要性。”他同时补充称,公司也会继续托管其他公司开发的模型。
从长期角度来看,微软对OpenAI的知识产权的深度访问权限将在2032年到期,因此发展自研大模型也是重要的风险对冲。
刚刚起步的微软自研模型业务也存在相当多的短板,足以见得苏莱曼的团队未来一年会有很多工作需要完成。
举例而言,MAI-Image-2目前仅支持1:1纵横比,不提供横向或竖向选项,其他AI应用中常见的图像到图像编辑、参考图像支持均不存在。MAI-Transcribe-1无法区分对话中的不同发言者,也不支持上下文偏置和流式传输,微软表示这三项功能都在开发中。

