微软自研AI“三件套”落地豪言到2027年自主打造大型尖端模型

财联社4月3日讯（编辑史正丞）美国科技公司微软周四宣布，3款内部开发的AI模型正式推出广泛商用，展示该公司试图摆脱依赖长期合作伙伴OpenAI的努力。

具体来说，微软AI超级智能团队开发的MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2三款模型，涵盖了企业AI中最具商业价值的3项能力——语音转录、语音生成和图像创建。

（微软首席执行官纳德拉宣布这项更新，来源：X）

微软表示，MAI-Transcribe-1是市面上最常用转录模型中准确率最高的。在涵盖所有语言的测试中，其平均错误率为3.9%。而OpenAI的GPT-Transcribe错误率为4.2%，Gemini 3.1 Flash为4.9%。

MAI-Voice-1语音生成模型据称可以在“单块GPU”上实现不到一秒内生成60秒音频，并能在长内容生成中保持语音的一致性。

MAI-Image-2最早发布于3月19日，周四也跟着另外两款模型一同实现广泛商用。目前该模型在“大模型竞技场”的文生图排名中位居第三，仅次于谷歌爆品Nano Banana 2和OpenAI的GPT-Image 1.5。

横向对比价格，MAI-Image-2的文本输入起步价格为每100万词元（tokens）5美元，图像输出为每100万词元33美元起。谷歌的Gemini 3 Pro图像生成模型为每100万词元120美元，Gemini 3.1 Flash图像为每100万词元60美元。

目标：自主开发世界前沿大模型

微软的最新举措源自于去年10月，当时公司与OpenAI重组了合作关系，允许微软单独或与第三方合作伙伴一起追求通用人工智能的权利。此前的协议虽然允许微软使用OpenAI知识产权，但同时也禁止其开发竞争性的人工智能系统。

微软AI首席执行官穆斯塔法·苏莱曼公开表示，该团队到2027年的目标是“能够真正达到最先进水平”，涵盖能够响应或生成文本、图像和音频的模型。

苏莱曼介绍称，公司正在构建训练模型所需的算力，并从去年10月开始部署英伟达GB200芯片。

他说：“从那时开始，我们将在接下来的大约12到18个月内逐步提升，达到前沿规模的计算能力。”

作为谷歌DeepMind的联合创始人，苏莱曼于2024年加入微软，负责将人工智能融入其消费产品。去年10月微软与OpenAI敲定协议后，苏莱曼于去年11月全职接手领导微软AI超级智能团队。在上个月的内部重组中，苏莱曼的职责被缩小为模型开发，前Snap高管雅各布·安德里欧接手微软面向企业和个人用户的Copilot助手产品。

苏莱曼对媒体表示：“我们想强调的是，在未来三到五年推进自身最先进AI能力、实现长期自主这一战略使命的重要性。”他同时补充称，公司也会继续托管其他公司开发的模型。

从长期角度来看，微软对OpenAI的知识产权的深度访问权限将在2032年到期，因此发展自研大模型也是重要的风险对冲。

刚刚起步的微软自研模型业务也存在相当多的短板，足以见得苏莱曼的团队未来一年会有很多工作需要完成。

举例而言，MAI-Image-2目前仅支持1:1纵横比，不提供横向或竖向选项，其他AI应用中常见的图像到图像编辑、参考图像支持均不存在。MAI-Transcribe-1无法区分对话中的不同发言者，也不支持上下文偏置和流式传输，微软表示这三项功能都在开发中。

微软自研AI“三件套”落地豪言到2027年自主打造大型尖端模型

Published by

风君子

最新文章

标签

书签