AI(人工智能)超级入口竞赛正酣,稳坐国内AI商业化第一阵营的快手“可灵AI”,自然也不会放过春节前这波冲量的机会。
2月4日晚间,可灵AI官宣上线可灵AI 3.0系列——“All-in-One”多模态输入与输出的大一统模型体系,包括视频3.0、视频3.0 Omni与图片3.0、图片3.0 Omni,目前已面向黑金、钻石、铂金会员上线,近期将全量开放。这也意味着,可灵AI在不到两年时间里完成了三次关键升级。与此前解决“多任务统一”与“基础一致性”的可灵AI O1模型相比,可灵AI 3.0强调从“生成画面”迈向“理解创作语言”。
2月9日,知名科普博主“影视飓风”的一则评测视频让字节跳动旗下视频生成模型Seedance 2.0“出圈”,评测显示其在视频大范围运动、分镜、音画匹配等方面均有突破。游戏科学CEO(首席执行官)冯骥当天也在微博公开评价了Seedance 2.0,甚至直呼“当前地表最强的视频生成模型,没有之一”。

图片来源:Bilibili官网截图
此外,同日还有消息称小红书技术团队正研发视频剪辑类AI产品OpenStoryline,目前尚在测试阶段,后续或开源。虽然小红书方面暂未回应,但国内大模型公司这波“疯狂更新”叠加春节“红包大战”的如期到来,无疑引爆了2026年AI竞赛的整体态势。
单纯比拼模型实力的赛段或将成为过去,抢用户、争入口、拼规模,已然是一场“生死战”。在最新这波春节“技术擂台”中,可灵3.0究竟有没有机会反超?《每日经济新闻》记者获得了为数不多的超前内测名额,一测究竟。
实测可灵AI 3.0“智能分镜”:初步具备镜头调度意识
据官方介绍,可灵AI 3.0系列模型不再局限于生成画面,而是开始理解视频创作本身。具体有何表现?可灵AI方面向《每日经济新闻》记者表示,这一能力主要体现在镜头关系、叙事节奏、角色逻辑与视听语言等方面。AI视频模型开始理解镜头、运镜、节奏和上下文关联,可针对台词设计分镜、搭配画外音,对各类高阶视听语言需求均能作出响应。
每经记者实测了可灵AI 3.0“智能分镜”功能,并输入包含专业名词的复杂提示词:“超高速动漫战斗,电影摄像机并行飞行,剧烈震动以展示规模感,运用远、全、中、近、特写不同景别,结合俯拍与仰拍视角。”
从生成视频效果来看,可灵AI 3.0生成了包含全景展现场面、中近景聚焦角色搏斗、特写捕捉冲击波和面部表情的连贯视频。打斗场面连贯性强,不再是随机堆砌炫酷画面,而是有意识地运用镜头语言来服务“战斗的暴力感与规模感”这一核心叙事。


图片来源:可灵AI3.0智能分镜功能实测截图
这说明可灵AI 3.0初步具备镜头调度意识。对于普通用户而言,这意味着用相对专业的术语描述想法,就有可能获得结构成熟、富有电影感的短片,在一定程度上降低了专业叙事影像的制作门槛。
此外,在多角色、多语言叙事上,可灵AI 3.0系列模型也有升级。
这一轮测试,每经记者输入了简单的提示词:“一人说优雅英式英语,一人说美式英语,一人穿插日语台词。”从生成效果能够看出,一是音画同步有明显提升,二是支持多语言与方言混说。

图片来源:可灵AI 3.0功能实测截图
记者实测后发现,视频中不同角色说不同语言时,口型、面部肌肉运动甚至神态情绪都与语音高度匹配。这无疑将AI视频长期“对口型”不准的尴尬问题向前推进了一步。官方介绍称,模型通过“原生跨模态音频引擎”,实现了音色还原与提示词指代的精确对齐。而官方支持中文多种方言,也为本土化内容创作打开了空间。
值得注意的是,“智能分镜”已成为快手、字节跳动本轮技术升级的重点,在科普博主“影视飓风”最新发布的字节视频模型Seedance 2.0的评测中,影视飓风创始人Tim高度称赞其生成视频的精细度、分镜连续性及音画匹配度等。比如,Tim称其分镜具有“明显的角度切换”,能够像真人导演一样不断改变摄影机的位置,并直言其是“改变视频行业的AI”。
“一致性”升级:从“主题不崩坏”到“角色、表演、语音、叙事的跨模态统一”
“一致性”几乎是AI视频创作中最难攻克的问题。其不仅包括人物主体一致性,如人物不崩坏、动作连续等,还包括时序的一致性即长镜头、多镜头衔接稳定;场景与风格一致性,即多风格同框仍自然协调;多语言输出一致性,即跨语言版本仍保持视觉与角色统一等。
此外,商业一致性,即文字可用、不变形,商品与Logo(品牌标志)稳定等也同样重要。视频生成高度一致性的保持,是决定AI视频是否可以实现“直接交付”的关键。
每经记者将此前实测可灵AI 2.6模型时使用的同一提示词——“《疯狂动物城》里的兔子朱迪和狐狸尼克,正在跳双人华尔兹的舞蹈,场景在水晶王宫的舞会上,添加其他舞会成员”输入至3.0模型进行了对比测试。结果发现,3.0模型在一致性提升方面相对明显。

图片来源:可灵AI 3.0功能实测截图
首先是人物主体的一致性。记者发现,3.0模型在快速动作时主体没有崩坏痕迹;其次是风格与场景一致性,2.6模型在补充“其他舞会成员”时模糊处理了场景、风格,而3.0模型则相对保持风格一致。此外,两款模型在语义理解上差异明显,3.0模型生成的主体人物更接近描述要求。同时,3.0模型的智能分镜功能可以为静态提示词补充分镜设计,让视频更具看点和观感。在多角色表现上,3.0模型能让角色在完成动作的同时,保持语音情绪、音色准确以及风格的相对统一。


图片来源:可灵AI 3.0功能实测截图
整体而言,在3.0体系下,“一致性”已从“主体不崩坏”升级为“角色、表演、语音、叙事逻辑的跨模态统一”。这使得从创意到成品的视频生成流程变得相对省时省力,尤其适用于需要强表现力的交付场景等。对于普通C端(消费者)用户而言,能够快速获得观感良好的视频成品,体验感明显提升。
对于一致性的提升,可灵AI方面告诉记者,可灵AI 3.0 是“ All-in-One”的多模态视频模型,即通过一个模型实现文字、图片、声音、视频等多模态信息的输入与输出。“All-in-One”并非功能堆叠,而是通过一体化模型实现更为原生的多模态交互。
值得一提的是,从字节视频模型Seedance2.0的测评效果,冯骥在微博中也提及:“AI理解多模态信息(文、画、影、音)并整合的能力完成了一次飞跃,令人惊叹。”
普通用户使用门槛依然较高
整体实测下来记者发现,对于普通C端用户而言,这个从静态概念到动态影片的视频创作流程仍需相对专业的操作,使用起来有一定的门槛。特别是在利用3.0 Omni对内容进行修改时,若提示词输入不够专业,视频往往需要反复抽卡。
每经记者用国产大模型DeepSeek生成了一个复杂提示词,实测整个视频生成的场景推演流程。
第一步:用“图片3.0”完成构思。利用其“强化影视级叙事画面”和“4K输出”能力,生成一张电影级角色设定图或场景氛围图。

图片来源:可灵AI 3.0功能实测截图
第二步:用“视频3.0”实现动态化。将上图作为“图生视频+主体参考”输入,通过“自定义分镜”功能精确规划每个镜头的时长、景别,生成一段有叙事节奏的动态视频。

图片来源:可灵AI 3.0功能实测截图
第三步:用“视频3.0 Omni”进行替换与精修。将原生成视频中的数字角色,替换成此前测试一致性时所用提示词中的《疯狂动物城》朱迪这个主体。
从视频生成效果来看,3.0模型在“主体相似度更稳定”“对文本指令响应更灵敏”上有进步,复杂叙事的可控性也有一定提升。

图片来源:可灵AI 3.0功能实测截图
综合来看,3.0系列这一升级更偏向可灵AI当前主要的P端(指自媒体视频创作者和广告营销从业者等专业用户)用户或专业团队,普通C端用户很难完整执行这个创作流程。对于个人创作者、小团队而言,它将传统流程上需要多个软件、反复导入导出的“概念设计—预演—实拍合成”环节压缩在单一平台内,一定程度上降低了实验成本等。
贴近C端市场才是可灵AI的大考
近段时间,多家国产大模型厂商几乎同步更新模型进展。阿里千问、DeepSeek与月之暗面Kimi纷纷下场参赛。从此次各家更新方向来看,大模型的能力进阶以及市场竞争的焦点,已然跳出了单纯比拼参数与输出表现的阶段,迈向了工程化阶段。
但与大语言模型有所不同,视频生成模型在C端用户特别是国内用户的日常使用场景中相对低频,且天然具备更高使用门槛,可灵想要与阿里千问、腾讯元宝以及字节跳动豆包等抢食C端市场蛋糕,难度更大。
对于普通用户而言,使用全新可灵AI 3.0模型生成一次高质量的3秒到15秒视频,需要耗费36至180“灵感值”(可灵AI货币),其在C端的普及度现阶段依旧很难与免费的大语言模型抗衡。
随着OpenAI正式发布第二代AI视频生成模型Sora 2,并将视频生成与社交互动深度融合,C端消费级应用的落地进程明显加快。2025年12月,阿里千问App(应用程序)第一时间接入了万相2.6视觉大模型,全力对标Sora 2。记者了解到,万相2.6支持音画同步、多镜头生成及声音驱动等功能,号称“全球功能最全的视频生成模型”。
快手科技创始人兼首席执行官程一笑在2025年三季度财报电话会上指出,“当前我们的主要精力依然是面向专业创作者,但未来也会将可灵的技术能力进一步产品化,与社交互动结合,加速C端应用的商业化”。从目前情况来看,上述产品化思路尚未落地兑现,可灵AI仍聚焦于模型能力的进化迭代。
事实上,2025年年底,豆包已开始向抖音商城导流——当用户询问选购意见时,豆包会直接推荐商品并附上来自抖音商城的购买链接。由此可见,可灵AI的产品化以及与整个快手生态的联动可能会变得更加紧迫。新的一年,可灵AI还要持续面对来自阿里、字节等国内科技大厂的轮番轰炸式“袭击”,快手只能既快又稳。

