2026 年 6 月 17 日,马斯克旗下人工智能公司 xAI 发布公告,宣布 Grok Imagine Video 1.5 模型正式结束预览期,在 xAI API 中全面上线。
在本月初,xAI已经上线了Grok Imagine Video 1.5预览版,核心卖点是“一张静图生成带声短视频”。新版本着重优化了三大体验:画面与声音的精准同步、运动轨迹的物理拟真感,以及出片效率的大幅提升。

(Grok Imagine Video 1.5的官方宣发通告)
速度与优势
在生成速度方面,Grok Imagine Video 1.5 Fast 模式下,生成一段 6 秒、分辨率 720p 的视频仅需约 25 秒,而前代模型需要 40 秒以上。网页端及 iOS/Android 移动客户端均已上线。
本次更新最受关注的能力是“原生音频”的生成。即模型在单次推理中同时生成音效、环境音、背景音乐和人物对白,并精准对齐音频与画面动作的能力。
本次更新的原声音频效果让视频的口型同步、声音与物体运动的配合都更加自然,尤其适用于制作广告短片、角色配音和电商展示等需要“即出即用”的场景。对于需要反复调整创意、测试不同方案的创作者而言,等待时间的缩短意味着单位时间内能完成更多尝试。
更新与改变
在图像转视频的一致性和运动物理表现方面,新版本也进行了针对性优化。在 Imagine Video 1.5 中,官方表示新版本在角色一致性、镜头衔接和场景连续性方面相比前代有显著提升,特别是在单张图片生成动态视频的场景中表现得比前代更加稳定。
同时,模型显著增强了视频内的运动连贯性,有效减少了肢体扭曲、物体飘浮等不自然现象,能够更好地模拟重量感与动作。例如人物走路时衣摆的自然晃动、下落物体的加速轨迹,整体观感更接近真实物理世界等等。
效率与产品定位
在视频模型竞争已从算法延伸到算力、数据和工程能力的今天,xAI 的硬件投入为其快速迭代提供了坚实基础。Imagine Video 1.5 依托超过 11 万张 GB200 GPU 的 Colossus 超算集群,为其快速迭代提供了坚硬的算力基石。
该模型将角色一致性、原生音频和视频续接等能力集成于同一生成流程,大幅减少了创作过程中的阻碍。尽管最高仅 720P,复杂场景偶有瑕疵,但凭借生成速度和音频集成,它已在“效率优先”赛道树立了新标杆。

(Grok Imagine Video 1.5制作的视频截图)
xAI 表示,未来将持续优化画质、时长和复杂场景表现。但本次正式上线的核心信号已经明确:AI 视频生成的下半场,比拼的重点从“是否生成”,转向了“是否高效”。