25 秒生成 6 秒 720P 视频 xAI 正式上线 Grok Imagine Video 1.5

6 月 17日，xAI推出Grok视频1.5正式版。主打图生视频，25秒生成6秒720P影像并同步音频。优化角色一致与运动物理，依托超算集成后期流程，一次生成即可出片。虽仅720P，但效率优先，定位清晰。

2026 年 6 月 17 日，马斯克旗下人工智能公司 xAI 发布公告，宣布 Grok Imagine Video 1.5 模型正式结束预览期，在 xAI API 中全面上线。

在本月初，xAI已经上线了Grok Imagine Video 1.5预览版，核心卖点是“一张静图生成带声短视频”。新版本着重优化了三大体验：画面与声音的精准同步、运动轨迹的物理拟真感，以及出片效率的大幅提升。

（Grok Imagine Video 1.5的官方宣发通告）

速度与优势

在生成速度方面，Grok Imagine Video 1.5 Fast 模式下，生成一段 6 秒、分辨率 720p 的视频仅需约 25 秒，而前代模型需要 40 秒以上。网页端及 iOS/Android 移动客户端均已上线。

本次更新最受关注的能力是“原生音频”的生成。即模型在单次推理中同时生成音效、环境音、背景音乐和人物对白，并精准对齐音频与画面动作的能力。

本次更新的原声音频效果让视频的口型同步、声音与物体运动的配合都更加自然，尤其适用于制作广告短片、角色配音和电商展示等需要“即出即用”的场景。对于需要反复调整创意、测试不同方案的创作者而言，等待时间的缩短意味着单位时间内能完成更多尝试。

更新与改变

在图像转视频的一致性和运动物理表现方面，新版本也进行了针对性优化。在 Imagine Video 1.5 中，官方表示新版本在角色一致性、镜头衔接和场景连续性方面相比前代有显著提升，特别是在单张图片生成动态视频的场景中表现得比前代更加稳定。

同时，模型显著增强了视频内的运动连贯性，有效减少了肢体扭曲、物体飘浮等不自然现象，能够更好地模拟重量感与动作。例如人物走路时衣摆的自然晃动、下落物体的加速轨迹，整体观感更接近真实物理世界等等。

效率与产品定位

在视频模型竞争已从算法延伸到算力、数据和工程能力的今天，xAI 的硬件投入为其快速迭代提供了坚实基础。Imagine Video 1.5 依托超过 11 万张 GB200 GPU 的 Colossus 超算集群，为其快速迭代提供了坚硬的算力基石。

该模型将角色一致性、原生音频和视频续接等能力集成于同一生成流程，大幅减少了创作过程中的阻碍。尽管最高仅 720P，复杂场景偶有瑕疵，但凭借生成速度和音频集成，它已在“效率优先”赛道树立了新标杆。

（Grok Imagine Video 1.5制作的视频截图）

xAI 表示，未来将持续优化画质、时长和复杂场景表现。但本次正式上线的核心信号已经明确：AI 视频生成的下半场，比拼的重点从“是否生成”，转向了“是否高效”。