25 秒生成 6 秒 720P 视频 xAI 正式上线 Grok Imagine Video 1.5
B
B.News Editor

2026-06-18 · 288 [[ $t('article.detail.read') ]]

25 秒生成 6 秒 720P 视频  xAI 正式上线 Grok Imagine Video 1.5

6 月 17日,xAI推出Grok视频1.5正式版。主打图生视频,25秒生成6秒720P影像并同步音频。优化角色一致与运动物理,依托超算集成后期流程,一次生成即可出片。虽仅720P,但效率优先,定位清晰。

2026 年 6 月 17 日,马斯克旗下人工智能公司 xAI 发布公告,宣布 Grok Imagine Video 1.5 模型正式结束预览期,在 xAI API 中全面上线。

在本月初,xAI已经上线了Grok Imagine Video 1.5预览版,核心卖点是“一张静图生成带声短视频”。新版本着重优化了三大体验:画面与声音的精准同步、运动轨迹的物理拟真感,以及出片效率的大幅提升。

(Grok Imagine Video 1.5的官方宣发通告)

速度与优势

在生成速度方面,Grok Imagine Video 1.5 Fast 模式下,生成一段 6 秒、分辨率 720p 的视频仅需约 25 秒,而前代模型需要 40 秒以上。网页端及 iOS/Android 移动客户端均已上线。

本次更新最受关注的能力是“原生音频”的生成。即模型在单次推理中同时生成音效、环境音、背景音乐和人物对白,并精准对齐音频与画面动作的能力。

本次更新的原声音频效果让视频的口型同步、声音与物体运动的配合都更加自然,尤其适用于制作广告短片、角色配音和电商展示等需要“即出即用”的场景。对于需要反复调整创意、测试不同方案的创作者而言,等待时间的缩短意味着单位时间内能完成更多尝试。

更新与改变

在图像转视频的一致性和运动物理表现方面,新版本也进行了针对性优化。在 Imagine Video 1.5 中,官方表示新版本在角色一致性、镜头衔接和场景连续性方面相比前代有显著提升,特别是在单张图片生成动态视频的场景中表现得比前代更加稳定。

同时,模型显著增强了视频内的运动连贯性,有效减少了肢体扭曲、物体飘浮等不自然现象,能够更好地模拟重量感与动作。例如人物走路时衣摆的自然晃动、下落物体的加速轨迹,整体观感更接近真实物理世界等等。


效率与产品定位

在视频模型竞争已从算法延伸到算力、数据和工程能力的今天,xAI 的硬件投入为其快速迭代提供了坚实基础。Imagine Video 1.5 依托超过 11 万张 GB200 GPU 的 Colossus 超算集群,为其快速迭代提供了坚硬的算力基石。

该模型将角色一致性、原生音频和视频续接等能力集成于同一生成流程,大幅减少了创作过程中的阻碍。尽管最高仅 720P,复杂场景偶有瑕疵,但凭借生成速度和音频集成,它已在“效率优先”赛道树立了新标杆。

(Grok Imagine Video 1.5制作的视频截图)

xAI 表示,未来将持续优化画质、时长和复杂场景表现。但本次正式上线的核心信号已经明确:AI 视频生成的下半场,比拼的重点从“是否生成”,转向了“是否高效”。