
Google 在 I/O 2026 大会上正式发表了令人瞩目的全新多模态生成模型家族 —— Gemini Omni。官方将其定义为“推理能力与创作能力的完美结合”,其终极目标是打造一个能“根据任何输入素材,生成任何形式内容”的 AI 世界模型。
Omni 家族的首发版本 Gemini Omni Flash 已经由即日起正式陆续推送。首阶段功能全面聚焦于影片生成与革命性的对话式剪片体验,彻底颠覆传统影片后制的工作流。
1. 革命性体验:用“倾偈”就能剪片、改画面
传统影片剪辑需要依赖复杂的时间轴和特效软件,而 Gemini Omni 让你可以直接用日常口语对话来修改影片,就如同跟专业后制师沟通一样:
- 连续多轮编辑:每一次的指令都会基于上一个画面进行叠加。AI 会记住前后文的逻辑,确保角色外貌不会变形(维持一致性)、场景细节不会穿帮,镜头角度也能自然过渡。
- 重塑现实世界:你可以上传一段自己拍的影片,然后指令 Omni:“将背景换成科幻电影的外星表面”、“在画面中加入一个新角色”或“把手里的杯子变成一团液态金属”。那些你无法亲自拍摄的震撼镜头,现在全凭一句话就能成真。
2. 内置“物理大脑”与真实世界知识
过去的 AI 影片生成常被人诟病出现“反物理”的怪异画面(例如物体凭空漂浮或扭曲)。Gemini Omni 在这方面取得了重大突破:
- 精准模拟物理定律:Omni 具备极强的直觉物理常识,能完美理解重力、动能、流体动力学与杠杆原理等自然规律,让生成的液体流动、物体碰撞及人物动作显得无比真实自然。
- 知识与创意的融合:结合 Gemini 原有的庞大知识库,它能理解历史、科学与文化背景。即使你只给出简短的提示词,它也能为你制作出兼具画面真实感与丰富叙事内涵的“复杂概念科普解说影片”。
3. 万物皆可参考:随意组合输入素材
Omni 支援将文字、图片、影片、录音或手绘草图自由混合输入。
你可以提供一张动漫角色的相片(参考角色)、一段动作影片(参考动态)加上一段语音指示,Omni 就能将这些风马牛不相及的素材融合成一段结构完整、风格统一的高质素新影片。
4. 数秒建立“数码分身”与资安防护
- 个人专属 Avatar:用户可以利用这项技术,在短短数秒内为自己建立一个无论外貌还是声音(利用自己的真实声音进行语音参考)都极度拟真的“数码分身”,并用它来生成演讲或教学影片。
- 严格资安与 SynthID 隐形水印:为防范 Deepfake 伪造技术与恶意资讯传播,Google 暂时锁定了更进阶的他人语音改动功能。同时,所有由 Omni 生成的影片都会自动嵌入 Google DeepMind 开发的 SynthID 隐形数码水印。人类肉眼无法察觉,但用户随时可以透过 Google 搜寻、Chrome 浏览器或 Gemini App 内建的透明度工具,一键验证影片是否由 AI 生成。
5. 抢先体验与推出时程
| 用户类别 | 推出详情 |
|---|---|
| 付费订阅用户 | 即日起全球陆续推出! 所有 Google AI Plus、Pro 及 Ultra 的订阅用户,可直接在 Gemini App 与全新的 Google Flow 中体验。 |
| 大众用户(免费) | 本周内陆续实装! 将全面免费整合至 YouTube Shorts 以及 YouTube Create App 内,供创作者免费使用。 |
| 开发者与企业客户 | 预计在未来数周内开放云端 API 存取权限。 |










