5月12日,距离谷歌 I/O 2026开发者大会仅剩7天,一段10秒视频突然刷屏全球社交网络——画面中一位教授手持粉笔在黑板上流畅推导三角恒等式,每一步公式准确无误,笔迹自然连贯,同时用口语同步讲解推导逻辑,整个过程的质感与丝滑度远超以往任何AI生成视频。当网友发现这段视频仅用一句提示词就由谷歌全新视频模型Gemini Omni生成时,全网瞬间陷入沸腾,有人惊叹视频版NanoBanana来了,更有技术博主直言眼见为实的时代彻底终结。
这段看似简单的教学视频实则攻克了AI视频生成领域的文本一致性问题。此前OpenAI的Sora生成的文字常是鬼画符状态,别说完整数学推导,就连清晰可辨的文字都难以保证。而Gemini Omni不仅让公式推导准确连贯,更实现了笔迹自然、讲解同步的超写实效果。。这一突破标志着AI视频生成正式跨越恐怖谷,进入超写实时代。
引爆全网的不仅是生成能力,Gemini Omni的实时编辑功能更让创作者疯狂。泄露的演示显示,用户可通过对话直接去除视频水印且画面毫无破绽,还能精准替换视频中物体,光影、遮挡关系自动适配。有用户上传Sora生成的视频,Gemini Omni瞬间完成去水印操作;还有演示将意大利面替换为奶油浓汤,整个过程流畅自然,仿佛原本就是这样拍摄的。此外,Omni还支持动漫风格等多样化输出,蓝色火焰特效、打斗动作线条每一帧都堪比专业动画师手绘。
Gemini移动端App主页截图的流出揭开了更多细节,与谷歌此前的Veo模型不同,Omni像NanoBanana一样深度集成到Gemini中,具备更出色的提示理解与推理能力,是真正的全模态模型,同时支持文本、图像、音频、视频输入和输出。露的模型显示,Omni生成的视频支持10秒时长,分辨率1280x720,灰度测试用户已验证这些参数的真实性。
有趣的是,Gemini Omni的曝光时间精准卡位在Sora停服两周后。4月26日,OpenAI的Sora App正式停服,走完了短暂而戏剧化的一生。这款曾惊艳全球的AI视频生成器日均运行成本高达1500万美元,年化支出超54亿美元,而整个生命周期应用内收入仅约210万美元,连一天算力费都覆盖不了。用户数据更显残酷,峰值约100万活跃用户到停服前已跌破50万,30天留存率不到8%,大多数用户仅尝尝鲜就离开。3月24日,Sora官方账号在X上发出告别声明,API将在9月24日彻底关闭,宣告一个时代结束。
网友将Omni生成的动漫打斗场景与Sora2对比,差距一目了然——Gemini Omni动作丝滑到炸裂,特效精准流畅;而Sora特效却一团乱麻,动作连贯性差强人意。这种差距不仅体现在效果上,更反映了技术路线的差异:谷歌选择将视频能力深度集成到Gemini生态,依托大模型的推理能力解决一致性问题;而OpenAI的Sora更像独立实验产品,缺乏与生态的深度融合,最终因成本与用户黏性问题折戟。
除了Omni,谷歌多款尚未正式发布的Gemini全线模型被意外推送到生产环境API中,包括Gemini3 Flash、3.1全系列(Pro、Flash Image、Lite、TTS),以及专注于高保真音频生成的Lyria3 Pro。最重磅的是,谷歌即将推出的Omni原生多模态视频模型,将针对所有核心模型推出专门的Agent版本,这意味着AI视频生成能力将全面融入谷歌AI生态,从搜索到办公软件,从移动应用到智能硬件,视频生成与编辑或将成为基础功能。
谷歌 I/O 2026开发者大会将于5月19日在加州山景城开幕,Gemini Omni极有可能在主舞台正式亮相。业内人士分析,谷歌此举不仅是对Sora退场后的市场空白的填补,更是AI视频生成技术的范式转移——从单纯追求画面真实感转向兼顾内容准确性与编辑实用性,从独立工具转向生态化集成。随着Gemini Omni的正式发布,AI视频赛道或将迎来新一轮洗牌,内容创作、教育培训、广告营销等领域都可能被重塑,而眼见为实的传统认知,也将在AI技术的持续突破中被彻底改写。