谷歌旗下公司发布新款视频生成器，分辨率超Sora
+ 查看更多

DeepMind的新Veo 2人工智能视频生成器以4K分辨率超越了OpenAI的Sora模型。

AVID MEYER

■

在Alphabet旗下的谷歌DeepMind推出Veo人工智能视频生成器仅7个月后，该部门再次宣布推出Veo 2。

新工具能够生成分辨率高达4K的视频，而第一代Veo仅支持最高1080p的视频处理。谷歌声称，升级后的Veo生成的场景的物理效果有所改进，而且“相机控制”功能也更为出色（尽管并不涉及实体相机，但用户可以通过指令提示模型选用特定的相机镜头和拍摄角度，从特写镜头到摇摄再到“定场镜头”）。

DeepMind还宣布了Imagen 3文本到图像模型的更新版本，尽管这些改进——比如“构图更为均衡”的图像以及艺术风格更为贴合——显然不足以让其升级到全新的版本号。Imagen 3于今年8月首次推出。

Veo 2升级至4K分辨率表明DeepMind在视频生成领域相较于竞争对手的人工智能实验室取得了领先优势。

一周前，OpenAI终于推出了Sora视频生成器（早在2月份就已公布），但Sora（尤其是目前仅向ChatGPT Plus和Pro用户开放的Sora Turbo版本）的导出分辨率上限仅为1080p。目前最受欢迎的人工智能视频生成器Runway的导出分辨率更是局限在较为模糊的720p。

谷歌在Veo 2的演示中表示：“低分辨率视频在移动设备上播放效果很好，但创作者希望看到自己的作品在大屏幕上熠熠生辉。”

谷歌发言人表示，在默认情况下，Veo 2生成的4K视频时长被限制在8秒以内，但可以延长至2分钟或以上。Sora生成的1080p视频时长则被限制在20秒以内。

DeepMind声称，在对Veo 2和Sora Turbo进行比较时，59%的人类评分者更青睐谷歌的服务，27%的人则选择Sora Turbo。它还声称，在与Minimax及Meta的Movie Gen的较量中，DeepMind也取得了类似的胜利。当竞争对手是来自中国的快手科技（Kuaishou Technology）的Kling v1.5时，Veo 2的受青睐程度仅略低于50%。

据DeepMind称，在“遵循提示”（即按照要求完成任务）方面，Veo 2的受青睐程度也相似。

该谷歌部门还声称在消除多余手指等“幻觉”细节方面取得了重大进展，并且在展示“对现实世界物理学以及人类动作和表情细微差别有更好理解”方面也取得了重大进展。

物理学问题一直是视频生成器面临的一大难题。例如，Sora就难以生成逼真的体操运动员及其复杂动作视频。Veo 2在这方面会有多大改进还有待观察。

斯坦福大学（Stanford）教授、World Labs联合创始人李飞飞（Fei-Fei Li）等人认为，只有所谓的世界模型才能真正解决物理和物体永恒性等难题，这些模型具有“空间智能”，能够理解和生成三维环境。谷歌于本月早些时候推出了Genie 2世界模型，但其重点是生成环境，用于训练和评估在虚拟环境中运行的人工智能“代理”。

图像和视频生成器的输出越逼真，其被用于非法目的的风险就越大。DeepMind在Veo 2视频片段中添加了隐形的SynthID水印。如果人们在查看视频时发现了人工智能来源的蛛丝马迹，那么利用这些视频片段进行政治造谣的难度就会加大。对于更普通的欺诈性应用程序，这一措施可能并不奏效，因为受害者不太可能检查文件中是否有隐形水印。

相比之下，OpenAI的Sora在其生成视频的右下角添加了明显的动画标识。Sora还使用开源的C2PA水印协议，这是SynthID的替代系统（尽管谷歌也在2月份加入了C2PA计划）。

Veo 2现已被整合进谷歌实验室的VideoFX生成工具（分辨率上限为720p），而修改后的Imagen 3模型如今也已应用于ImageFX工具。VideoFX目前只在美国推出，但ImageFX可在100多个国家使用。

谷歌DeepMind并未透露Veo 2和新版Imagen 3所使用的训练数据来源，不过该公司此前曾暗示，油管（YouTube）上的视频（这两家公司都隶属于Alphabet）是原始Veo版本部分训练数据的来源。

许多艺术家、摄影师、创作者和电影制作人担心，他们受版权保护的作品会在未经授权的情况下被用于训练此类系统。OpenAI拒绝透露Sora的训练数据来源，但《纽约时报》援引熟悉Sora训练情况的消息人士报道称，该公司使用了谷歌油管服务上的视频来训练人工智能模型。404 Media此前曾报道，Runway似乎也使用了油管上的视频来训练Gen 3 Alpha。

ImageFX在笔者所在的德国无法使用。然而，谷歌DeepMind的一位发言人否认这与欧盟新的《人工智能法案》有任何关联，该法案要求大型科技公司提供详细的摘要，说明他们在训练人工智能模型时使用了哪些受版权保护的数据。他们表示：“我们通常会先在某一特定市场或有限的市场范围内逐步推进试验，然后再拓展到更广阔的市场。”

■