OR 新媒|oror.vip跨平台阅读首选
2024-12-20 06:29
科技

谷歌旗下公司发布新款视频生成器,分辨率超Sora

DeepMind的新Veo 2人工智能视频生成器以4K分辨率超越了OpenAI的Sora模型。
GPT-4首次亮相,在消费办公工具人工智能的竞赛中,谷歌击败微软
AVID MEYER


在Alphabet旗下的谷歌DeepMind推出Veo人工智能视频生成器仅7个月后,该部门再次宣布推出Veo 2。

新工具能够生成分辨率高达4K的视频,而第一代Veo仅支持最高1080p的视频处理。谷歌声称,升级后的Veo生成的场景的物理效果有所改进,而且“相机控制”功能也更为出色(尽管并不涉及实体相机,但用户可以通过指令提示模型选用特定的相机镜头和拍摄角度,从特写镜头到摇摄再到“定场镜头”)。

DeepMind还宣布了Imagen 3文本到图像模型的更新版本,尽管这些改进——比如“构图更为均衡”的图像以及艺术风格更为贴合——显然不足以让其升级到全新的版本号。Imagen 3于今年8月首次推出。

Veo 2升级至4K分辨率表明DeepMind在视频生成领域相较于竞争对手的人工智能实验室取得了领先优势。

一周前,OpenAI终于推出了Sora视频生成器(早在2月份就已公布),但Sora(尤其是目前仅向ChatGPT Plus和Pro用户开放的Sora Turbo版本)的导出分辨率上限仅为1080p。目前最受欢迎的人工智能视频生成器Runway的导出分辨率更是局限在较为模糊的720p。

谷歌在Veo 2的演示中表示:“低分辨率视频在移动设备上播放效果很好,但创作者希望看到自己的作品在大屏幕上熠熠生辉。”

谷歌发言人表示,在默认情况下,Veo 2生成的4K视频时长被限制在8秒以内,但可以延长至2分钟或以上。Sora生成的1080p视频时长则被限制在20秒以内。

DeepMind声称,在对Veo 2和Sora Turbo进行比较时,59%的人类评分者更青睐谷歌的服务,27%的人则选择Sora Turbo。它还声称,在与Minimax及Meta的Movie Gen的较量中,DeepMind也取得了类似的胜利。当竞争对手是来自中国的快手科技(Kuaishou Technology)的Kling v1.5时,Veo 2的受青睐程度仅略低于50%。

据DeepMind称,在“遵循提示”(即按照要求完成任务)方面,Veo 2的受青睐程度也相似。

该谷歌部门还声称在消除多余手指等“幻觉”细节方面取得了重大进展,并且在展示“对现实世界物理学以及人类动作和表情细微差别有更好理解”方面也取得了重大进展。

物理学问题一直是视频生成器面临的一大难题。例如,Sora就难以生成逼真的体操运动员及其复杂动作视频。Veo 2在这方面会有多大改进还有待观察。

斯坦福大学(Stanford)教授、World Labs联合创始人李飞飞(Fei-Fei Li)等人认为,只有所谓的世界模型才能真正解决物理和物体永恒性等难题,这些模型具有“空间智能”,能够理解和生成三维环境。谷歌于本月早些时候推出了Genie 2世界模型,但其重点是生成环境,用于训练和评估在虚拟环境中运行的人工智能“代理”。

图像和视频生成器的输出越逼真,其被用于非法目的的风险就越大。DeepMind在Veo 2视频片段中添加了隐形的SynthID水印。如果人们在查看视频时发现了人工智能来源的蛛丝马迹,那么利用这些视频片段进行政治造谣的难度就会加大。对于更普通的欺诈性应用程序,这一措施可能并不奏效,因为受害者不太可能检查文件中是否有隐形水印。

相比之下,OpenAI的Sora在其生成视频的右下角添加了明显的动画标识。Sora还使用开源的C2PA水印协议,这是SynthID的替代系统(尽管谷歌也在2月份加入了C2PA计划)。

Veo 2现已被整合进谷歌实验室的VideoFX生成工具(分辨率上限为720p),而修改后的Imagen 3模型如今也已应用于ImageFX工具。VideoFX目前只在美国推出,但ImageFX可在100多个国家使用。

谷歌DeepMind并未透露Veo 2和新版Imagen 3所使用的训练数据来源,不过该公司此前曾暗示,油管(YouTube)上的视频(这两家公司都隶属于Alphabet)是原始Veo版本部分训练数据的来源。

许多艺术家、摄影师、创作者和电影制作人担心,他们受版权保护的作品会在未经授权的情况下被用于训练此类系统。OpenAI拒绝透露Sora的训练数据来源,但《纽约时报》援引熟悉Sora训练情况的消息人士报道称,该公司使用了谷歌油管服务上的视频来训练人工智能模型。404 Media此前曾报道,Runway似乎也使用了油管上的视频来训练Gen 3 Alpha。

ImageFX在笔者所在的德国无法使用。然而,谷歌DeepMind的一位发言人否认这与欧盟新的《人工智能法案》有任何关联,该法案要求大型科技公司提供详细的摘要,说明他们在训练人工智能模型时使用了哪些受版权保护的数据。他们表示:“我们通常会先在某一特定市场或有限的市场范围内逐步推进试验,然后再拓展到更广阔的市场。”

■ 
                                                                                         
相关内容
+
读者评论
MORE +

热门排行榜
OR
+
  • 普京2
    普京暗示不急于结束乌克兰战争

    在年度电视直播活动中,普京似乎并不急于结束乌克兰战争,而是试图展现俄罗斯的实力。另一方面,特朗普已誓言要确保尽快结束这场冲突。


  • 前极越中层人士发声:夏一平原本没有通过面试
    2025,互联网巨头放弃造车?

    “大腿”意兴阑珊,极越们纷纷崩盘。


  • 澳门防疫措施升级-将关闭酒吧影院并暂停餐厅堂食服务
    澳门回归25年的“变”与“不变”

    卓泽林、周文伟:这25载见证了澳门经济社会发展的新面貌,书写了教育文化保障水平上升的新阶段,勾勒了澳门融入国家发展大局的新机遇。


  • 刷新世界纪录!“九章三号”量子计算原型机研制成功
    量子软件时代已经开启

    对于有着长开发周期的某些早期采用者来说,尤其是在金融、能源和生命科学等领域,量子技术已经足够成熟,可以开始应用于实际工作了。


  • 蚂蚁集团推进结构重组 蚂蚁国际、OceanBase和蚂蚁数科分别成立董事会
    蚂蚁集团:目前没有上市计划

    蚂蚁集团表示,该公司目前没有上市计划,在公开表态中还反驳了社交媒体上传播的“借壳上市”说法。


  • vivo手机
    vivo“蓝科技”对决苹果“绿巨人”

    周掌柜:本文分析探讨一个几乎困扰所有很多企业的长期难题:中国品牌如何用差异化、本地化策略化解国际领先企业的先发优势?


  • 特朗普发表胜选感言:上帝饶了我一命是有原因的
    仇恨政治与民主党的失败

    刘远举:技术和经济的底层逻辑是合作、开放。所以,要想在现实中获得生产力、发展、技术创新,从而获得生存与发展,必然要抛弃仇恨。


  • 美联储为9月降息进一步打开大门
    美联储降息25个基点 点阵图将明年降息次数预估下调至两次

    彭博调查的大多数经济学家此前预计,点阵图预估中值将指向明年进行三次降息;美联储对明年年底通胀率的预测中值从9月的2.1%升至2.5%。


  • 马斯克要开除美国77%公务员,约1771万人
    美媒:中美关系需要“马斯克+斯威夫特”

    美国需要更多的马斯克,让更多本土制造商在美国制造大件产品,减少进口。中国应该让年轻人有更多机会花钱购买国外制造的娱乐和消费品。


  • 职场被联名“拿捏”的年轻人
    在求稳和求财之间,这届年轻人选择都要

    2024年,房产不再是投资重点标的,存款利率下行,股市乍暖还寒……年轻人却总有自己的办法:左手是极端攒钱、用理财收益生活,该省省、该花花,右手是当股市机会涌现,他们也绝不保守,尝试主动出击。


  • 普京2
    普京暗示不急于结束乌克兰战争

    在年度电视直播活动中,普京似乎并不急于结束乌克兰战争,而是试图展现俄罗斯的实力。另一方面,特朗普已誓言要确保尽快结束这场冲突。


  • 前极越中层人士发声:夏一平原本没有通过面试
    2025,互联网巨头放弃造车?

    “大腿”意兴阑珊,极越们纷纷崩盘。


  • 澳门防疫措施升级-将关闭酒吧影院并暂停餐厅堂食服务
    澳门回归25年的“变”与“不变”

    卓泽林、周文伟:这25载见证了澳门经济社会发展的新面貌,书写了教育文化保障水平上升的新阶段,勾勒了澳门融入国家发展大局的新机遇。


  • 刷新世界纪录!“九章三号”量子计算原型机研制成功
    量子软件时代已经开启

    对于有着长开发周期的某些早期采用者来说,尤其是在金融、能源和生命科学等领域,量子技术已经足够成熟,可以开始应用于实际工作了。


GPT-4首次亮相,在消费办公工具人工智能的竞赛中,谷歌击败微软
2024-12-20 06:29
科技

谷歌旗下公司发布新款视频生成器,分辨率超Sora

DeepMind的新Veo 2人工智能视频生成器以4K分辨率超越了OpenAI的Sora模型。
AVID MEYER


在Alphabet旗下的谷歌DeepMind推出Veo人工智能视频生成器仅7个月后,该部门再次宣布推出Veo 2。

新工具能够生成分辨率高达4K的视频,而第一代Veo仅支持最高1080p的视频处理。谷歌声称,升级后的Veo生成的场景的物理效果有所改进,而且“相机控制”功能也更为出色(尽管并不涉及实体相机,但用户可以通过指令提示模型选用特定的相机镜头和拍摄角度,从特写镜头到摇摄再到“定场镜头”)。

DeepMind还宣布了Imagen 3文本到图像模型的更新版本,尽管这些改进——比如“构图更为均衡”的图像以及艺术风格更为贴合——显然不足以让其升级到全新的版本号。Imagen 3于今年8月首次推出。

Veo 2升级至4K分辨率表明DeepMind在视频生成领域相较于竞争对手的人工智能实验室取得了领先优势。

一周前,OpenAI终于推出了Sora视频生成器(早在2月份就已公布),但Sora(尤其是目前仅向ChatGPT Plus和Pro用户开放的Sora Turbo版本)的导出分辨率上限仅为1080p。目前最受欢迎的人工智能视频生成器Runway的导出分辨率更是局限在较为模糊的720p。

谷歌在Veo 2的演示中表示:“低分辨率视频在移动设备上播放效果很好,但创作者希望看到自己的作品在大屏幕上熠熠生辉。”

谷歌发言人表示,在默认情况下,Veo 2生成的4K视频时长被限制在8秒以内,但可以延长至2分钟或以上。Sora生成的1080p视频时长则被限制在20秒以内。

DeepMind声称,在对Veo 2和Sora Turbo进行比较时,59%的人类评分者更青睐谷歌的服务,27%的人则选择Sora Turbo。它还声称,在与Minimax及Meta的Movie Gen的较量中,DeepMind也取得了类似的胜利。当竞争对手是来自中国的快手科技(Kuaishou Technology)的Kling v1.5时,Veo 2的受青睐程度仅略低于50%。

据DeepMind称,在“遵循提示”(即按照要求完成任务)方面,Veo 2的受青睐程度也相似。

该谷歌部门还声称在消除多余手指等“幻觉”细节方面取得了重大进展,并且在展示“对现实世界物理学以及人类动作和表情细微差别有更好理解”方面也取得了重大进展。

物理学问题一直是视频生成器面临的一大难题。例如,Sora就难以生成逼真的体操运动员及其复杂动作视频。Veo 2在这方面会有多大改进还有待观察。

斯坦福大学(Stanford)教授、World Labs联合创始人李飞飞(Fei-Fei Li)等人认为,只有所谓的世界模型才能真正解决物理和物体永恒性等难题,这些模型具有“空间智能”,能够理解和生成三维环境。谷歌于本月早些时候推出了Genie 2世界模型,但其重点是生成环境,用于训练和评估在虚拟环境中运行的人工智能“代理”。

图像和视频生成器的输出越逼真,其被用于非法目的的风险就越大。DeepMind在Veo 2视频片段中添加了隐形的SynthID水印。如果人们在查看视频时发现了人工智能来源的蛛丝马迹,那么利用这些视频片段进行政治造谣的难度就会加大。对于更普通的欺诈性应用程序,这一措施可能并不奏效,因为受害者不太可能检查文件中是否有隐形水印。

相比之下,OpenAI的Sora在其生成视频的右下角添加了明显的动画标识。Sora还使用开源的C2PA水印协议,这是SynthID的替代系统(尽管谷歌也在2月份加入了C2PA计划)。

Veo 2现已被整合进谷歌实验室的VideoFX生成工具(分辨率上限为720p),而修改后的Imagen 3模型如今也已应用于ImageFX工具。VideoFX目前只在美国推出,但ImageFX可在100多个国家使用。

谷歌DeepMind并未透露Veo 2和新版Imagen 3所使用的训练数据来源,不过该公司此前曾暗示,油管(YouTube)上的视频(这两家公司都隶属于Alphabet)是原始Veo版本部分训练数据的来源。

许多艺术家、摄影师、创作者和电影制作人担心,他们受版权保护的作品会在未经授权的情况下被用于训练此类系统。OpenAI拒绝透露Sora的训练数据来源,但《纽约时报》援引熟悉Sora训练情况的消息人士报道称,该公司使用了谷歌油管服务上的视频来训练人工智能模型。404 Media此前曾报道,Runway似乎也使用了油管上的视频来训练Gen 3 Alpha。

ImageFX在笔者所在的德国无法使用。然而,谷歌DeepMind的一位发言人否认这与欧盟新的《人工智能法案》有任何关联,该法案要求大型科技公司提供详细的摘要,说明他们在训练人工智能模型时使用了哪些受版权保护的数据。他们表示:“我们通常会先在某一特定市场或有限的市场范围内逐步推进试验,然后再拓展到更广阔的市场。”

■ 
                                                                                         
相关内容
+
 

读者评论
OR

 

分享:
每日头条
OR
+
最新资讯
OR
+
热门排行榜
OR
+
OR品牌理念
+

■ 或者,  留一段影像,回一曲挂牵。丝丝入扣、暖暖心灵 ,需飘过的醇厚与共。
■ 或者,热烈空雨伴芬芳泥土;绿绿生命缠锐意骄阳。
回望,回望,一马平川红酒飘散断归途。
■ 或者,灰蒙蒙空气重回道指一万四千点。滚动时光,照进现实,流逝过往,回归未来。

■ OR 新媒体是一个提供时政、经济、文化、科技等多领域资讯的平台,旨在为用户提供优质的阅读体验。网站的网址是oror.vip,用户可以通过浏览器在台式电脑 、笔记本电脑 、平板电脑 、手机访问。.......