OR 新媒|oror.vip跨平台阅读首选
2024-05-14 09:25
科技

OpenAI推出新模型GPT-4o,AI语音助手灵感来自电影《她》

OpenAI发布了其旗舰AI系统的一个更便宜的版本,除了文本之外能更好地消化图像和视频,并能通过语音方式与用户实时互动。
OpenAI将推出搜索引擎SearchGPT,直接挑战谷歌
Deepa Seetharaman


OpenAI发布了其旗舰AI系统的一个更便宜的版本,其中内置了一个语音助手以方便用户使用。和其他科技公司一样,OpenAI也在加紧推出产品和功能以吸引用户。

OpenAI首席技术官Mira Murati周一表示,这款被称作GPT-4o的新AI模型除了文本之外还能更好地消化图像和视频,并能通过语音与用户实时互动。OpenAI表示,与现有的语音助手不同,用户在与新的语音功能对话时可以打断它,而新模型能够近乎即时地做出反应。

OpenAI高管在直播演示中展示了新模型是如何分析代码、为两个对话者提供语言翻译,或指导用户完成写在纸上的基本代数问题的,这一切似乎都能实时做到。

GPT-4o的问世表明,在投入巨资和精力开发算力和系统后,OpenAI和其他初创公司越来越希望扩大用户群,并将它们的生成式AI技术商业化。

在OpenAI发布新产品一天后,谷歌(Google)也将于周二召开年度开发者大会,并预计将在会上发布自己的新产品。作为AI领域的先驱,谷歌一直在和OpenAI以及微软(Microsoft)争夺生成式AI领域的霸主地位。作为OpenAI的合作伙伴和支持者,微软没有参与GPT-4o的研发。

OpenAI首席执行官阿尔特曼(Sam Altman)将GPT-4o比作电影中常见的那种AI工具。他在去年的一次演讲中说,他和OpenAI的其他高管从2013年的电影《她》(Her)中获得灵感,这部电影讲述了一个男人爱上语音助手的故事。在周一发布公告后不久,他和OpenAI的其他员工在X上提到这部电影。

阿尔特曼周一在个人博客上写道:“初代ChatGPT展示了语言界面的雏形,而这款模型能给人截然不同的感觉。”

OpenAI说,新模型还能从语音语调或面部表情中检测人类的情绪。它还能在不同的情感语调之间更快速地切换,从戏剧性的声音到机器人语调,再到歌声。这项功能未来几周将向每月支付20美元的ChatGPT-Plus用户推出。

GPT-4o还将面向企业推出。Murati说,该模型的速度将是目前顶级产品GPT-4 Turbo的两倍,而成本只有后者的一半。该公司表示,GPT-4o中的“o”代表“一切(omni)”。从下周一开始,使用免费版ChatGPT的用户将可以使用GPT-4o的图像和视觉功能。

OpenAI已经提供了一种名为“语音模式”的功能,是将三个独立模型结合在一起并以语音的方式回应用户,但当多个人一起说话或是背景比较嘈杂的时候,这个功能可能发生混淆,而且速度也不够快。OpenAI前沿研究主管Mark Chen在接受采访时说,这种速度是无法适应“模型链”的。

相比之下,GPT-4o是根据文本、视觉和音频材料训练而成的单一模型,可以更快更准确地响应提示。

OpenAI高管不愿透露训练GPT-4o模型时使用了什么样的数据,也未透露OpenAI是否能利用较少的算力训练该模型。OpenAI还在开发一种名为GPT-5的全新AI模型,有望在现有技术的基础上实现大幅跃升。

Murati周一说,比起电影《她》,OpenAI团队从人类对话中获得的启发更大。“你不说话了,我就接一句。我能读懂你的语气并做出回应。这非常自然,丰富,而且充满互动。”


■ 
                                                                                         
相关内容
+
读者评论
MORE +

热门排行榜
OR
+
OpenAI将推出搜索引擎SearchGPT,直接挑战谷歌
2024-05-14 09:25
科技

OpenAI推出新模型GPT-4o,AI语音助手灵感来自电影《她》

OpenAI发布了其旗舰AI系统的一个更便宜的版本,除了文本之外能更好地消化图像和视频,并能通过语音方式与用户实时互动。
Deepa Seetharaman


OpenAI发布了其旗舰AI系统的一个更便宜的版本,其中内置了一个语音助手以方便用户使用。和其他科技公司一样,OpenAI也在加紧推出产品和功能以吸引用户。

OpenAI首席技术官Mira Murati周一表示,这款被称作GPT-4o的新AI模型除了文本之外还能更好地消化图像和视频,并能通过语音与用户实时互动。OpenAI表示,与现有的语音助手不同,用户在与新的语音功能对话时可以打断它,而新模型能够近乎即时地做出反应。

OpenAI高管在直播演示中展示了新模型是如何分析代码、为两个对话者提供语言翻译,或指导用户完成写在纸上的基本代数问题的,这一切似乎都能实时做到。

GPT-4o的问世表明,在投入巨资和精力开发算力和系统后,OpenAI和其他初创公司越来越希望扩大用户群,并将它们的生成式AI技术商业化。

在OpenAI发布新产品一天后,谷歌(Google)也将于周二召开年度开发者大会,并预计将在会上发布自己的新产品。作为AI领域的先驱,谷歌一直在和OpenAI以及微软(Microsoft)争夺生成式AI领域的霸主地位。作为OpenAI的合作伙伴和支持者,微软没有参与GPT-4o的研发。

OpenAI首席执行官阿尔特曼(Sam Altman)将GPT-4o比作电影中常见的那种AI工具。他在去年的一次演讲中说,他和OpenAI的其他高管从2013年的电影《她》(Her)中获得灵感,这部电影讲述了一个男人爱上语音助手的故事。在周一发布公告后不久,他和OpenAI的其他员工在X上提到这部电影。

阿尔特曼周一在个人博客上写道:“初代ChatGPT展示了语言界面的雏形,而这款模型能给人截然不同的感觉。”

OpenAI说,新模型还能从语音语调或面部表情中检测人类的情绪。它还能在不同的情感语调之间更快速地切换,从戏剧性的声音到机器人语调,再到歌声。这项功能未来几周将向每月支付20美元的ChatGPT-Plus用户推出。

GPT-4o还将面向企业推出。Murati说,该模型的速度将是目前顶级产品GPT-4 Turbo的两倍,而成本只有后者的一半。该公司表示,GPT-4o中的“o”代表“一切(omni)”。从下周一开始,使用免费版ChatGPT的用户将可以使用GPT-4o的图像和视觉功能。

OpenAI已经提供了一种名为“语音模式”的功能,是将三个独立模型结合在一起并以语音的方式回应用户,但当多个人一起说话或是背景比较嘈杂的时候,这个功能可能发生混淆,而且速度也不够快。OpenAI前沿研究主管Mark Chen在接受采访时说,这种速度是无法适应“模型链”的。

相比之下,GPT-4o是根据文本、视觉和音频材料训练而成的单一模型,可以更快更准确地响应提示。

OpenAI高管不愿透露训练GPT-4o模型时使用了什么样的数据,也未透露OpenAI是否能利用较少的算力训练该模型。OpenAI还在开发一种名为GPT-5的全新AI模型,有望在现有技术的基础上实现大幅跃升。

Murati周一说,比起电影《她》,OpenAI团队从人类对话中获得的启发更大。“你不说话了,我就接一句。我能读懂你的语气并做出回应。这非常自然,丰富,而且充满互动。”


■ 
                                                                                         
相关内容
+
 

读者评论
OR

 

分享:
每日头条
OR
+
最新资讯
OR
+
热门排行榜
OR
+
OR品牌理念
+

■ 或者,  留一段影像,回一曲挂牵。丝丝入扣、暖暖心灵 ,需飘过的醇厚与共。
■ 或者,热烈空雨伴芬芳泥土;绿绿生命缠锐意骄阳。
回望,回望,一马平川红酒飘散断归途。
■ 或者,灰蒙蒙空气重回道指一万四千点。滚动时光,照进现实,流逝过往,回归未来。

■ OR 新媒体是一个提供时政、经济、文化、科技等多领域资讯的平台,旨在为用户提供优质的阅读体验。网站的网址是oror.vip,用户可以通过浏览器在台式电脑 、笔记本电脑 、平板电脑 、手机访问。.......