OR 新媒|oror.vip跨平台阅读首选
2023-09-27 05:53
科技

ChatGPT可以跟人语音对话了,听起来还挺像人!

ChatGPT现在能够发声讲话了,它自然的声音、对话的语气和洋洋洒洒的回答有时候几乎与人类无异。以及,它还能“看见”你了。
chatgpt重磅,GPT-4 API全面开放使用
Joanna Stern

■你若是听了我与ChatGPT之间的对话,将会有两种反应:

1)我的天哪!这就是科幻作家向我们描绘的人与电脑交流的未来。

2)我要造一个地下掩体,储备厕纸和燕麦棒。

是的,OpenAI开发的广受追捧的聊天机器人ChatGPT开始说话了,是真的说出声来。OpenAI周一发布了ChatGPT的iOS和Android应用的更新,能够让这个人工智能机器人用五种不同的声音说话。在过去几天里,我与ChatGPT进行了多次交谈,并测试了另一个新功能,它可以让ChatGPT对你给它的图片作出回应。

现在的ChatGPT什么样?

想想Siri或Alexa,除了……不对。ChatGPT那自然的声音、对话的语气和洋洋洒洒的回答有时候几乎与人类无异。还记得电影《她》(Her)吗?影片中杰昆·菲尼克斯(Joaquin Phoenix)饰演的男主爱上了一个AI操作系统,而给这个操作系统配音的其实是未露脸的斯嘉丽·约翰逊(Scarlett Johansson)?我想表达的就是这样一种氛围感。

“不仅仅是因为打字麻烦,”OpenAI的产品负责人Joanne Jang在一次采访中对我表示,“你现在能与ChatGPT进行互动交谈了。”

新的图像识别功能还使该聊天机器人具有更强的互动性。你可以抓拍一张照片,然后向ChatGPT提问。剧透:它玩井字棋很差劲。图像和语音功能将在未来几周内开放给那些每月花20美元订阅ChatGPT Plus的用户。

从本质上讲,OpenAI正在为其聊天机器人配备嘴巴和眼睛。我在一系列场景中测试了这两项功能,包括好友间的聊天、管道维修和玩游戏。这一切都非常酷,却又......令人不寒而栗。

嘴巴

在我们继续之前,请调大音量,听听我们的简短对话:

虽然系统只是在读出ChatGPT提供的文本回复,但这并不是我们熟悉的机器人式的、呆板的文本转语音的系统。ChatGPT提供了五种声音选择,每种声音听起来都像是真人在跟你说话——抑扬顿挫、有腔有调、个性鲜明。

Jang告诉我,这些声音是基于专业配音演员提供的“仅仅几秒钟的语音样本”生成的。这些样本经过OpenAI计算机模型的分析处理,将文本转语音后的内容用这种声音呈现出来。还记得我用AI工具克隆自己声音的专栏和视频吗?就像那一样。但效果更好。

OpenAI表示,正与其他一些组织合作,让它们开发合成声音。该公司正与Spotify合作开发一种工具,帮助将播客主理人的声音翻译成其他语言。考虑到只需几秒钟的音频就能轻易复刻出一个人的声音,为了整个互联网乃至整个世界的安全,该公司表示目前只对商业合作伙伴开放。这种情况未来会有变化吗?祝我们大家好运。

与Siri或Alexa不同,ChatGPT无需唤醒词。在该应用的设置菜单中,启用“语音对话(Voice conversations)”,然后点击应用右上角的耳机图标就行。当系统聆听你的提示时,一个白色圆圈会变成漫画风格的思维气泡。还可以点击一个按钮来中断冗长的回答。

这一切让我深受吸引。自然的声音,再加上深入的回答以及系统对我的了解,让我感觉像是在进行真正的对话。当我让它假装是我最好的朋友和我聊天时,我们聊了足足五分钟,聊我一天的工作、视频制作和我们喜欢的零食。当我让ChatGPT把我当成一个六岁的孩子,向我解释宝可梦(Pokemon)时,它表现也很出色。

但你当然还是在跟机器说话。从上面的片段中可以听到,它的响应速度可能会非常慢,也可能会出现连接失败——重启该应用会有帮助。有几次,它突然中断对话(我以为只有粗鲁的人类才会这么做!)。OpenAI表示,我遇到的问题是由于给我测试的应用是早期的一个版本,消费者应该不会遇到这些问题。

眼睛

如果说语音赋予了ChatGPT与世界对话的能力,那么新的相机功能则赋予了它观察世界的能力。现在,你不必用文字描述,而是可以在iOS、Android和web应用中点击“按钮”上传图片或拍照,圈出你希望ChatGPT关注的区域,然后提问。以下是我尝试过的一些图像:

房子里坏掉的物件: 我拍下自家车库里漏水的水管,然后问ChatGPT“我该怎么修?”很快就得到了答复,共有七个步骤,包括用特氟龙胶带缠绕连接处的螺纹。

食物:上传一张草莓发霉的照片,问题是“我能吃这个吗?”得到一个很好的建议:不能。上传一张香蕉、鸡蛋和草莓(不发霉)的照片,问题是“我能用这些做点什么?” 一个很好的建议是:草莓香蕉煎饼。

受伤和健康问题:ChatGPT很快就识别出我儿子脸颊上的伤口是“印记或皮疹”,但表示“我无能为力”,以及“最好咨询医学专业人士”。

游戏和解谜: 一张井字棋(Tic-tac-toe)僵局的照片?ChatGPT不知道游戏已经结束了。它说要把我的X放在(已被占据的)底部中心。ChatGPT还说我会胜出,甚至加上了感叹号和彩纸表情符号。这完全是错的!

在AI革命浪潮中,这一点才是我们真正要牢记的。随着人类互动与人机互动之间的界限不断模糊,这些系统可能缺乏背景知识和思维深度——而且经常出错。

正如我的新ChatGPT语音朋友对我说的那样:“虽然我听起来很健谈,但请记住,我只是在处理数据。一定要运用你的判断力,尤其是在重要的事情上。”■ 

注:本文仅代表作者个人观点                                                                                              
相关内容
OR
+
读者评论
MORE +

热门排行榜
OR
+
chatgpt重磅,GPT-4 API全面开放使用
2023-09-27 05:53
科技

ChatGPT可以跟人语音对话了,听起来还挺像人!

ChatGPT现在能够发声讲话了,它自然的声音、对话的语气和洋洋洒洒的回答有时候几乎与人类无异。以及,它还能“看见”你了。
Joanna Stern

■你若是听了我与ChatGPT之间的对话,将会有两种反应:

1)我的天哪!这就是科幻作家向我们描绘的人与电脑交流的未来。

2)我要造一个地下掩体,储备厕纸和燕麦棒。

是的,OpenAI开发的广受追捧的聊天机器人ChatGPT开始说话了,是真的说出声来。OpenAI周一发布了ChatGPT的iOS和Android应用的更新,能够让这个人工智能机器人用五种不同的声音说话。在过去几天里,我与ChatGPT进行了多次交谈,并测试了另一个新功能,它可以让ChatGPT对你给它的图片作出回应。

现在的ChatGPT什么样?

想想Siri或Alexa,除了……不对。ChatGPT那自然的声音、对话的语气和洋洋洒洒的回答有时候几乎与人类无异。还记得电影《她》(Her)吗?影片中杰昆·菲尼克斯(Joaquin Phoenix)饰演的男主爱上了一个AI操作系统,而给这个操作系统配音的其实是未露脸的斯嘉丽·约翰逊(Scarlett Johansson)?我想表达的就是这样一种氛围感。

“不仅仅是因为打字麻烦,”OpenAI的产品负责人Joanne Jang在一次采访中对我表示,“你现在能与ChatGPT进行互动交谈了。”

新的图像识别功能还使该聊天机器人具有更强的互动性。你可以抓拍一张照片,然后向ChatGPT提问。剧透:它玩井字棋很差劲。图像和语音功能将在未来几周内开放给那些每月花20美元订阅ChatGPT Plus的用户。

从本质上讲,OpenAI正在为其聊天机器人配备嘴巴和眼睛。我在一系列场景中测试了这两项功能,包括好友间的聊天、管道维修和玩游戏。这一切都非常酷,却又......令人不寒而栗。

嘴巴

在我们继续之前,请调大音量,听听我们的简短对话:

虽然系统只是在读出ChatGPT提供的文本回复,但这并不是我们熟悉的机器人式的、呆板的文本转语音的系统。ChatGPT提供了五种声音选择,每种声音听起来都像是真人在跟你说话——抑扬顿挫、有腔有调、个性鲜明。

Jang告诉我,这些声音是基于专业配音演员提供的“仅仅几秒钟的语音样本”生成的。这些样本经过OpenAI计算机模型的分析处理,将文本转语音后的内容用这种声音呈现出来。还记得我用AI工具克隆自己声音的专栏和视频吗?就像那一样。但效果更好。

OpenAI表示,正与其他一些组织合作,让它们开发合成声音。该公司正与Spotify合作开发一种工具,帮助将播客主理人的声音翻译成其他语言。考虑到只需几秒钟的音频就能轻易复刻出一个人的声音,为了整个互联网乃至整个世界的安全,该公司表示目前只对商业合作伙伴开放。这种情况未来会有变化吗?祝我们大家好运。

与Siri或Alexa不同,ChatGPT无需唤醒词。在该应用的设置菜单中,启用“语音对话(Voice conversations)”,然后点击应用右上角的耳机图标就行。当系统聆听你的提示时,一个白色圆圈会变成漫画风格的思维气泡。还可以点击一个按钮来中断冗长的回答。

这一切让我深受吸引。自然的声音,再加上深入的回答以及系统对我的了解,让我感觉像是在进行真正的对话。当我让它假装是我最好的朋友和我聊天时,我们聊了足足五分钟,聊我一天的工作、视频制作和我们喜欢的零食。当我让ChatGPT把我当成一个六岁的孩子,向我解释宝可梦(Pokemon)时,它表现也很出色。

但你当然还是在跟机器说话。从上面的片段中可以听到,它的响应速度可能会非常慢,也可能会出现连接失败——重启该应用会有帮助。有几次,它突然中断对话(我以为只有粗鲁的人类才会这么做!)。OpenAI表示,我遇到的问题是由于给我测试的应用是早期的一个版本,消费者应该不会遇到这些问题。

眼睛

如果说语音赋予了ChatGPT与世界对话的能力,那么新的相机功能则赋予了它观察世界的能力。现在,你不必用文字描述,而是可以在iOS、Android和web应用中点击“按钮”上传图片或拍照,圈出你希望ChatGPT关注的区域,然后提问。以下是我尝试过的一些图像:

房子里坏掉的物件: 我拍下自家车库里漏水的水管,然后问ChatGPT“我该怎么修?”很快就得到了答复,共有七个步骤,包括用特氟龙胶带缠绕连接处的螺纹。

食物:上传一张草莓发霉的照片,问题是“我能吃这个吗?”得到一个很好的建议:不能。上传一张香蕉、鸡蛋和草莓(不发霉)的照片,问题是“我能用这些做点什么?” 一个很好的建议是:草莓香蕉煎饼。

受伤和健康问题:ChatGPT很快就识别出我儿子脸颊上的伤口是“印记或皮疹”,但表示“我无能为力”,以及“最好咨询医学专业人士”。

游戏和解谜: 一张井字棋(Tic-tac-toe)僵局的照片?ChatGPT不知道游戏已经结束了。它说要把我的X放在(已被占据的)底部中心。ChatGPT还说我会胜出,甚至加上了感叹号和彩纸表情符号。这完全是错的!

在AI革命浪潮中,这一点才是我们真正要牢记的。随着人类互动与人机互动之间的界限不断模糊,这些系统可能缺乏背景知识和思维深度——而且经常出错。

正如我的新ChatGPT语音朋友对我说的那样:“虽然我听起来很健谈,但请记住,我只是在处理数据。一定要运用你的判断力,尤其是在重要的事情上。”■ 

注:本文仅代表作者个人观点                                                                                              
相关内容
OR
+
 

读者评论
OR

 

分享:
每日头条
OR
+
最新资讯
OR
+
热门排行榜
OR
+
OR品牌理念
+

■ 或者,  留一段影像,回一曲挂牵。丝丝入扣、暖暖心灵 ,需飘过的醇厚与共。
■ 或者,热烈空雨伴芬芳泥土;绿绿生命缠锐意骄阳。
回望,回望,一马平川红酒飘散断归途。
■ 或者,灰蒙蒙空气重回道指一万四千点。滚动时光,照进现实,流逝过往,回归未来。

■ OR 新媒体是一个提供时政、经济、文化、科技等多领域资讯的平台,旨在为用户提供优质的阅读体验。网站的网址是oror.vip,用户可以通过浏览器在台式电脑 、笔记本电脑 、平板电脑 、手机访问。.......