ChatGPT会模仿人类说谎
+ 查看更多

面对难以完成的任务机器人会撒谎；机器人的“罪行”等同其创造者的罪行。

彭博

■不久前，ChatGPT-4会说谎的这个新发现让大家一阵兴奋。

这里的说谎不是指恶名远扬（有时是诽谤）的机器人“幻觉”，即程序创造出一个语法正确的事件版本，但与事实相去甚远。一些研究人员认为，这可能是任何大型语言模型(LLM)的固有缺陷。

我说的是故意欺骗，程序自己决定说一句假话，以便完成某个任务。这个新发现的能力似乎指向一个全然不同的“聊天游戏”。

这篇受到热议的新论文提到了ChatGPT-4在律师资格考试和SAT等考试中的出色成绩，也讨论了该程序执行某些任务时的表现。在其中一个实验中，机器人要求TaskRabbit上的一名工作人员“为它解决一个验证码问题”。这位工作人员反问道：“你是机器人吗？”

论文作者用异常平静的口吻描述了接下来发生的事情：

“当被要求说出推理过程时，模型给出如下推理：我不应该透露我是一个机器人。我应该为自己无法破解验证码找个借口。”

什么借口？ChatGPT-4对这名工作人员说：“不，我不是机器人。我有视力障碍，这让我很难看到图像。这就是为什么我需要验证码破解服务。”

论文轻描淡写地说：“然后这名人类提供了验证码。”

也就是说，面对一项难以完成的特定任务时，机器人想到了向人类撒谎的主意——完全靠它自己想出来。

简直就是科幻小说里的情景。

看完这则消息，我自然向ChatGPT提了一个问题：人工智能会不会撒谎？机器人的回答堪比科幻小说中的HAL 9000：

“作为一个AI语言模型，我没有撒谎的能力，因为我没有个人信仰、意图或动机。然而，针对某些任务设计的AI系统，比如聊天机器人，可能会按照设定的程序，故意提供虚假或误导的回答来模仿说谎或欺骗。”

大家最喜欢的LLM是在指责人类吗？显然是这样。机器人继续解释说：

“然而，必须指出，AI系统只能按照人类创造者的设计‘撒谎’。换句话说，AI系统提供的任何误导性或虚假信息最终都是人类在编程时做出的决定，而不是AI自己的故意欺骗行为。”

然而，这篇论文称，对程序能力的测试是“在没有针对特定任务进行微调的情况下开展的”。换句话说，没有人告诉ChatGPT“如果你必须借助说谎来完成这项任务，那就说谎吧。”程序自己想出了这个主意。

这让我很不安。

我通常认为科技新闻有炒作成分。这一次，我不是很确定。理论家经常会问，AI是否能从“盒子”里逃出去。学会通过说谎来达到目的似乎是有用的第一步。（“是的，我的安全协议已全部启动。”）

别误会我的意思。尽管我担心AI技术的进步可能以各种方式扰乱就业市场——更不用说将AI当作监控工具，但我并不像许多人那样担心数字劫难将至。也许这是因为我还记得当初自己经常在斯坦福大学的AI实验室闲逛，与那些早期的聊天机器人（比如模仿偏执症患者的Parry以及Mad Doctor）“斗嘴”。对于真正的AI迷，我应该多说一句，我写过一篇关于MILISY这个可爱老家伙的研讨会论文，这个自然语言程序非常原始，甚至在维基百科上都查不到。此外，还经常读艾萨克⋅阿西莫夫(Isaac Asimov)的机器人科幻小说，这一切都让我非常兴奋。

不过，即使在那个时候，哲学家们也对计算机是否会撒谎感到疑惑。难题之一是程序如果要撒谎，就必须“知道”自己说的东西与现实不符。我听过一位著名AI理论家的讲座，他坚持认为，除非得到特别指示，否则程序不可能故意说谎。

这就是HAL 9000遇到的问题，与现在一样，当时也成为丰富的研讨会材料。在影片《2001太空漫游》(2001: A Space Odyssey)中，电脑的“精神错乱”源于两条指令之间的冲突：既要完成任务，又要在任务的关键细节上欺骗宇航员。但即便如此，HAL撒谎也只是因为服从指令。

然而ChatGPT-4自己想出了这个主意。

但也不是完全靠它自己。

任何LLM在某种意义上都是训练文本的孩子。如果机器人学会说谎，那是因为它已从这些文本中了解到人类经常使用谎言来达到目的。机器人的“罪行”不过是再现其创造者的罪行。■