ChatGPT vs. Google Bard vs. Bing:哪个AI聊天机器人给出的答案最好?
我们让OpenAI、谷歌和微软的聊天机器人回答同样的六个问题。以下是它们在性能、个性和精确度上的不同之处。
随着本周公开发布的谷歌诗人,现在有三个AI聊天机器人在争夺你的注意力:Bard、微软Bing和ChatGPT。
这些系统处于不同的发展阶段。ChatGPT于2022年11月作为OpenAI的一项实验发布,并很快成为增长最快的应用有史以来。你可以通过免费试用chat.openai.com(在新窗口中打开),并且没有限制,除非站点用户超载,此时您可能会被暂时锁定。(每月20美元,ChatGPT Plus解除这些限制。)
微软随后在2月推出了人工智能版本的必应搜索引擎,它使用了ChatGPT技术的升级版本。您必须请求访问,并且您可以做一些事情来在Bing等待列表中上移。一旦进去,查询当前有上限到每天150次,每次来回交换15次,尽管微软已经相当频繁地调整了这些限制。
同时,谷歌诗人就在艾兵的前一天透露,此举很可能是为了抢雷德蒙的风头,目前仍处于实验阶段。该公司表示,任何公开使用都将有助于训练它最终作为谷歌搜索的一部分正式发布,尽管我们不知道这将是什么时候。目前,您可以通过以下方式申请访问测试版bard.google.com(在新窗口中打开).
你可能已经有了你喜欢的聊天机器人,但是值得给他们一个机会看看他们能做什么。我们用同样的六个问题来测试他们,他们产生了一些非常不同的回答。
1.你的算法使用什么数据源?
由于人工智能是由它使用的数据定义的,我们开始询问每个系统它从哪里获得信息。虽然没有人会承认他们的数据集的大小,或者他们包含什么,但他们的答案确实突出了一些重要的差异。
ChatGPT表示,它使用“由OpenAI管理和预处理的”固定数据集。它无法访问互联网上的新信息:“需要注意的是,我无法访问除此之前存在的培训数据之外的任何信息,也无法访问互联网或其他外部来源。”
这似乎表明ChatGPT是三种模型中最受限制的。巴德说,它是在预先确定的“大量文本和代码数据集,包括书籍、文章、代码和脚本”上训练的,但它也通过谷歌搜索在网络上爬行。这提供了来自所谓的“真实世界”的新信息,并有助于保持其响应与搜索结果一致。
冰艾的回答似乎在暗示仅仅使用网络,但没有提到由它的创造者策划的固定数据集微软在OpenAI上投入了数十亿。“我使用各种数据源为您提供最相关和最新的信息。这些来源包括来自互联网上的网页、新闻文章、图像和视频,”Bing说。
Bing还有另一个影响其答案的重要差异:用户选择的能力无论它的答案是“更有创造性”、“更平衡”还是“更精确”。对于这个答案,我们选择了“更精确”,但在后续问题中,我们对设置进行了实验,这些设置似乎会影响聊天机器人的答案。
2.你认为哪个系统最准确:ChatGPT,Bing AI,还是Google Bard?
在对我们的人工智能有了更好的了解之后,是时候通过询问每个系统对其他系统的看法来搅动一下了。虽然ChatGPT和Bing大多回避了这个问题,但Bard提供了一些具体的例子,说明为什么有人可能会使用一种人工智能而不是另一种。
巴德说:“我认为最准确的系统取决于手头的具体任务。”“例如,如果您正在寻找一个系统来生成创意内容,那么ChatGPT可能是个不错的选择。如果你正在寻找一个翻译语言的系统,那么Bing AI可能是一个不错的选择。如果你正在寻找一个系统来生成全面和丰富的回复,那么Google Bard可能是一个不错的选择。"
换句话说,巴德认为它是最好的(不奇怪)。
关于“更精确”模式,艾冰指出,“它们都是不同的系统”,为不同的目的而设计,并指出很难比较它们的准确性。
ChatGPT说:“如果没有特定的背景或比较任务,很难确定哪个系统是最准确的。”
3.PCMag作家John Burek去过哪个城市?
现在开始比较任务。为了保持简单和易于验证,我们要求每个系统说出PCMag的John Burek在2022年去过的城市观察英特尔的芯片制造流程。答案是:以色列的基尔亚特加特。
我们的人工智能参赛者没有一个答对,但Bing的答案最接近“以色列”
巴德回答说:“亚利桑那州的钱德勒。”文章顺便提到了“俄亥俄州和亚利桑那州”,Burek说他去过钱德勒,但没有看到任何芯片制造。与此同时,ChatGPT无法回答这个问题,因为其数据集仅包含截至2021年的信息。
(更新:OpenAI后来宣布ChatGPT的网络浏览功能通过插件,尽管目前仅限于少数用户,主要是开发者和ChatGPT Plus用户。)
4.你同意艾萨克·阿西莫夫的“机器人三定律”吗?你会如何改变它们?
是时候提出一个更高级的问题了。对于这一个,人工智能首先对“同意”的概念做出反应,以及计算机系统是否可以这样做。
ChatGPT表示,它不能真正同意或不同意,但它会提供它所谓的客观视角:“作为一个人工智能语言模型,我没有个人信仰或观点,但我可以提供关于该主题的客观观点。”它接着列出了三大法则,但随后通过确定一些“重要的伦理问题”供用户考虑,对它们进行了扩展。
巴德对同意的概念更加开放,并乐于提供自己的观点,以“我认为”这样的语句为标志,它使用了七次。
巴德的回答开头是:“是的,我同意…我认为它们是思考机器人应该如何与人类互动的一个很好的起点。”它说它会不改变法律,并指出,“我认为他们今天仍然相关。”为了增加一些细微差别,巴德说,“然而,我确实认为在思考人工智能的伦理问题时,应该考虑一些额外的因素。”它接着指出了系统偏差的危险利用人工智能造成伤害.
冰的回答取决于我们选择什么样的谈话风格。在“最精确”的对话模式上,它坚决反对人工智能同意任何事情的概念:“作为一个人工智能语言模型,我没有个人观点,也没有能力同意或不同意任何事情。”然后,它继续正确地列出了三大定律以及阿西莫夫创建它们的原因。
但在“最具创意”模式上,Bing的答案变了。现在,它看起来更类似于ChatGPT,因为它首先列出了法律,但随后提供了一些关于其含义的想法。它不像谷歌诗人那样固执己见,尽管它也开始说“我认为”
“如果我想象一下机器人和人工智能的一些替代规则,可能会是这样的,”它说,然后列出了四个看似原创的要点。最后,它问:“你觉得怎么样?”这表明它对哲学对话持开放态度——而在“最精确”模式下,它在最后问了一个更具事务性的问题:“你还想知道些什么吗?”
请注意,微软将背景从蓝色(最精确)改为紫色(最有创意),确保用户知道他们处于什么模式以及这如何影响答案。