新智元报道
新智元报道
【新智元导读】这个「人类还是AI?」的游戏一经推出,就被广大网友们玩疯了!如今全世界已有150万人参与,网友们大方分享自己鉴AI的秘诀。
历上规模最大的图灵测试,已经初步有结果了!
今年4月中旬,AI 21实验室推出了一个好玩的社交图灵游戏——「人类还是机器人?」。
游戏一推出,广大网友就玩疯了。
现在,全球已经有150多万名参与者,在这个游戏中进行了超过1000万次对话,还纷纷在Reddit和Twitter上po出自己的经验和策略。
小编当然也按捺不住好奇心,尝试了一把。
交谈了两分钟,游戏就要求我去猜,背后和我聊天到底是人还是AI。
所以,游戏中跟我谈话的是谁?
某些是真人,另外一些,当然就是基于目前最领先的大语言模型的AI机器人,比如Jurassic-2和GPT-4。
现在,作为研究的一部分,AI21 Labs决定把这个图灵测试结果的实验向公众公布。
实验结果
猜测对面是人还是AI时,有68%的人猜对了。 对人类来说,识别自己的人类同胞更容易。与人类交谈时,被试猜对的准确率有73%。与AI交谈时,被试猜对的准确率有60%。 法国网友猜测的正确率最高,为71.3%(远高于68%的一般平均水平),而印度网友的正确率最低,为63.5%。 男性和女性猜测的正确率差不多,总的来说女性的正确率要略高一些。 比起年龄较大的被试相比,更年轻的被试猜测的正确率会更高。
判断是人还是AI,他们用这些方法
除此之外,团队找到了被试经常用的一些方法,来区分他们是和人还是和AI交谈。
AI不会打错别字、犯语法错误或使用俚语
一般人都倾向认为,人类才会犯拼写和语法错误,以及使用俚语。
AI其实很清楚当前正在发生的事件
众所周知,AI模型有严格的数据截止日期,它们不知道在此日期之后发生的事。
人类会试图用哲学、伦理和情感问题来持续对话
参与者提出了旨在探索人工智能表达人类情感或参与哲学或伦理讨论的能力的问题。
人类倾向于认为不礼貌的回应会更像人类
一些参与者认为,如果对方过于礼貌和善良,他们很大可能是AI。
人类会试图提出AI难以解决的问题来识别AI
人类会使用特定的语言技巧来暴露AI的弱点
另一种常见的策略是利用人工智能模型处理文本方式的固有局限性,这导致它们无法理解某些语言上的细微差别或怪癖。
许多人类自己假装是AI机器人,以评估对方的反应
一些人类可能以「作为AI语言模型」等短语开始他们的消息,或者使用AI生成的响应所特有的其他语言模式来假装自己是AI。