1. 简单百科
  2. 图灵测试

图灵测试

图灵测试(The Turing test),是一种用于评估人工智能系统智能程度的测试方法。测试的基本原理是测试者(一个人)通过使用键盘和屏幕与被测试者(另一个人和一个机器)在隔离状态下进行对话,如果测试者无法通过对话分辨被测试者是机器还是人类,那么这个机器就可以被认为是通过了图灵测试,即表现出了具有欺骗性的人类智能。

“图灵测试”这一概念源于英国数学家兼计算机科学家(Alan Mathison Turing)于1950年发表的论文《计算机器与智能》(Computing Machinery and Intelligence)中为探讨“机器可以思考吗”这一问题而提出的一种思想实验。图灵测试的目标是判断一个机器是否具有智能,而非关注特定的技术细节。基于图灵的论文,一般认为,图灵测试有三个主要版本,分别被称为“模仿游戏”、“标准图灵测试”和“标准解释”。从“图灵测试”这一概念提出以来,“图灵测试”的内涵就一直随着“智能”概念和人工智能的发展而变化,图灵测试的原理也随之被广泛应用于计算机程序中,并产生了许多测试变体。尽管图灵测试在学术界引起了广泛的讨论和争议,但它仍然被视为是评估人工智能智能程度的经典方法。

发展沿革

哲学基础

机器是否能够思考”这一问题与心灵哲学中的二元论和物理主义观点紧密相连。根据二元论观点,心灵是非物质的或者至少具有非物质属性,因此无法仅通过物质性术语来解释。相比之下,物理主义认为心灵可以在物质层面得以解释,从而留下了人工产生心灵的可能性。

1673年勒内·笛卡尔在《方法论》中写道:“人类可以制造多种不同的自动机或者说是运动机械。人类可以通过创新改进机器的构造使其能够发出声音,甚至对人类的某些行为作出回应。例如,当人类触摸机器的特定部位,它会问人类想对它说些什么;如果在触摸另一个部位,它可能会惊叫自己受伤了。”这些说法预示了图灵测试的一些思想。笛卡尔指出,对于任何一种机器(比如计算机),不论其程序设计多么完善,功能与人的意识多么相近,都不能等同于意识本身的内在状态或表征人类意识的语义内容。虽然勒内·笛卡尔没有看到后来机器(计算机)在模拟人类行为方面的惊人成就,但他从哲学的深刻性上已经预见到了后来关于机器思维的许多争论的要点。

丹尼斯·迪德罗在其1746年的著作《哲学思考》中提出了类似于图灵测试的标准,但其中隐含了重要的限制性假设,即参与者是自然生命体,而非创造出来的人工制品。他认为,如果有人发现一只能够回答一切问题的鹦形目,那么他会毫不犹豫地宣布这只鹦鹉具有智能。这在当时是物理主义者的一个常见论点。

1936年,利奥六世阿尔弗雷德·艾耶尔(Alfred Ayer)考虑了其他人是否拥有与人类相同的有意识体验的标准哲学问题,即如何知道其他人与自己一样具有意识体验。在他的著作《语言真理与逻辑》中,艾尔提出了一种按照有无意识来区分人和机器的方法,即通过检验来确定对象存在或不存在意识:“一个表面上具有意识的对象实际上并不是有意识的存在,而只是一个假人或机器,这是因为它未能通过确定存在或不存在意识的经验测试中的任何一个。”这个观点与艾伦·麦席森·图灵测试的思想已经非常接近了。

概念提出

1936年,作为Ratio Club(一个不正式的英国控制论和研究人员组成的团体)成员之一的发表了题为《论数字计算在决断难题中的应用》的文章。在这篇论文中,图灵讨论了当时数学领域的热门话题“可计算问题”,并在文中提出著名的“图灵机”(Turing Machine)当时称之为“通用机”。“图灵机”不是一种具体的机器,而是一种抽象计算机模型也可以说为一种数学逻辑机,可制造一种十分简单但运算能力极强的计算装置,用来计算所有能想象得到的可计算函数。“图灵机”与“冯·诺伊曼机”齐名,被载入计算机的发展史中。

1937年,艾伦·麦席森·图灵发表论文《可计算性与λ可定义性》为库尔特·卡塞雷斯递归函数的λ微积分等模型提供了合理解释。后来著名的“丘奇-图灵论题”说明了λ演算、递归函数和图灵可计算是等价的,即所有可计算或是机械程序可计算的函数,恰好就是用一般递归函数去逼近无限。也可以说,所有计算或算法都可以由一台图灵机来执行。

从1941年开始就一直在探讨机器智能的概念,在图灵1947年的报告“Intelligent Machinery”中,他探讨了“机器是否能够表现出智能行为”的问题,并在此背景下提出了他后来测试的前身:“设计一台能下不太差的国际象棋的纸带机器并不难。现在找三个实验对象、两个国际象棋选手以及一个纸带机器。有两个房间,能够用一定的方式传递走法,然后其中一位国际象棋选手在和另一位选手以及纸带机器之间下棋,他可能会很难判断在和谁下棋。”

1950年10月,艾伦·麦席森·图灵在《心灵》(Mind)杂志上发表了一篇题为《计算机器与智能》(Computing Machinery and Intelligence)的论文,首次提出机器具备思维的可能性,探讨“机器能思考吗”这个问题,并提出了一种思想实验,即“模仿游戏”,这个思想实验后来就被演化为“图灵测试”的概念。图灵提出了具体的判断标准即让计算机来冒充人,如果不足70%的人判对,也就是超过30%的人误以为在和自己说话的是人而非计算机,那就算作图灵测试通过。图灵测试及其隐含的思想成了现代新机械论的基础,并演变成了以机械论为核心的计算主义、机器功能主义等。

内涵演变

从“图灵测试”这一概念提出以来,“图灵测试”的内涵就一直随着“智能”概念和人工智能的发展而变化。在20世纪50年代,艾伦·麦席森·图灵的智能概念定义为机器能够思考,图灵测试的内容包括限于五分钟时间和识别概率不超过70%的客观指标。20世纪60年代,“智能”概念未有变化,维兹豪曼的聊天机器人采取了狡猾策略,它符合图灵测试的两个客观标准,却无法表明机器具有“智能”,因此图灵测试添加了应当排除狡猾策略的要求。2011年计算机小托马斯·沃森在智力问答游戏节目中取得胜利,如果按照1950年图灵的最初界定,沃森通过了更高层次图灵测试——智力问答的人机对决,但如果像沃森的设计者那样把图灵测试理解为像人那样思考,那么沃森还没有通过图灵测试。当代美国人工智能专家库兹韦尔(Ray Kurzweil)用“奇点”(Singularity)这一概念重新表述了图灵测试,他认为机器“智能”在当代面临着临近“奇点”的可能性,在未来15年内信息可以上传到人类大脑,30年内奇点来临———人工智能超越人类智能。

测试内容

图灵测试作为一种经典方法,其核心思想在于通过模拟对话来测试计算机是否能够模拟人类的智能行为。这一测试的设计旨在探究计算机是否能够通过自然语言交流、推理和理解等方式来模仿人类智能的表现。

图灵测试包含三个参与者,分别是测试者(人类)(C),被测试的机器(A),和另一个被测试者(人类)(B)。评判者通过对A和B的提问来判断哪一个是机器,哪一个是人类。

标准的图灵测试需满足以下条件:

隔离:评判者被隔离,不能直接看到A和B。通常是通过计算机终端进行对话,或者通过书面形式交流。

自由对话:评判者可以提出任何问题,而A和B的目标是回答这些问题。评判者基于回答来判断哪一方是机器,哪一方是人类。

目标:机器的目标是欺骗评判者,使其无法准确区分机器和人类。人类的目标是通过提问来判断哪一方是机器,哪一方是人类。

时间限制:通常图灵测试没有固定的时间限制,评判者可以通过足够长的时间来判断哪一方是机器。

一般性测试:艾伦·麦席森·图灵强调测试的一般性,即机器不仅仅是模仿某个特定人类的表现,而是具有一般性的智能,能够在不同领域表现得像人类一样。

机器的成功标准:如果机器能够以一种让评判者无法准确判断其是否为机器的方式回答问题,那么它就通过了图灵测试。

图灵测试并不是一个具体的测试协议,而更像是一个概念性的框架。它引发了深刻的哲学和科学讨论,关于什么是智能、机器是否能够具有意识等问题。然而,测试的结果可能受到对话主题、测试环境、评判者的主观态度等因素的影响,所以图灵测试的结果实际上并不能完全准确地判定计算机是否真正具备了智能。

测试版本

索尔·特雷格(Saul Traiger)指出,图灵测试至少有三个主要版本,其中两个版本在《计算机与智能》中提出,分别被称为“模仿游戏”和“标准图灵测试”。关于第三个版本“标准解释”是否为艾伦·麦席森·图灵所描述,还是基于对他的论文的误解,存在一些争议,这三个版本并不被视为等同,它们各自具有不同的优势和劣势。

第一个版本指图灵的原始论文描述的一个涉及三名玩家的简单派对游戏。图灵测试的核心思路,是要求计算机在没有直接物理接触的情况下接受人类的询问,并尽可能把自己伪装成人类。在论文中,图灵设计的模仿游戏中有三个参与者:一个男人(A),一个女人(B)和一个男女皆可的提问者(C)。提问者呆在一个与另外两人相隔离的屋子里,游戏的目标是提问者要判断出外面哪个是男人,哪个是女人。提问者用标签X,Y指称外面的两个人,游戏结束时,他要说出“X是A,Y是B”或者“X是B,Y是A”。

​为了排除声音帮助提问者得出结论,问题的答案应该写出来,最好是打出来。理想的安排是,让两个屋子用远程打印通讯,也可以通过中间人传递答案。而B在这个游戏中的任务是努力帮助提问者,她的最优策略可能就是给出正确答案。她可以在她的答案中加入“我是女的,别听他的”这样的话,但是这并不能提供更多的帮助,因为男人A同样也能做出相似的评论。

版本二:标准图灵测试

第二个版本出现在艾伦·麦席森·图灵的1950年论文中,在模仿游戏之后图灵提出这样一个问题,“如果用机器代替A,将会发生什么情况?同与两个人玩这个游戏相比,提问者判断错误的几率是否发生变化?”这个问题取代了原问题“机器能思考吗? ”。与原始的模仿游戏测试类似,玩家A的角色由计算机扮演,而玩家B的角色则由一个男性人类扮演,玩家C则继续扮演一个男女皆可的人类提问者对A和B进行提问来判断出被提问者是计算机还是人类。假设有一个特定的数字计算机A'。通过修改这台计算机,使其具有足够的存储,适当提高其动作速度,并为其提供适当的程序,A'是否可以被改装成满足模仿游戏中A的部分的要求。

在这个版本中,玩家A(计算机)和玩家B(人类)都试图欺骗询问者做出不正确的决定。此外,艾伦·麦席森·图灵在论文中提出了一个替代形式,即人类提问者只与一个计算机或一个男人交谈。胡玛·沙(Huma Shah)指出,图灵本人关注的是机器是否能够思考,并提供了一种简单的方法来检验:通过人机问答会话。他认为图灵描述了一个可以通过两种不同方式实施的模仿游戏:一种是一对一的质询者,即人类提问者对机器单独进行测试;另一种是机器与人类同时进行对比,由人类提问者同时对一个人类和一个机器进行提问。由于测试是一种无法区分性能的测试,因此可以包括口头测试和非口头测试(如书面测试)。

版本三:标准解释

“标准解释”是艾伦·麦席森·图灵在1952年提出的第三种版本。图灵在的广播中提出,一个陪审团向计算机进行提问,而计算机的任务是让陪审团中一定比例的人相信它真的是一个人。对于“标准解释”,目前普遍的理解是,图灵测试的目的不是确定计算机能否愚弄人类提问者并使人相信它是人类,而是计算机是否能够模仿人类。在这个版本中,玩家A是计算机,玩家B是男性或女性人类。人类询问者的任务是确定谁是计算机,谁是人类。

关于“图灵测试”的版本存在很多争议,Sterrett认为可以从图灵的1950年论文中提取出两个不同的测试,采用派对游戏并比较成功频率的测试被称为“原始模仿游戏测试”,而由人类法官与人类和机器进行对话的测试被称为“标准图灵测试”。Sterrett同意标准图灵测试存在批评者所指出的问题,但认为所定义的原始模仿游戏测试对许多问题是免疫的,因为存在一个关键的区别:与标准图灵测试不同,它并不以类似人类性能为标准,因此一个人可能无法通过原始模仿游戏测试。还有其他学者解释为提出模仿游戏本身是测试,而没有指出原始模仿游戏版本测试成功频率的比较标准。Saygin提出,也许原始游戏是提出不那么偏见的实验设计的一种方式,因为它隐藏了计算机的参与。模仿游戏还包括“标准解释”中没有的“社会黑客”,因为在游戏中,计算机和男性人类都需要假扮成他们不是的人。

程序应用

ELIZA程序

1966年,麻省理工学院教授约瑟夫维兹豪曼(Joseph Weizenbaum)编写了聊天机器人ELIZA程序(Eliza program),它通过检查用户输入的评论中的关键词来工作。如果找到关键词,就会应用一个转换用户评论的规则,然后返回结果句子。如果没有找到关键词,ELIZA要么用一个通用的应答回应,要么重复之前的评论之一。此外,魏岑鲍姆开发了ELIZA,旨在模拟罗杰斯式心理治疗师的行为。ELIZA通过这种方式“假装几乎不了解真实世界”,使其能够欺骗人们以为他们正在与真人交谈。有些人对ELIZA的表现“很难相信它不是人类”。因此,一些人认为ELIZA可能是第一款能够通过图灵测试的程序之一。然而,对于这种观点,存在很大的争议。例如,ELIZA曾经进行过一个版本的图灵测试。在电子邮件出现之前,一位业务主管正在使用他公司的内部消息服务系统联系一名程序员。程序员让ELIZA运行,主管连接到了ELIZA,并产生了如下对话:

事实上,主管和ELIZA之间的这种交流在几个重要方面都未能满足图灵测试的规范,因此,即使主管确实将ELIZA误认为是人,也不能说ELIZA通过了测试。首先,这位主管并没有试图区分计算机和人类,他只是假设他正在与人类交谈。他从来没有想过通过提出一些探索性的问题来检验这个假设。其次,在非竞争情况下,判断者可能会忽视机器性能特征,机器可以应用狡猾的策略来回答超过有限知识基础的问题,例如ELIZA的回避,这在机器与人类对战时可能成为决定性的证据。人类参与者的存在也证明了人类不希望被程序愚弄。维兹豪曼于1976年撰写了专著《计算能力与人类理性:从判断到计算》,认为ELIZA程序不能算作通过图灵测试,它不属于真正的机器智能。他的依据是,智能机器只能决策,而不能选择。决策是一个可以程序化的计算行为,它缺乏人类的诸如同情和才智这样的品质,成为人的能力应当包括情绪等非数学因素判断的结果而不仅仅是计算的结果。

PARRY程序

肯尼斯·科尔比(Kenneth Colby)在1972年创建了PARRY,这个程序被描述为“带有态度的ELIZA”。它试图模仿偏执性精神分裂症患者的行为,使用了与魏岑鲍姆所采用的类似的方法。为了验证这项工作,PARRY在20世纪70年代早期通过图灵测试的变种进行了测试。一组经验丰富的精神科医生通过电传打印机分析了一组真实的患者和运行PARRY的计算机,另一组33名精神科医生看了对话的记录。然后,两组医生被要求确定哪些“患者”是人类,哪些是计算机程序。精神科医生只能在52%的时间内正确识别出“患者”是人类还是计算机程序,这个数字与随机猜测一致。但艾伦·麦席森·图灵从未明确说明他的测试中的询问者是否知道参与者中有一个是计算机。他只是陈述玩家A将被一台机器替换,而没有提到玩家C是否会意识到这个替换。当科尔比等人测试PARRY时,他们假设在询问期间,询问者不需要知道被采访的人中是否有一个或多个是计算机,这对测试的实施和结果产生了重大影响。

沃森

在近代,在人类最重要的本质“能力”方面,智能机器已经超越人类。1997年IBM公司的计算机深蓝(Deep Blue)战胜国际象棋冠军加里·卡斯帕罗夫(Garry Kasparov);2011年,IBM公司研发的计算机小托马斯·沃森Watson)可以“听懂”人的话语。按照艾伦·麦席森·图灵1950年的图灵测试界定,计算机沃森能够处理人类的自然语言并迅速回答复杂问题,它通过了比图灵测试更复杂的人机对决的智力问答。但是沃森的设计者并不认为沃森通过了图灵测试。他们设定计算机沃森只是满足某些领域的人脑功能,它只在机器学习、自然语言算法、大规模数据库等有限领域模拟人脑取得成功。

尤金·古斯特曼

2014年6月7日是图灵逝世60周年纪念日。这一天,在英国皇家学会举行的"图灵测试"大会上,英国每日电讯报》报道,一台由俄罗斯人弗拉基米尔·维西罗夫(Vladimir Veselov)创立的模拟13岁小男孩的人工智能软件尤金·古斯特曼(Eugene Goostman)首次"通过"了图灵测试。在2014年举行的共有5台超级计算机参赛的图灵测试竞赛上,尤金·古斯特曼设法让测试人相信被测试者33%的答复为人类所为。这一测试成功正逢艾伦·麦席森·图灵去世60周年纪念,被认为是人工智能领域里程碑式的突破。雷丁大学的客座教授Kevin Warwick说,尽管此前曾有人声称图灵测试已经得到通过,但是相比之下,这次活动的标准是最为严格的,没有对问题做任何预设。因此,他们自豪地宣布图灵测试首次获得通过。

相关争论

1952年,图灵预测“至少需要100年”,机器才有机会在无限制提问的前提下通过图灵测试。这是一个明智且谨慎的预测,清楚地表明图灵意识到创造一台可以通过测试的机器多么困难。事实上,他谈到了“给机器编程以实现思考”的项目。图灵测试探索了机器模仿人脑的能力,但仅限于大脑的公开语言行为(通过键盘表达)。虽然语言行为只是人类大脑产生的全部行为的一小部分,但艾伦·麦席森·图灵指出,语言问答仍然使判断者能够在人类的几乎所有领域中探索大脑(或机器)的能力。他举的例子包括数学、国际象棋、诗歌和交流。在1952年的电台广播演讲中,图灵认为,“机器能通过测试吗”这个问题与“机器是否会思考”不同,但对于人类目前对机器的期望来说似乎已经足够接近了。不是每个人都同意图灵上述两个问题“足够接近”的观点,而且在他首次提出测试60多年后,关于其有效性的争论至今仍在激烈进行。

衡量标准

图灵测试并没有明确规定其能够作为衡量智能的标准。该测试旨在检验计算机是否能模仿人类行为,而非直接评估其智能水平。一些专家认为,图灵测试只是展示了欺骗人类的容易程度,并非衡量机器智能的准确指标。艾伦·麦席森·图灵本人在对“思考机器”的可能性进行回应时,明确指出该测试只是为了讨论研究前进的方向,而非直接衡量智能。

然而,图灵测试在两个方面存在衡量智能的局限性:首先,一些人类行为并非智能的表现,但图灵测试要求计算机模仿所有人类行为,甚至包括非智能的行为。如果机器未能完全模仿这些非智能行为,那么它将无法通过测试。其次,一些智能行为并非人类特有,但图灵测试要求机器避免展现过于智能的能力,如解决困难问题或提出独立见解。因此,该测试无法衡量超出人类能力范围的智能,无法评估比人类更智能的系统。

尽管如此,图灵测试仍被提出作为衡量机器“思考能力”或“智能”的方法。然而,这一提议受到哲学家和计算机科学家的质疑。他们对于如何判断质询者的可靠性、仅比较行为的价值以及将机器与人类进行比较的意义等假设提出了质疑。因此,一些人工智能研究者对该测试在他们领域的相关性持怀疑态度。

测试方式

图灵测试是借由人类语言(对话)来判断机器智能的存在。但是这种对话模拟的方式是否能够全面衡量计算机的智能仍然存在争议。一些评论家认为,图灵测试可能过于依赖于自然语言处理能力,而忽视了计算机在其他领域如视觉、音频、推理等方面的智能表现。1968年弗德(Fodor)指出,由于图灵测试只能表现出人类智能的部分功能即语言功能,所以即使通过图灵测试也只能说明机器只具备人类智能的部分功能。1970年迈尔泽(Bernard N.Meltzer)指出,图灵测试是在引诱人工智能领域的研究者去完成一个被误导的目标,让他们以为只有对话才是实现人工智能的途径。1990年代,谢伯(Stuart Shieber)、哈纳德(Harnad)、查克·海耶斯(P.Hayes)和福特(K.Ford)等人都表达了类似的观点。

1996年,惠特比(Blay Whitby)在总结人工智慧的发展史时将人工智能和图灵测试发展划分为四个阶段:第一个阶段是计算机科学发展初期,图灵测试所展现的人工智能这一宏大远景,对计算机算法及硬件的发展提出了更高要求;第二个阶段,人工智能的发展局限于模式识别这类有限的目标上,几乎看不到计算机通过艾伦·麦席森·图灵测试的可能;第三个阶段是计算机科学飞速发展并广泛应用于各行各业的阶段,有关图灵测试的讨论成了利奥六世争论的话题;而到第四个阶段,许多人工智能专家似乎已经不再关注图灵测试这类几乎不可能完成的目标了。

艾伦·麦席森·图灵曾明确说过,图灵测试可以被广泛地运用到不同种类的测试,评判者可以要求测试机器的幽默能力、使用非母语的能力、或者其他各类能力。随着人工智慧领域的快速发展,现代智能系统在图像识别、语音识别、自动驾驶等方面取得了显著进展。因此,许多研究者呼吁将图灵测试与其他更全面的智能评估方法结合,以更准确地评估和界定计算机的智能水平。

评估角度

图灵测试关注机器的外部行为来研究思维。约翰·希尔勒认为外部行为不能确定机器是真正思考还是仅模拟思考。在他1980年的论文中,塞尔提出了“中文房间”思想实验,基于这样一个事实:在过去,计算机指的是执行计算任务的人类文员。塞尔认为,通过在“人类计算机”上运行程序,可以测试某些程序是否能产生思想或认知。该实验进行了三种假设:

塞尔的“中文屋论证”旨在说明,即使人类计算机不懂中文,也能用中文传递信息。他指出,计算机仅通过操作不理解的符号通过图灵测试,没有理解,不能像人类一样思考。因此,图灵测试不能证明机器思考。像塞尔这样的心灵哲学研究者引发了关于智能、机器意识和图灵测试价值的辩论,持续至1980和1990年代。

判断依据

图灵测试的结果常常受计算机模仿人类的能力主导,而不完全依赖于提问者的技能或态度。艾伦·麦席森·图灵在描述测试时,并未具体说明审问者需要的技能,只提到了“普通审问者”。例如,ELIZA这类聊天机器人曾使没有戒备的人误以为自己在与人交谈,没有意识到他们可能正在与计算机互动。有效通过图灵测试的关键在于,机器需要通过对话暗示自己的机器身份,而审问者需要识别出这些线索。如果机器保持沉默,审问者难以准确判断。

在洛布纳奖竞赛中,早期使用的“不成熟”的审问者容易被机器欺骗,但后来即便是哲学家、计算机科学家等专家也会被误导。这种测试中常见的是“合谋效应”,即人类被错误地认为是机器。这引发了关于如何确保被测试者在测试中表现出典型人类反应的问题。

应用价值

所有持肯定性观点的学者都认为图灵测试在人工智能研究和发展中具有重要的应用价值。弗伦奇(Robert M.French)、库伯(Kevin L.Copple)等认为,图灵测试有助于科学家们深入研究人类的行为表现和人类的互动行为,从而逐步实现“更好的人工智能”。作为一种具体的评价方法,图灵测试为人工智能领域的研究者提供了一个具体的检验智能的途径,不仅考察了计算机在自然语言理解和生成方面的能力,还鼓励了研究者探索推理、逻辑等更高级的智能表现。图灵测试也引发了关于智能本质、意识是否可以通过模拟实现等哲学问题的讨论,不仅促进了人工智能领域的发展,也影响了认知科学和哲学领域的发展。

部分人工智慧研究人员认为,艾伦·麦席森·图灵测试只会分散有益的研究注意力。约翰·麦卡锡(John McCarthy)观察到人工智能的哲学“不太可能对人工智能研究的实践应用产生更多影响,就像哲学对科学实践的影响一样微弱。”斯图尔特·拉塞尔和彼德·诺米格认为图灵测试并不是许多学术或商业努力的主要焦点:首先,有更简单的方法来测试他们的程序。当前与人工智能相关领域的大部分研究都是针对特定的目标,人工智能研究人员只需直接给予它们任务;其次,创造出类似真人的模拟是一个独立的复杂问题,不需要为实现人工智慧研究的基本目标而解决,在艺术作品、游戏或复杂的用户界面中,可信的人物角色可能会引人入胜,但它们并不是创造智能机器的科学的一部分,也就是说,不是用智能来解决问题的机器。

测试变体

反向图灵测试

反向图灵测试是由于一个或多个角色之间的模拟已经在机器和人之间逆转,因此对图灵测试进行一定程度的修改,以增强其适用性。R. D. Hinshelwood将“反图灵测试”的思维描述为“认知识别装置”。挑战在于让计算机确定它是否正在与人类或其他计算机互动,这是艾伦·麦席森·图灵试图回答的原始问题的延伸,但能够提供足够高的标准以通常所认为人类特有的方式来定义一台可以“思考”的机器。

完全图灵测试

完全图灵测试(Total Turing Test)是针对图灵测试中仅仅测试机器语言智能方面的不足而提出来的测试,该测试需要与真实世界中的对象和人进行交互。为了通过完全图灵测试,机器人需要具备自然语言处理使之能成功地用人类语言交流,知识表示以存储它知道的或听到的信息,自然推理以运用存储的信息来回答问题并推出新结论,机器学习以适应新情况并检测和预测模式,计算机视觉以感知物体,机器人学以操纵和移动对象等能力。

比较的道德图灵测试

“比较的道德图灵测试”(Comparative Moral Turing Test,MTT)由科林·艾伦、加里·瓦纳和杰森·辛瑟于2000 年首先提出。比较的道德图灵测试从对话转向行为,对人类和人工道德行为体实际的、道德上重要的行为进行描述,排除各种可能识别行为体身份的因素之后,提供给提问者。如果提问者在一定比例上正确识别出机器,那么机器就不能通过测试。不过,这个版本的问题在于,机器的行为方式比人类更容易识别,因为在同样的环境中,机器的行为始终如一。因此,应该对提问者进行询问,让其评价哪一个行为体的行为更不道德。如果提问者认为机器的行为没有比人类更不道德,那么机器就通过了测试。

温纳格斯基模式挑战

温纳格斯基模式挑战(英语:Winograd Schema Challenge,缩写WSC)是多伦多大学计算机科学家赫克托·莱韦斯克提出的机器智能测试。该测试试图改进传统的图灵测试,通过向机器询问特别设计的选择题来检测其智能。这些问题都包含一种特殊结构,被称为“温纳格斯基模式”(Winograd Schema),名称来源于斯坦福大学计算机科学家特里·威诺格拉德。机器需要识别问题中的前指关系(anaphora),即指出问题中某一代词的先行词。为了正确回答问题,机器需要要拥有常识推理的能力。

语言模型测试

阿瑟·施瓦宁格(Arthur Schwaninger)提出了一种图灵测试的变体,可以区分仅能使用语言的系统和理解语言的系统,其中机器面临的是不依赖于任何先前知识但需要自我反思才能适当回答的哲学问题。由于现代自然语言处理在基于大量文本语料库生成文本方面的高度成功,可以通过操作初始模型训练中使用过的单词和句子来通过图灵测试。但因为审问者对训练数据没有明确的理解,该模型可能只是返回存在于大量训练数据中类似方式的句子。

领域专家系统

爱德华·费根鲍姆(Edward Feigenbaum)在2003年的一篇论文中提出领域专家图灵测试,也被称为“费根鲍姆测试”。他表明,专家系统中的计算智能实例是为了在困难的现实世界领域中执行专家级行为而构建的,这些领域的背景包括大量的知识。例如:医学、物理科学和工程学的各个领域以及许多商业和制造流程的分析和控制。与应用领域的最佳人类行为相比,用于规划复杂操作的专家系统尤其强大,比如在波斯尼亚战役中,北约空中作战中心就使用了其中一个高性能程序,还有两个程序则成为成功制造规划软件公司的基础。所有这些专家系统计算智能的开发是为了满足理解复杂问题并解决问题的科学需求和工程需求,它们被设计为特定于领域和这些领域中的某些任务,因此都无法通过图灵测试。在与人交互的能力方面,它们的灵活性有限。然而,在某些情况下,它们的任务表现却是世界一流的。

词汇判断测试

罗伯特·弗伦奇认为,通过提出揭示人类认知的低级(即无意识)过程的问题,审问者可以区分人类和非人类的对话者。他做了一个“词汇判断测试”实验:参加词汇判断测试的人每次能看到一个在屏幕上闪现的单词或非单词,受试者看到单词按下其中一个按钮,看到非单词则按下另一个按钮。实验者测量了单词闪现和受试者按下按钮之间的这一小段时间,并发现如果一个单词出现之前,相关单词在屏幕上出现,那么人们对这个单词做出反应的时间就会减少,这种加速效应被称为“联动”。例如,当“鱼”这个词出现过后会让典型的英国人对“薯条”反应更快,而“面包”会让英国人对“黄油”这个词反应更快。这些“联动”是特定于文化的:在英国,鱼和薯条、面包和黄油是常见的食物组合。弗伦奇声称这种特定于文化的“联动”效应,可用于在图灵测试中判断哪位参与者是计算机,因为计算机不会共享人特有的“联动指纹”。

电子健康记录

在ACM通信杂志上发表的一封信描述了生成合成患者群体的概念,并提出了一种用于评估合成和真实患者之间区别的图灵测试变体。该信件称,在电子健康记录(EHR)的背景下,尽管人类医生可以很容易地区分合成生成的和真正的活人患者,但机器是否能够自行作出这样的判断呢。在合成患者身份变成公共卫生问题之前,合法的EHR市场可能会从应用类似于图灵测试的技术中受益,以确保更大的数据可靠性和诊断价值。因此,任何新技术都必须考虑患者的异质性。

相关奖项

勒布纳奖(Loebner Prize)每年提供一个实际的图灵测试平台,首次比赛于1991年11月举行。这个奖项的发起人是休·勒布纳(Hugh Loebner)。位于美国马萨诸塞州的剑桥行为研究中心(Cambridge Center for Behavioral Studies)组织了2003年以前的比赛。勒布纳表示,创办这项竞赛的一个原因是推进人工智能研究的状态,至少在某种程度上,因为在40年的讨论中,没有人采取措施来实施图灵测试。勒布纳奖测试对话智能,获奖者通常是聊天机器人程序或人工对话实体(ACE)。早期的勒布纳奖规则限制了对话:每个参赛作品和隐藏的人类只能就一个主题进行对话,因此质询者在每次实体交互中只能进行一行问题的提问。这个限制性的对话规则在1995年的勒布纳奖中被取消。在勒布纳2003年比赛中,萨里大学允许每个质询者与实体、机器或隐藏的人类互动五分钟。在2004年到2007年之间的勒布纳奖中,质询者和实体之间允许的交互时间超过了20分钟。

1991年的第一届勒布纳奖比赛重新引发了关于图灵测试的可行性和追求它的价值的讨论,不仅在大众媒体中,还在学术界中。第一次比赛的胜利者是一个无法识别智能的毫无意识的程序,成功地欺骗了质询者,使其进行错误的识别。这凸显了图灵测试的一些缺点:机器赢得了比赛,在某种程度上是因为它能够“模仿人类的打字错误”,不成熟的质询者很容易被欺骗,一些AI研究人员被引导认为测试只是转移了更有成效的研究的注意力。然而,该竞赛每年都授予铜牌,奖给那些在评委眼中,在当年的参赛作品中展示出“最人类”对话行为的计算机系统,银奖(仅文本)和金奖(音频和视觉)则从未被获得。Artificial Linguistic Internet Computer Entity(A.L.I.C.E.)曾三次获得铜奖(2000、2001、2004),在2005年和2006年,Learning AI Jabberwacky获得了奖项。

影响及评价

艾伦·麦席森·图灵1950年的经典论文被公认为是人工智能学科兴起的标志。图灵测试作为一种经典的方法被应用于计算机程序中,旨在解决如何评估计算机是否能够表现出与人类思维相似的智能行为。

关于图灵测试对于人工智能的发展意义,在不同的历史阶段人们的认识有所不同。1950—1960年代,图灵测试被普遍认为是人工智能领域的灵感源泉;1970—1980年代,它确实给人工智能领域的前沿研究带来了某种程度的困扰;1990年之后,图灵测试虽然不被认为是人工智能的终极目标,但已经成为该领域研究中不可或缺的课题。

人工智能概念的创始人之一明斯基(Marvin Minsky)曾经用一句话描述人工智能:“让机器从事需要人的智能的工作的科学。”明斯基的这一定位是严格遵循“图灵测试”中的“模仿游戏”说的——人工智能追求的是让机器对入进行功能性的替代,让机器实现对人的智能活动的模仿。

图灵测试本质上是对人类智能的一种操作性定义。图灵测试引发了许多哲学和伦理问题,这些问题深刻地影响了人们对人工智能的认识和接受。虽然图灵测试在评估是否具有智能方面起到了重要作用,但其本质、局限性以及对于智能的准确度仍然存在广泛的争议和讨论。

参考资料

术语在线.术语在线.2023-11-25

..2024-01-06

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

Alan Mathison Turing (1912-54).King's College.2023-07-28

On Turing machines.Machine Logic.2023-08-03

李德毅院士前瞻性观点论文:《认知物理学——薛定谔、图灵和维纳的启示和超越》.澎湃新闻.2023-08-14

数学的不完美之美——阿兰?图灵与图灵机.中国科学院软件研究所.2023-08-02

..2023-11-29

..2024-01-06

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

计算机首次通过图灵测试.淄博新闻网.2024-01-06

超级计算机首次通过图灵测试 成功模拟13岁男孩-中新网.中国新闻网.2024-01-06

..2023-11-29

..2023-11-29

Artificial stupidity.The Economist.2023-08-09

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2024-01-06

..2023-11-29

..2023-11-29

..2023-11-29

完全图灵测试.zzkook.2024-01-19

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-08-09

..2023-11-29

..2023-11-29