人工智能測(cè)試系統(tǒng)論文(2)
人工智能測(cè)試系統(tǒng)論文
人工智能測(cè)試系統(tǒng)論文篇二
圖靈測(cè)試是人工智能的標(biāo)準(zhǔn)嗎?
科學(xué)就是一個(gè)可以被證偽的學(xué)說。任何一個(gè)科學(xué)論述,都要能夠被實(shí)驗(yàn)檢驗(yàn)。比如說,要科學(xué)地解釋定義什么是自我意識(shí),其本質(zhì)就是設(shè)計(jì)一個(gè)實(shí)驗(yàn)。比如觀察動(dòng)物在鏡子里看到自己時(shí)候的行為,是尋找鏡子后面的另一只動(dòng)物,還是知道鏡子里就是自己。通過做類似的實(shí)驗(yàn),我們可以判斷,貓、老鼠、猴子等等有沒有自我意識(shí)。
人工智能領(lǐng)域中,最重要的概念就是智能。但什么樣的實(shí)驗(yàn)?zāi)軌蚨x”智能“這個(gè)概念?大家常常利用圖靈測(cè)試這個(gè)實(shí)驗(yàn)來定義有沒有智能。但這一定義真的合適嗎?真的有利于人工智能的發(fā)展嗎?有沒有更好的實(shí)驗(yàn)定義?這篇文章深入討論了這個(gè)問題。
——文小剛
王培(美國(guó)天普大學(xué)計(jì)算機(jī)與信息科學(xué)系)
隨著人工智能成為熱門話題,“圖靈”(Alan M. Turing,1912.6.23~1954.6.7)這個(gè)名字也逐漸廣為人知。一個(gè)常見的說法是把他提出的“圖靈測(cè)試”作為人工智能的標(biāo)準(zhǔn)或定義,并以此為由稱他為“人工智能之父”。我下面要反駁這種說法,理由是:
(1)這個(gè)說法不符合人工智能的史實(shí);
(2)把圖靈測(cè)試作為人工智能的定義是不恰當(dāng)?shù)?
(3)其實(shí)圖靈本人并不是這個(gè)意思。
我無意貶低圖靈對(duì)人工智能的重大貢獻(xiàn),只是試圖澄清一些誤解,并指出這些誤解在當(dāng)前人工智能討論中所造成的問題。我不希望這些問題被錯(cuò)誤地算在圖靈名下。
1圖靈和人工智能到底是什么關(guān)系?
圖靈大概是最早認(rèn)識(shí)到“計(jì)算機(jī)”除了完成數(shù)值計(jì)算之外還能從事其它智力活動(dòng)的人之一,并且是第一個(gè)對(duì)此進(jìn)行了系統(tǒng)思考和深入分析的。有證據(jù)表明,他早在1941年就開始考慮在計(jì)算機(jī)上實(shí)現(xiàn)“智能”(或者說“思維”,在這個(gè)討論中這兩個(gè)詞差別不大)的可能性了,并在1948年寫了以“智能機(jī)器”為題的報(bào)告,盡管他最廣為人知的有關(guān)著述是在1950年發(fā)表的《計(jì)算機(jī)器與智能》[1]。
在這篇?dú)v史文獻(xiàn)中,圖靈開宗明義地要大家考慮機(jī)器是否能思維的問題。為了避免“思維”一詞在解釋上的混亂,他主張只要計(jì)算機(jī)在語言行為(對(duì)話)上和人沒有明顯差別,就應(yīng)該算是“能思維”或“有智能”了。這就是后來所稱的“圖靈測(cè)試”。他認(rèn)為可以編制一個(gè)“兒童”程序,然后對(duì)其進(jìn)行教育以達(dá)到成人的智力水平。圖靈自己在1948年曾和朋友合作設(shè)計(jì)過一個(gè)國(guó)際象棋程序,但在他1954年去世之前沒能把他關(guān)于智能機(jī)器的設(shè)想充分展開。
“人工智能”作為一個(gè)研究領(lǐng)域,公認(rèn)是在1956年夏的達(dá)特茅斯會(huì)議上形成的。這個(gè)只有十來個(gè)人參加的會(huì)議不但給這個(gè)領(lǐng)域取了名,而且涌現(xiàn)了其主要奠基人:麥卡錫、明斯基、紐維爾、司馬賀。這四個(gè)人,以及他們分別在斯坦福、麻省理工、卡內(nèi)基梅隆建立的研究中心,主導(dǎo)了這個(gè)領(lǐng)域前幾十年的研究方向。他們遠(yuǎn)比圖靈更有資格被稱為“人工智能之父”,而圖靈更適合被稱為“先行者”。
比名號(hào)更重要的是:這幾位對(duì)智能的理解和圖靈有重要的差別。他們當(dāng)中沒有一個(gè)是以“通過圖靈測(cè)試”作為自己研究工作的目標(biāo)的,并且都或明或暗地對(duì)這個(gè)測(cè)試表示過不以為然。在達(dá)特茅斯會(huì)議的計(jì)劃書中,人工智能問題被說成讓計(jì)算機(jī)的行為符合人們對(duì)智能行為的認(rèn)識(shí)。以此為起點(diǎn),主流人工智能一直是以“讓計(jì)算機(jī)解決那些人腦能解決的問題”為工作定義和劃界標(biāo)準(zhǔn)的,而并不要求系統(tǒng)的具體行為和人不可區(qū)分。以計(jì)算機(jī)圍棋為例,“把棋下好”和“把棋下的和人下的一樣”是兩個(gè)不同的研究目標(biāo)。出于這種考慮,在主流人工智能文獻(xiàn)中提到圖靈測(cè)試時(shí),一般都是只承認(rèn)其歷史價(jià)值,而否認(rèn)其對(duì)研究工作的現(xiàn)實(shí)指導(dǎo)意義的。就在不久前,世界上最大的人工智能協(xié)會(huì)AAAI的機(jī)關(guān)刊物《人工智能雜志》的2016春季號(hào)還出了一期??瘉碛懻搱D靈測(cè)試的各種替代方案。
以通過圖靈測(cè)試為目標(biāo)的對(duì)話程序一般稱為“chatbot” 。這個(gè)詞和機(jī)器人(robot)一詞相近,故常被譯作“聊天機(jī)器人”,但其實(shí)應(yīng)當(dāng)譯作“聊天程序”,因?yàn)樗鼈兌际菍S密浖?,而非專用硬件。這類工作在歷史上長(zhǎng)期被大部分人工智能研究者視為旁門左道或嘩眾取寵,其中最著名的例子的是魏增鮑姆在1966年編寫的“伊莉莎”(ELIZA)。這個(gè)程序只憑一些簡(jiǎn)單的花招就使得很多使用者相信他們是在和一個(gè)人對(duì)話,以至于后來產(chǎn)生了“伊莉莎效應(yīng)”這個(gè)概念,專指一個(gè)計(jì)算機(jī)系統(tǒng)的使用者和觀察者以擬人化的思路解釋系統(tǒng)的行為,因此賦予了該系統(tǒng)許多它本來根本不具有的品質(zhì)。這種現(xiàn)象在對(duì)“阿爾法狗”的評(píng)論中又一次得到了充分展現(xiàn)。近來,主要拜深度學(xué)習(xí)所賜,聊天程序的研發(fā)終于被接納成了主流人工智能的一部分,而圖靈測(cè)試在這個(gè)領(lǐng)域中自然是一個(gè)恰當(dāng)?shù)臉?biāo)準(zhǔn)。但盡管如此,這個(gè)標(biāo)準(zhǔn)也不能推廣到人工智能的其它子領(lǐng)域。因此,至今以通過圖靈測(cè)試為目標(biāo)的工作仍只占人工智能領(lǐng)域中很小的一部分。
反對(duì)圖靈測(cè)試的意見來自若干不同的方向。
主流人工智能既然是以“解決那些人腦能解決的問題”為目標(biāo),自然是要“解題能力”越高越好,而不在乎“解題行為”是否和人一樣。如果對(duì)某個(gè)問題有更適合計(jì)算機(jī)的解決辦法,那為什么還一定要像人腦那樣做呢?圖靈已經(jīng)預(yù)料到,要通過他的測(cè)試,計(jì)算機(jī)要會(huì)裝傻和撒謊才行,因?yàn)樵谀承┓矫?如算數(shù))能力太強(qiáng)就不像人了?!度斯ぶ悄茈s志》??岬降奶娲鷪D靈測(cè)試的主要理由也是它往往鼓勵(lì)系統(tǒng)采用欺騙手段,而非真正展現(xiàn)其認(rèn)知能力。
香農(nóng)(對(duì),就是創(chuàng)建信息論那位)和麥卡錫在1956年的一篇文章中提出圖靈測(cè)試的缺點(diǎn)是:“在原則上”它可以通過查一張列出所有問題和相應(yīng)答案的清單來做到,因此和我們關(guān)于思維的直觀不符。具有諷刺意味的是,隨著計(jì)算機(jī)硬件的發(fā)展,現(xiàn)在的一些“智能系統(tǒng)”的確是按這個(gè)“原則”構(gòu)建的。哲學(xué)家塞爾的“中文屋”思想試驗(yàn)也是假定一個(gè)計(jì)算機(jī)可以用這個(gè)平淡無奇的辦法通過圖靈測(cè)試,而他以此論證真正的(強(qiáng))人工智能不可能實(shí)現(xiàn)。
如我在《當(dāng)你談?wù)撊斯ぶ悄軙r(shí),到底在談?wù)撌裁?》中解釋的,“人工智能”固然是要造“像人腦那樣工作的計(jì)算機(jī)”,但關(guān)于“在哪方面像人腦”的不同看法已經(jīng)將研究引向完全不同的方向。圖靈測(cè)試是要計(jì)算機(jī)在行為上像人,而主流人工智能是要在解決各種問題的能力上像人甚至超過人。這兩種研究都有價(jià)值且有相互聯(lián)系,但并不是一回事。這正是主流人工智能不接受圖靈測(cè)試的根本原因。
我自己的研究目標(biāo)既非再現(xiàn)人類行為,也非達(dá)到或超越人類問題求解能力,而是讓計(jì)算機(jī)遵循人所體現(xiàn)的信息加工原則。我認(rèn)為這個(gè)原則就是“在知識(shí)和資源不足時(shí)適應(yīng)環(huán)境”(詳見《王培專欄|人工智能:何為“智”?》,而其它具體的“思維規(guī)律”都是建立在這個(gè)基礎(chǔ)上的。根據(jù)這個(gè)原則,一個(gè)智能系統(tǒng)的行為(輸出)依賴于它的經(jīng)驗(yàn)(輸入)。由于一個(gè)人工智能系統(tǒng)不會(huì)有和人類完全相同的經(jīng)驗(yàn),它就不會(huì)有和人類完全相同的行為,即使其輸入-輸出關(guān)系和人的基本一樣。因此,我的系統(tǒng)不是以通過圖靈測(cè)試為目標(biāo)的。比如說,它對(duì)一個(gè)問題的回答取決于系統(tǒng)自身對(duì)此問題知道些什么,而不是一個(gè)普通人對(duì)此問題知道些什么。
3圖靈錯(cuò)了嗎?
在這個(gè)問題上最令人哭笑不得的一點(diǎn)是:圖靈從來沒有建議過把他的測(cè)試作為“思維”或“智能”的定義。
盡管圖靈的文章《計(jì)算機(jī)器與智能》被廣泛引用,但很多人可能只看了他開頭介紹“模仿游戲”(即后來被稱為“圖靈測(cè)試”)的那一部分。我這么說是因?yàn)樗南旅嬉欢卧捄苌俦惶岬剑?/p>
“難道機(jī)器不會(huì)做某些應(yīng)該被說成思維但和人所做的很不同的事嗎?這是個(gè)很有力的反對(duì)意見,但我們至少可以說,如果能夠成功地玩模仿游戲的機(jī)器可以被構(gòu)造出來,我們無需為這種反對(duì)意見而煩惱。”
這段話說的很明白:圖靈把通過他的測(cè)試作為“能思維”的充分條件,而非充分必要條件(也就是定義)。這就是說和人行為一樣必是能思維,但和人行為不同也未必就不算思維。在1952年參加BBC的一個(gè)廣播節(jié)目時(shí),圖靈明確表示他沒有試圖給“思維”下一個(gè)定義,而只是想在人腦諸多性質(zhì)之間“劃一條線”,來區(qū)分那些智能機(jī)器需要具有的和那些不需要具有的[2]。
既然圖靈沒有給“思維”或“智能”下定義,而人工智能的領(lǐng)軍人物們也沒有接受這個(gè)測(cè)試,那“圖靈測(cè)試是人工智能的定義”是誰說的呢?這大致是一些對(duì)人工智能半懂不懂的人士的貢獻(xiàn),而好萊塢也難逃其咎。一旦這個(gè)簡(jiǎn)單易懂的說法傳播開來,大概誰也拿它沒有辦法了,更不要說圖靈英年早逝,沒機(jī)會(huì)反復(fù)辟謠了。
綜上所述,在主流人工智能歷史上,圖靈測(cè)試從未被接受為標(biāo)準(zhǔn)或定義,而圖靈也不是人工智能主流研究規(guī)范的奠基人,盡管他的觀點(diǎn)的確對(duì)很多人產(chǎn)生了不同程度的影響。圖靈測(cè)試的弊端是“和人的行為完全一樣”不應(yīng)被當(dāng)作“智能”的必要條件。雖然實(shí)際上圖靈從來也沒有這個(gè)意思,他的文章的確給了不少人這種誤解。
盡管如此,我仍認(rèn)為圖靈對(duì)人工智能做出了巨大的貢獻(xiàn)。這體現(xiàn)在下列方面:
他是最早明確指出“思維”和“智能”可能在計(jì)算機(jī)上實(shí)現(xiàn)的人,并且清醒地看出智能機(jī)器不會(huì)和人在一切方面都相同。比如在《計(jì)算機(jī)器與智能》中,他認(rèn)為一個(gè)智能機(jī)器可能沒有腿或眼,這就是說一個(gè)靠輪子運(yùn)動(dòng)和靠聲納感覺的機(jī)器人完全可能有智能。與此相反,至今仍有不少人以為真正實(shí)現(xiàn)人工智能的唯一辦法是全面地、忠實(shí)地復(fù)制人的一切。盡管圖靈測(cè)試把這條線畫的離人太近,但總是一個(gè)有意義的開端。
在《計(jì)算機(jī)器與智能》中,他分析并駁斥了9種對(duì)思維機(jī)器的反對(duì)意見。從那時(shí)(1950)至今,對(duì)人工智能的反對(duì)意見層出不窮,但細(xì)細(xì)看來都不出他的預(yù)料,只是具體表述“與時(shí)俱進(jìn)”了而已。盡管圖靈當(dāng)年的反駁沒有徹底解決問題,他的預(yù)見性仍令人驚嘆。就沖這一點(diǎn),他的文章就沒有過時(shí)。
他認(rèn)為我們應(yīng)當(dāng)設(shè)計(jì)一個(gè)通用學(xué)習(xí)系統(tǒng),并通過教育使其擁有各種具體技能。與此相反,主流人工智能系統(tǒng)的能力仍主要來自于初始設(shè)計(jì),即使目前的“機(jī)器學(xué)習(xí)”也僅限于某種特定的學(xué)習(xí)過程(詳見《計(jì)算機(jī)會(huì)有超人的智能嗎?》)。如果他沒有那么早去世,人工智能可能會(huì)有一條不同于達(dá)特茅斯諸君所引領(lǐng)的路線。
在我看來,圖靈的主要局限是沒有看到軀體和經(jīng)驗(yàn)對(duì)概念和信念的重要影響。一個(gè)沒有腿和眼的機(jī)器人完全可以有智能,但是不會(huì)有和人類完全相同的思想,因此也就不會(huì)有和人類完全相同的行為,即使我們只關(guān)注其語言行為也是如此。如果這個(gè)系統(tǒng)的智力足夠高,它的確可能靠對(duì)人類的知識(shí)通過圖靈測(cè)試(所以這個(gè)測(cè)試可以作為智能的充分條件),但這不應(yīng)該是我們說它有智能的唯一依據(jù)。
4和我們有什么關(guān)系嗎?
以上分析的目的不僅僅是澄清歷史事實(shí),更是要據(jù)此評(píng)說目前的狀況。
把圖靈測(cè)試作為人工智能的標(biāo)準(zhǔn)或定義直接導(dǎo)致了對(duì)這一領(lǐng)域成果評(píng)價(jià)的片面化、膚淺化、娛樂化。既然一個(gè)計(jì)算機(jī)系統(tǒng)不可能在所有方面同等水平地和人相像,那么聚焦于其外在行為的似人程度就意味著忽略其內(nèi)在機(jī)制的似人程度。在最近的新聞和討論中不難發(fā)現(xiàn)這一傾向的種種表現(xiàn):
以聊天程序的蒙人水平來評(píng)價(jià)其智力,
以人的智商標(biāo)準(zhǔn)來評(píng)估計(jì)算機(jī)智力發(fā)展水平,
以高考成績(jī)來衡量計(jì)算機(jī)智能,
以在作曲或繪畫上“以假亂真”的本事來體現(xiàn)人工智能的創(chuàng)造力,
以似人的“面部表情”或“肢體動(dòng)作”來表現(xiàn)機(jī)器的“感情”。
這些工作不能說毫無意義,但仍是主要靠伊莉莎效應(yīng)來贏得承認(rèn),即靠觀眾想“只有聰明人能這么做,現(xiàn)在這個(gè)計(jì)算機(jī)做到了,所以它一定聰明”,而完全忽略這些行為在計(jì)算機(jī)中的產(chǎn)生機(jī)制,尤其是它們和系統(tǒng)設(shè)計(jì)、以往經(jīng)歷、當(dāng)前情境等因素的關(guān)系。比如說,盡管有理由認(rèn)為一個(gè)人工智能系統(tǒng)可能有情感機(jī)制和審美能力(詳情以后再說),那也不意味著它注定會(huì)“美我們之所美”、“愛我們之所愛”。賈府上的焦大是不愛林妹妹的,但這不說明他沒有愛憎。實(shí)際上如果他表現(xiàn)出愛她,那反而不是真感情了。既然賈寶玉的情感和審美標(biāo)準(zhǔn)不能推廣到其他人,有什么理由認(rèn)為人類的情感和審美標(biāo)準(zhǔn)可以推廣到其他智能物種呢?
一個(gè)領(lǐng)域的成果評(píng)價(jià)標(biāo)準(zhǔn)如果是不合適的,后果會(huì)很嚴(yán)重。不但研發(fā)工作會(huì)被誤導(dǎo),公眾的期望也會(huì)落空,而且會(huì)錯(cuò)過真正有價(jià)值的方向。在人工智能領(lǐng)域中,這仍然是個(gè)大問題。
參考文獻(xiàn)
[1] Alan Turing, Computing Machinery and Intelligence, Mind 49: 433-460, 1950
[2] Alan Turing, Richard Braithwaite, Geoffrey Jefferson, Max Newman, Can Automatic Calculating Machines Be Said To Think? A broadcast discussion on BBC Third Programme, January 14, 1952
人工智能測(cè)試系統(tǒng)論文相關(guān)文章:
4.淺談?dòng)?jì)算機(jī)測(cè)控系統(tǒng)的相關(guān)論文