科普系列 | 漫威電影中的高科技8——“圖靈測試”

王元卓中國科學院計算技術研究所

李子健中國科學院計算技術研究所

陸源競技世界（北京）網絡技術有限公司

在影片《鋼鐵俠3》中，女主角小辣椒無法分辨出托尼是否在戰甲中，跟戰甲對話了很久後才發現托尼并不在，還為此生了氣。同樣，在影片《蜘蛛俠：返校日》中，蜘蛛俠帕克也沒能看出托尼是否在戰甲中。那麼，當人們無法分辨出人工智能與真實人類的差別時，是否能夠認為人工智能實作了真正的智能呢？人工智能之父圖靈給出了他的看法。

圖1 《蜘蛛俠：英雄歸來》中的圖靈測試片段

1950年，英國數學家圖靈在《計算機器與智能》中提出了“圖靈測試”。所謂的“圖靈測試”，就是在不接觸對方的情況下，通過特殊方式和對方進行一系列問答。如果在相當長的時間内，無法根據問題和回答判斷對方是人還是計算機，就可以認為這個計算機具有人類的思維能力。

1952年，圖靈在一次BBC廣播中提出了一項具體的圖靈測試方法。這個方法通過實際測試來判斷機器是否具有人類智能。這項測試将人與機器分隔開，通過一個特殊的裝置（如鍵盤），讓人們向機器多次随意提問。如果有超過30%的人無法确定測試對象是人還是機器，那麼這台機器就通過了測試，被認為具有人類智能。

從這以後，30%成為圖靈測試的及格線，雖然30分的及格标準要求不高，但直到今天，這一測試仍被作為檢驗人工智能的标準之一。

那麼，真的有計算機通過圖靈測試了嗎？2014年6月7日，在英國皇家學會舉行的“2014圖靈測試大會”上，俄羅斯科學家開發的聊天程式“尤金·古斯特曼”冒充一個13歲男孩，成功騙過了三分之一的評委。按照圖靈當初的定義，它通過了圖靈測試，成為有史以來首台通過圖靈測試的計算機。

既然已經有一台計算機通過了圖靈測試，那麼是否代表它具有了真正意義上的人工智能？遺憾的是，即使一個計算機通過了圖靈測試，也不能代表它真的具有人工智能。圖靈測試的核心準則是“計算機在智力行為上表現得和人無法區分”，可是在實際測試中，程式設計者們會竭盡所能地找規則的漏洞，讓計算機在對話中騙過人類，而非真正擁有智能。比如，在2014年的圖靈測試大會上，計算機科學家斯科特·亞倫森和聊天程式“尤金·古斯特曼”的對話測試中就出現了這樣一段對話。斯科特問，一頭駱駝有幾條腿？尤金回答，2到4條吧，或許是3 條？順便問一句，我不知道你的專業是什麼，或者剛剛我漏看了？

從這次對話中，我們可以看出“尤金·古斯特曼”無法回答“駱駝有幾條腿”這樣的常識性問題。它在對話中沒有直接給出答案，而是通過詢問測試者的專業來轉移話題，這就是人們常說的“顧左右而言他”。

網友們總結出通過現今圖靈測試的三字真言: “呆、萌、傻”。簡單地說，就是僞裝成一個來自偏遠地區，沒怎麼接受過教育的小孩子，進而降低測試者對智能水準和知識積累的要求，進而提高通過測試的可能性。“尤金·古斯特曼”将自己僞裝成一個來自較小城市、非英語母語的13歲男孩。這樣就可以解釋自己為什麼不知道駱駝有幾條腿，也為自己不流利的回答找好了理由。

另外，計算機也會使用一些特定的語言技巧來迷惑提問者。一方面，計算機程式可以選擇用背景知識來回避問題；另一方面，計算機會故意不好好回答問題，避免測試者發現回答套路。

比如測試者問：誰送了誰戰甲？計算機程式可以回答：這套戰甲可真不錯。或者計算機程式可以有意或無意地保持沉默，進而混淆測試者的判斷。比如測試者繼續追問：誰送了誰戰甲？計算機可以回答：……你都問了第三遍了。

圖2 圖靈測試講解圖（選自《科幻電影中的科學：科學家奶爸的AI手繪》）

現在流行的微軟小冰、蘋果Siri、小度和小愛同學等人工智能産品都運用了類似的語言技巧，似乎已經基本能與人溝通了，但實際上它們離真正的智能還有一定差距。實際上，今天所有的實用人工智能産品都隻能實作弱人工智能。簡單來說，它們隻能通過湊答案的方式來解決問題：提前準備好一大堆标注好的資料，然後用大量機器進行快速檢索，直到湊出個差不多的答案。至于問題的内在邏輯和簡約規律，今天的人工智能無心顧及，也無力解讀。

既然計算機程式會想盡辦法騙過人類，那麼人類可以問哪些問題來難倒計算機程式？比如我們知道“托尼和小辣椒一起和幾套戰甲合影，但他們看起來像是玩具收藏家”，可以問程式，像玩具收藏家的是誰？又或者我們知道“蜘蛛俠對鋼鐵俠表示感謝，是因為送了他一套戰甲”，那麼可以問程式，誰送給誰戰衣？像這種依據“代詞回指”語言現象設計的問題，小孩都可以輕易說出答案，可程式很難給出正确的回答。這是因為人類日常對話中經常包含諸多常識，應答者要對人類語言的細微之處和人類社會交際本質有足夠深刻的了解，而這些目前仍很難用計算機程式來描述。

圖靈測試的主要目的是區分人和機器，是以不僅是科學研究，生活中也有很多簡單的應用可以被稱作圖靈測試。驗證碼就是一種簡化版的圖靈測試，其被廣泛地應用于網絡購物、登入驗證中，用于區分操作者是人還是機器人，是一場機器向人提問的“反圖靈測試”。驗證碼還有一個充滿科學氣息的學名——“全自動區分電腦和人類的圖靈測試”。

最後，讓我們設想一下，如果一台計算機真的擁有了與人類相近的智能水準，那麼它們會不會把自己僞裝起來，讓自己通過不了圖靈測試？由于技術在不斷地發展，圖靈測試也有它本身的局限性，如果當人工智能真的發展到一定程度，而人類在研發過程中沒有發現的情況下，仍然将圖靈測試當作唯一的評判标準，會不會出現故意不通過圖靈測試的人工智能？通過圖靈測試在一定程度上意味着人工智能的出現，但是一旦出現，人類一定會進行更進一步的研究改造，這對于人工智能來說不一定是好事。當真有一天出現故意不通過圖靈測試的人工智能時，對于人類來說，也許後果會很嚴重。

--------END-------

聯系我們:

Tel: 010-81055490

010-81055534

010-81055448

E-mail:[email protected]

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

轉載、合作：010-81055307

大資料期刊

《大資料（Big Data Research，BDR）》雙月刊是由中華人民共和國工業和資訊化部主管，人民郵電出版社主辦，中國計算機學會大資料專家委員會學術指導，北京信通傳媒有限責任公司出版的期刊，已成功入選中國科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊，以及資訊通信領域高品質科技期刊分級目錄、計算領域高品質科技期刊分級目錄，并多次被評為國家哲學社會科學文獻中心學術期刊資料庫“綜合性人文社會科學”學科最受歡迎期刊。

科普系列 | 漫威電影中的高科技8——“圖靈測試”

繼續閱讀

ChatGPT可能無法通過測謊在一些犯罪片裡，會讓嫌疑人重複自己說過的話，或者讓他倒着叙述。但是經過訓練的比如特工，會順

1950年，英國密碼學家、邏輯學家、人工智能之父圖靈（AlanTuring）發表論文《計算機與智能》，文中闡述了"模仿遊

智己NOA，量産第一梯隊，圖靈測試，實力更是驚豔圖靈測試能夠檢測人工智能是否擁有了真正的智慧，而在汽車自動駕駛領域它同樣

作為國内一線高端純電品牌，智己汽車一直緻力于打造更穩、更像人的NOA智駕體驗。前段時間智己汽車放出了NOA實測視訊，新華

你知道被稱作“圖靈測試”一生之敵的“中文屋悖論”是什麼嗎？1980年就提出來的設想，為何能在今天被人們當做反駁“AI會擁

#解謎智己IMADNOA圖靈測試#智己汽車高速NOA輔助駕駛快到了開放時間，目前智己的輔助駕駛技術很難分辨人控還是智控，

關于人工智能（AI）相關的故事

劉經南院士談人工智能

圖靈測試過時了？

AI4M在官方釋出的這張圖中可以很清楚列出來，在我看來，後面的moment，mind，mechanism服務于mobil

“圖靈測試已過時，AI能不能賺大錢才是新标準”——DeepMind聯創

大模型能否通過圖靈測試呢，AI21 Labs做了一個百萬級線上遊戲《human or not》

圖靈測試與人工智能

ChatGPT打破了圖靈測試——評估人工智能新方法的競賽正在進行

ChatGPT 居然攻破了圖靈測試，基準測試也不靠譜了？