天天看點

《仿人機器人原理與實戰》一2.1 行為鍊生物學基礎

本節書摘來異步社群《仿人機器人原理與實戰》一書中的第2章 ,第2.1節,作者布萊恩·伯傑倫(bryan bergeron) 托馬斯b. 塔爾博特(thomas b. talbot) 王偉 魏洪興 劉斐 譯, 更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

很多時候人們都在參與潛意識的本能活動中,這些活動是由一系列反射弧鍊或者序列組成的。圖2-1展示了許多鍊式結構中的一種。從等待狀态1開始,觸發事件a産生反射a,依照目前條件是1還是2,反應鍊連結到反射b或d。反射b受到來自大腦的抑制作用以及來自腎上腺素的激勵作用。反射作用b連結到反射c,反射c連結回到初始等待狀态1。

同樣,依照圖2-1,如果反射a在條件2下發生,反射d将會跟随反射a發生,最終連結到等待狀态2。這條鍊保持在等待狀态直到觸發事件b發生,連結到反射c,最後連結到等待狀态1。但是,由于反射作用a的不應期的作用,可能另一個觸發事件a将會在觸發事件b發生前使行為鍊處于動作狀态。這個關于觸發事件a和b的假設的讨論令人費解,當我們讨論在特定的反射作用下的動作鍊時将賦予它更多的意義。目前為止,我們隻需要熟悉一下圖2-1。

《仿人機器人原理與實戰》一2.1 行為鍊生物學基礎

例如在軍隊中,動作鍊主要是緊急備戰,戰士們将在很長時間中沒有動作直到觸發事件發生。進化的目标理所應當是給大腦皮質提供休息時間,以便有空琢磨打赢《使命召喚》的戰略。鑒于我們要完成各種不同的腦力勞動,是以許多動作鍊在其他生物中也普遍存在且具有相似的形式。下面我們考慮一種人工生命形式—微處理器的曆史。

當英特爾公司在1971年推出微處理器時,它面臨一個很大的問題:如何讓科技人員改變他們固有的解決問題的方式。為了吸引人們關注新型電子裝置,因特爾公司舉辦了一場比賽,比賽要求各參賽隊伍分别基于因特爾晶片設計一隻電子小鼠。因特爾公司還特别設計了一個迷宮,使電子小鼠最快走出迷宮的隊伍将獲得10000美元獎金。

從表面上來看,這場比賽更像是大老鼠比賽,因為電子小鼠和鞋的尺寸一樣大。比賽中有一些實際限制,例如驅動電子小鼠輪子的電機大小、電池尺寸以及電路闆上随機存儲器(ram)的數量。然而在小鼠設計中最重要的是隊伍的想象力和創意。對于那個年代的機器人來講真正的挑戰是如何在微處理器有限的計算和存儲能力限制下設計一個合适的解決方案。

參賽者應用了多種解決方法,有的在老鼠的身體四周布滿了紅外線傳感器和開關,有的采用能探測到迷宮壁的胡須。大多數設計都嘗試在随機存儲器中建立一張迷宮地圖。然而獲勝的小組采用了一種更為簡單合适的方法。這個小組嘗試學習老鼠的實際行為習慣—行為鍊,研究齧齒類動物在地球上任意超級大都市的大樓廢墟中導航的方式。

獲勝的小組發現老鼠分為兩種:左轉老鼠和右轉老鼠。在管道末端面臨向左轉還是向右轉問題時,左轉老鼠習慣向左轉,而右轉老鼠則習慣向右轉。事實證明在老鼠有足夠食物和水的條件下,不論迷宮多大或多複雜,一直采用左轉或右轉政策都可以使老鼠走出迷宮。

或許你已經猜到了,獲勝的小組設計了一隻右轉老鼠。這個小組并不需要新的微處理器,僅僅是為了滿足競賽要求才把它加入設計中。小組成員用微處理器來監視裝在小鼠右側的塑膠胡須上的開關。當胡須與右側的牆壁脫離接觸時,機器老鼠向右轉直到胡須重新接觸到牆壁。通過這種方式,機器小鼠維持與右側牆壁接觸,最終走出迷宮。其他機器小鼠有些運用了複雜的機器學習算法,但它們或是卡在迷宮中某個位置或是很慢才走出迷宮。

顯然,思考的機器輸給了實踐的機器。建立一個簡單的行為鍊模型,控制機器人進行行動而不是複雜的思考,這種方式比擁有強大的數字處理能力更有效。你想設計一個經濟的仿人機器人,不運用超級計算機或是破壞牆壁的電鋸,使它能夠走出錯綜複雜的迷宮嗎?那麼你的選擇不應當是人工智能,而是智能動作(intelligence action,ia)。

行為鍊是由若幹激勵産生的一系列反射。例如,當你被蚊子叮咬時去打它們,當皮膚癢的時候去抓撓,當碰到滾燙的爐壁時縮手,當有閃光的時候去看,這些都是基于一些反射的簡單行為鍊。許多常見的行為鍊包含了許多複雜的互相交錯的反射,這些反射都是由來自大腦的潛在輸入信号和内分泌系統産生的。

事實證明我們的大腦并不擅長考慮p的本質,而是更擅長模式識别。大腦特别擅長識别有威脅的和潛在緻命的信号。我們能夠在笑臉的海洋中立即識别出眉頭緊皺的臉(一個潛在的威脅)。類似地,人們可能會忽視一隻蜜蜂,但是當面對蜂群的時候,腎上腺素一定會流經血管。

人類生來就有天生的行為鍊或是本能,但是許多行為鍊都是直到神經系統發育成熟才會變得明顯。其他行為鍊隻能通過經驗來形成。例如,許多嬰兒本能地一口氣吃光冰淇淋,但是會直接吐出菠菜奶油沙司。可能由于我們的祖先在樹上生活的原因,人類在一定年紀之前是不會恐高的。類似地,許多幼兒很容易受到噪音的驚吓;但即使他們沒有形成走人行道而不橫穿馬路的巴甫洛夫行為鍊,這種行為也不會通過基因遺傳。

我們除了有共有的行為鍊以外,也有每個人特有的行為鍊。典型的性格坐标軸—控制力、責任心、情緒穩定性和坦率(如圖2-2所示),同樣可以應用于人類、仿人機器人甚至面包機。性格坐标是在一個時間點上定義了一種特殊性格的各個特征的相關表達。例如,典型的服務員和服務機器人的性格特征為順從、有責任心、情緒穩定和坦率。相比較而言,一個典型的士兵會在控制力上得高分,在責任心和坦率上得分較低,在情緒穩定性上的得分隻是很小的正數。

《仿人機器人原理與實戰》一2.1 行為鍊生物學基礎

性格會随着時間和環境發生變化,如果我們讨論人類,則還包括年齡和健康狀态變化。一個典型的老人的性格特征一般不會那麼樂觀,也不會那麼開放和強勢。生理和心理上的疾病可能會導緻老人情緒上的不穩定以及缺乏責任心。我們會在第8章中詳細讨論老年化對仿人機器人可能的影響。

與觸發行為鍊相關的一個概念是人的一種感覺天性,叫作最小可覺差(just noticeable difference,jnd)。正如它的名字意味的那樣,它可能是音量、傾斜度、溫度、光強的變化,或者其他至少有50%的幾率(“最小”所指的概念)被人們感覺的激勵。對于大多數人和大多數激勵來說,最小可覺差與初始強度的比例是一個常數,即韋伯常數(webber constant)。

舉個實際的例子,如果有人将你的立體聲放大器的音量從2調到4,你有50%的幾率能夠感覺,那麼當音量從9調到11時,你感受到變化的幾率将不是50%。在這裡我們假設音量電位計和音量的數字标簽在音量旋鈕上是均布的。

繼續閱讀