天天看點

DeepMind 彈性權重鞏固算法讓 AI 擁有“記憶” ,将成機器高效學習的敲門磚

DeepMind 彈性權重鞏固算法讓 AI 擁有“記憶” ,将成機器高效學習的敲門磚

一直以來,計算機程式都是個“左耳進,右耳出”的“傻小子”,它們很快就會忘掉所做過的任務。deepmind 決定改變傳統的學習法則,讓程式在學習新任務時也不忘掉舊任務。在追逐更智能程式的道路上,這是很重要的一步,能漸進學習的程式才能适應更多任務。

眼下,在解決文本翻譯、圖像分類和圖像生成等任務時,深度神經網絡是機器學習中最成功最有效的方式。不過,隻有将資料一股腦地塞給它,深度神經網絡才能變得“多才多藝”。

神經網絡輸入時,它會在數字神經元與輸出方案之間建立聯系,而當它學習新事物時,神經網絡不得不重建立立新的聯系,同時有效覆寫舊的聯系。這樣的情況被稱之為“災難性忘卻”(catastrophic

forgetting),業内普遍認為這是阻礙神經網絡技術不斷進步的最大絆腳石。

與深度神經網絡相比,人類大腦的工作方式就大不相同。我們可以漸進式的學習,一次掌握一些技巧,在學習新技巧時,此前的經驗還能提高我們的學習效率。

神經科學家已經能區分大腦中兩種類型的鞏固方式:系統鞏固(systems

consolidation )與突觸鞏固(synaptic

consolidation)。系統鞏固的過程中,人類大腦将快速學習部分獲得的記憶轉印進了緩慢學習的部分。這一轉印過程有有意識的回憶參與,也有無意識回憶的參與,人類做夢時就能完成這一轉印過程。而在突觸鞏固中,如果一種技能在此前的學習中非常重要,神經元之間連接配接就不會被覆寫。deepmind

的算法就是沾了突觸鞏固的光,成功解決了“災難性忘卻”的問題。

神經網絡中神經元的連接配接與大腦非常相似,在學習完一個技巧後,deepmind

會計算出在神經網絡中的哪個連接配接對已學到的任務最為重要。随後在學習新技巧時,這些重要的連接配接就會被保護起來不被覆寫。這樣一來,在計算成本沒有顯著升高的情況下,“左耳進,右耳出”的問題就解決了。

如果用數學術語來解釋,可了解為在一個新任務中把每個連接配接所附加的保護比作彈簧,彈簧的強度與其連接配接的重要性成比例。是以,deepmind 将這種算法稱之為“彈性權重鞏固”(elastic weight consolidation,ewc)。

DeepMind 彈性權重鞏固算法讓 AI 擁有“記憶” ,将成機器高效學習的敲門磚

為了測試該算法,deepmind

讓程式不斷嘗試玩 atari

遊戲。據雷鋒網了解,單單從得分來學習一個遊戲是一項具有挑戰性的任務,但是依次學習多個遊戲則更加困難,因為每個遊戲需要單獨的戰略。如下圖所示,如果沒有

ewc 算法,程式會在遊戲停止後快速将之前的事忘得一幹二淨(藍色),這就意味着其實程式什麼遊戲都沒學會。不過,如果用上 ewc

算法(棕色和紅色),程式就不那麼容易遺忘,且可以逐個學會多個遊戲。 

DeepMind 彈性權重鞏固算法讓 AI 擁有“記憶” ,将成機器高效學習的敲門磚

眼下計算機程式還不能适應即時學習的節奏,不過 deepmind 的新算法已經攻克了“災難性忘卻”這座大山。未來,這項研究結果可能是計算機程式通往靈活高效學習的敲門磚。

同時,這項研究也深化了

deepmind

對“鞏固”在人類大腦中産生過程的了解。事實上,該算法所基于的神經科學理論都是在非常簡單的例子中得到證明的。通過将該理論應用在更現實和複雜的機器學習環境中,deepmind

希望進一步加強對突觸鞏固在記憶儲存中的作用及其機制的研究。

本文作者:大壯旅

繼續閱讀