機器之心報道
機器之心編輯部
由于太受歡迎,這本書先後出版了英文、中文簡體和中文繁體三個版本。其覆寫内容的範圍之廣令帝國理工學院教授、香港浸會大學副校長郭毅可印象深刻。如今,這本書的中文簡體版正式開放下載下傳。
得益于 DeepMind AlphaGo 和 OpenAI Five 成功的案例,深度強化學習受到大量的關注,相關技術廣泛應用于不同的領域。但是,對于一名學習者來說,市面上很少有書籍或者教程能同時覆寫從「0 到 1」和「從 1 到 N」的深度強化學習内容,學習材料非常零散。
為了克服這一難題,北京大學前沿計算研究中心助理教授董豪博士等編寫了一本名為《Deep Reinforcement Learning: Foundamentals, Research and Applications》的英文書籍。該書于 2020 年 6 月由 Springer 發行,紙質版和電子版銷售量都很大,電子版本下載下傳量已經超過了 8 萬冊。

由于反響比較熱烈,作者團隊建立了讀者交流群,很多讀者都表示希望能有中文(簡體)版本,還有港台地區的同學反映希望能有繁體字版本。是以,他們就把書翻譯成了中文簡體和繁體,并于 2021 年 6 月和 2022 年 1 月發行。其中,中文簡體第一版一經發行已售罄,現已發行第二版。
為什麼這本書如此受歡迎?我們先來看一下它的内容。
整本書共分為三個部分,覆寫了學習深度強化學習所需的所有内容。
第一部分(基礎部分)介紹了強化學習的基礎知識、常用的深度強化學習算法及其實作方法:
第二部分對精選的深度強化學習研究方向展開介紹,這對希望開展相關研究的讀者非常有意義。
為了幫助讀者更加深入地了解深度強化學習細節并把相關技術應用到實際中,第三部分仔細地講述了大量應用的實作細節,例如機器人學習跑步、機械臂控制、下圍棋、多智能體平台等等,并提供相關的開源代碼。
可以看到,無論你是計算機科學專業背景、希望從零開始學習深度強化學習并開展研究課題和實踐項目的學生,還是沒有很強的機器學習背景、但是希望快速學習深度強化學習并将其應用到具體産品中的軟體工程師,這本書都能幫到你。
帝國理工學院教授、資料科學研究所創始所長、香港浸會大學副校長郭毅可就表示對這本書覆寫内容的範圍之廣印象深刻,他認為,「這種風格的書籍是對初學者和科研人員絕佳的學習材料。」他還表示,「擁抱開源社群是深度學習得到快速發展不可或缺的一個原因。我很欣慰這本書提供了大量的開源代碼。」
北京大學博雅特聘教授、前沿計算研究中心執行主任陳寶權也認為,「這本書提供了可靠的深度強化學習内容介紹,縮小基礎理論和實踐之間的差距,以提供詳細的描述和算法實作為特色,提供大量技巧和速查表。」
當然,這麼優秀的書籍離不開一個強大的編撰團隊。該書作者團隊全部為一線科研人員和開源社群成員,使用深度強化學習解決不同領域的問題。其中,董豪、丁子涵、仉尚航還是編者團隊的成員。
《深度強化學習:基礎、研究與應用》的作者團隊。
董豪是北京大學計算機學院、前沿計算研究中心助理教授,博士生導師。于 2019 年秋獲得英國帝國理工學院博士學位。研究方向主要涉及計算機視覺和機器人,目的是降低學習智能系統所需要的資料,實作自主學習。他緻力于推廣人工智能技術,是深度學習開源架構 TensorLayer 的創始人,并獲得 ACM MM 2017 年度最佳開源軟體獎。他在英國帝國理工和英國中央蘭開夏大學獲得一等研究所學生和一等大學學位。
丁子涵是普林斯頓大學博士。于 2019 年獲得英國帝國理工學院碩士學位,曾在加拿大 Borealis AI、騰訊 Robotics X 實驗室有過工作經曆。大學就讀中國科學技術大學,獲實體和計算機雙學位。研究方向主要涉及強化學習、機器人控制、計算機視覺等。在 ICRA, IROS, NeurIPS, AAAI, IJCAI, Physical Review 等頂級期刊與會議發表多篇論文,是 TensorLayer-RLzoo、TensorLet 和 Arena 等開源代碼庫的貢獻者。
仉尚航是北京大學計算機學院助理教授,博士生導師。于 2018 年博士畢業于美國卡内基梅隆大學,後于 2020 年加入加州大學伯克利分校 BAIR 實驗室任博士後研究員。研究方向主要為開放環境泛化機器學習理論與系統,同時在計算機視覺和強化學習方向擁有豐富研究經驗。在人工智能頂級期刊和會議上發表論文 30 餘篇,并申請 5 項美中專利。獲 AAAI'21 最佳論文獎,美國 2018 年度 “EECS Rising Star”,Adobe 學術合作基金,Qualcomm 創新獎提名等。
團隊的多樣性使得該書風格對不同領域的讀者更為友好,并對代碼庫進行支援和維護。
在談及該書的寫作曆程時,該團隊表示,「寫這本書的工作量是巨大的,作者們的工作和學習都很忙,都是兼職寫這本書,而且還有好幾個配套的代碼庫,能夠按計劃完成已經挺不容易了。是以,我們探索并采用了開源的模式來寫作,不過前後也花費了一年多的時間。」