雲栖号資訊:【 點選檢視更多行業資訊】
在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!
編者按:本文來自微信公衆号“新智元”(ID:AI_era),36氪經授權釋出。

來源:nature等
AlphaZero雖然在圍棋項目上戰勝了人類選手,但所需的大量算力使其很難走進尋常人的生活。最近,丹麥和德國的研究人員使用Deepmind的AlphaZero 開發了一種混合算法,将AlphaZero強大的搜尋能力與量子計算有機結合起來,參數搜尋速度大幅提升。
在過去的幾十年裡量子實體技術的探索中,最引人注目的就是量子計算機。
量子計算機的能力,是所有現有的計算機組合加起來都無法匹敵。但到目前為止還沒有人能夠制造出一台功能齊全的量子計算機。這就需要我們在控制量子系統的能力上向前跨一步。
為什麼 AlphaZero 能快人一步“預知未來”?
AlphaZero一開始是專門用來下圍棋的。圍棋的落子位置太多了大約有種。相比之下,國際象棋隻有種可能的走位。
是以AlphaZero使用了一個深層的神經網絡,它學會了從一個特定的位置開始評估它獲勝的可能性。為了獲勝,AlphaZero有一個功能叫做蒙特卡洛樹搜尋,這種方法能夠幫助它在遊戲中“預知未來”。
由于在所有可能政策的總空間中抽樣的可能性比較小,而且神經網絡隻能近似估計,是以特别是在其訓練階段,蒙特卡洛樹搜尋能夠極大地提高遊戲的準确性以及訓練效率。
這類似于職業棋手在下棋時能夠提前想幾步棋。訓練結果是相當驚人的,AlphaZero 很快就摧毀了專業遊戲軟體和人類玩家。例如,經過僅僅四個小時的自我對弈練習,AlphaZero 就在國際象棋中擊敗了領先的棋類軟體 Stockfish。而且這完全都是從零開始,一開始AlphaZero根本不知道遊戲規則。丹麥國際象棋大師Peter Heine Nielsen将其比作一個通路過地球的進階外星物種。
目前AlphaZero 已經有效地在圍棋,國際象棋和星際争霸中戰勝對手。AlphaZero成功的關鍵是将蒙特卡羅樹搜尋和具有前瞻性的深度神經網絡結合起來。結果表明,從樹下方延展出來的預測資訊極大地提高了深度神經網絡的精度,使預測結果更加準确集中,而非試探性的探索。
AlphaZero後發制人:30小時性能提高一個數量級
與普通計算機類似,量子計算機使用門操作(gate operations)來操縱其量子位。我們試圖通過建構分段恒定的脈沖序列來實作特定的門操作,即AlphaZero必須為每個時間步長(time-step)選擇一個脈沖幅度。實體系統在每個時間步長tj上都由一個4x4複雜的矩陣U(tj)進行數學描述,我們将其折疊成一個長度為32的向量。
這是神經網絡的輸入,如圖1所示。脈沖序列完成後,就可以将複數矩陣U(T)映射為一個實數,稱為仿真逼真度(fidelity)F,該實數的取值在0到1之間。從本質上講,仿真逼真度是一種機率度量,其中1表示100%成功。
圖1.AlphaZero使用的MCTS(左)和深度神經網絡(右)的圖示
左圖和右圖分别示範了 AlphaZero 的樹搜尋和神經網絡。利用樹搜尋中統一的搜尋結果作為神經網絡的輸入項。神經網絡的上限輸出接近給定輸入狀态的現行政策,即 p a ∼ a pa ∼ a。同時,下限輸出提供了一個能夠預估期望最終報酬的值函數,即 v (s t)∼(t) v (st)∼ f (t)。
在我們的工作中,我們發現以一緻的形式向 AlphaZero 提供實體系統的完整資訊,有利于提升它的性能,盡管這種方式可能比較難以調整以适應具有較大希爾伯特空間的系統。
神經網絡輸出一個值,該值是對最終仿真逼真度v≈F和一些移動機率p=(p1, p2, ...)的估計。兩者都在蒙特卡洛樹搜尋中使用。樹由節點(狀态)和邊(狀态-動作對)組成。樹搜尋從根節點開始,并通過在每個步驟中選擇動作來貫穿樹。選擇哪種行動,是通過比較每一個邊緣的内在屬性,以平衡勘探和開發的方式進行的。一旦探索到了邊緣,其内在屬性将根據搜尋結果進行更新。
樹中的正向搜尋将繼續,直到遇到一個以前未通路過的節點,然後将該節點添加到樹中,并使用p初始化其邊緣。搜尋中的所有通路過的邊都将使用v在反向過程中更新。一旦執行了多次此類搜尋,AlphaZero将确定一個操作并更新根節點,而丢棄樹的其餘部分。最後,基于樹搜尋産生的資料對神經網絡進行更新,使得v接近保真度,并且移動機率增加了選擇更有希望動作的機會。
簡言之:蒙特卡洛樹搜尋允許AlphaZero向前看幾步,進而可以在解決方案空間中進行更全面的搜尋。這使得AlphaZero在長期政策至關重要的複雜任務中比大多數其他強化學習方法更具優勢。
成功實作AlphaZero之後,我們使用相同的算法超參數将其用于三個不同的量子控制問題。對于每個問題,我們将AlphaZero與更正常的算法進行了比較。例如,在圖2中,我們比較了AlphaZero和遺傳算法在50小時運作期間建立二進制脈沖的任務。在y軸上,我們繪制infidelity 1-F,這實際上是錯誤率(即越低越好)。
最初,AlphaZero在學習量子力學關聯時表現不如遺傳算法,但是這個學習階段相當短。在30小時内,我們發現AlphaZero的性能比遺傳算法提高了一個數量級,并且具有大量獨特的高保真脈沖序列。
圖2.遺傳算法和AlphaZero在50小時運作期間的比較。在y軸上繪制了infidelity (1-F),這實際上是一個錯誤率
混合了AlphaZero的量子計算,搜尋速度提升500倍
AlphaZero會輸給實體學家在過去15年不斷完善的高度量子化的優化算法并不奇怪。但是,如果AlphaZero死在這裡,會留下很多遺憾。
由于梯度優化算法沒有學習功能,意味着訓練過程中其性能沒有逐漸提高,并且所有生成的資料都将被丢棄,而不是用于後續學習。
奧胡斯大學的團隊開始尋求一種混合算法:AlphaZero通過廣泛的探索生成了高可用的種子對象,随後通過基于梯度的方法對它們進行優化,這種方法使解決方案的數量和品質都得到了極大的提高。
實際上,AlphaZero和梯度優化解決了不同的問題:AlphaZero能學習到解決方案的基礎結構,梯度優化在種子解決方案周圍的局部空間中進行優化。如果僅使用梯度優化,經過50小時的模拟,我們可能有兩個或三個有前途的解決方案,但通過我們的混合算法,可以獲得一千個。
将功能強大的通用領域機器學習方法與人類專業知識、特定領域的蠻力計算相結合的結果令人振奮。國際象棋已經邁出了第一步,混合型人機團隊将專家知識和Stockfish引擎結合起來,可以同時勝過人類和算法。
最近Gary Marcus和Ernest David在他們的新書《重新啟動AI:建構我們可以信賴的人工智能》中提出,将領域特定方法和領域通用方法與分層的受人類啟發的決策過程相結合,是未來建構強大的AI方法的核心元素之一。這可能會解決AlphaZero方法最直接的弊端之一:超參數很多,但僅在有限的範圍内有用。
在一些案例中,相同的超參數集在三種量子情況下均能很好地工作,當改變問題的設定,AlphaZero将無法解決。
量子計算機利用量子并行性大幅提高了計速度,但是問題再次出現:搜尋空間的控制參數成指數級增長。AlphaZero實驗證明,神經網絡提供的近似和不完善的解決方案可以充當本地蠻力啟發式算法的強大種子生成器。
除了算法方面的優化設計,量子計算本身的性能也在飛速提升。
金子表面發現馬約拉納費米子,量子計算機時代要來了?
最近量子計算捷報頻傳。
丹麥、德國科學家奇思妙想用AlphaZero解決量子計算問題,MIT等科學家則在金子的表面,觀測到了馬約拉納費米子,進而在将粒子分離為穩定的、防錯的量子比特進行量子計算領域邁出了重要的一步,該結果發表在《美國國家科學院院刊》上。
在粒子實體學中,馬約拉納費米子是一類基本粒子,包括電子,質子,中子和誇克,它的反粒子就是它本身。由意大利理論實體學家Ettore Majorana在1937年首次提出。
馬約拉納費米子
然而不幸的是,這位實體學家提出該理論後不到一年時間,就在一次神秘的意大利海岸渡輪旅行中失蹤了。從此,大家就一直在尋找馬約拉納和他的馬約拉納費米子。最終,大家放棄了尋找馬約拉納,但卻從未停止尋找他的費米子。
現在,由MIT上司的團隊制造了在超導材料釩上生長的金納米線組成的材料表面,發現了接近零能量的特征信号尖峰。顯然,根據目前的理論實體學來看,除了馬約拉那費米子對,沒有其他可能。
馬約拉納費米子将是理想的量子比特或量子計算機的單個計算機關,一個量子位将由成對的馬約拉那費米子組成,這是科學家長期以來,一直夢寐以求的材料!
如果該馬約拉納費米子被徹底證明,我們将提前步入量子計算時代!
參考連結
https://aihub.org/2020/04/03/alphazero-learns-to-solve-quantum-problems/ https://www.nature.com/articles/s41534-019-0241-0 https://phys.org/news/2020-04-sighting-mysterious-majorana-fermion-common.html【雲栖号線上課堂】每天都有産品技術專家分享!
課程位址:
https://yqh.aliyun.com/zhibo立即加入社群,與專家面對面,及時了解課程最新動态!
【雲栖号線上課堂 社群】
https://c.tb.cn/F3.Z8gvnK
原文釋出時間:2020-04-13
本文作者:新智元
本文來自:“
36Kr”,了解相關資訊可以關注“
”