天天看點

當AI學會了打麻将,人類高手們還能“吃胡”嗎?

作者:南方plus用戶端

7 月 11 日,騰訊宣布自研棋牌類 AI “絕藝LuckyJ” 在國際知名麻将平台“天鳳”上已經達到十段水準,重新整理了 AI 在麻将領域的最好成績。

當AI學會了打麻将,人類高手們還能“吃胡”嗎?

資料顯示,日本線上麻将競技平台“天鳳”建立于 2006 年,擁有體系化的競技規則和專業段位規則,受到職業麻将界的廣泛認可。截至目前,天鳳平台活躍人數 23.8萬,而能達到十段的僅 27 人(含AI),不到萬分之一。相比其他麻将AI和人類玩家,“絕藝 LuckyJ”不僅穩定段位更高,從零開始達到十段所需的對戰局數也明顯更少,僅需要 1321 局。

騰訊 AI Lab 研究員表示,現實世界中充滿了需要在非完美資訊狀态下做決策的場景,比如金融交易、自動駕駛、交通物流、拍賣系統等。在遊戲環境中推進決策AI的能力,最終是希望AI能從虛拟走向現實,解決真實世界的複雜問題。此前,遊戲在人工智能技術的演進中發揮了重要的作用。遊戲多樣化的情境為AI的訓練和學習提供了便利的研究場景,從國際象棋到圍棋,再到德州撲克、王者榮耀等遊戲,AI 不斷在遊戲場景中拓展能力邊界。

當AI學會了打麻将,人類高手們還能“吃胡”嗎?

圍棋、象棋都屬于完美資訊博弈,參與競技雙方的每次決策,都可以看到全局的資訊。AI能夠通過強大的計算力來枚舉各種可能性,進而找到制勝政策。而麻将無法看到對手的手牌,加上還有大量未揭開的牌,存在大量的隐藏資訊,是典型的非完美資訊博弈。

當AI學會了打麻将,人類高手們還能“吃胡”嗎?

據介紹,麻将一共有136張牌,每一位玩家隻能看到很少的牌,包括自己的13張手牌和所有人打出來的牌。牌局開始時,另外三位玩家的手牌以及牆牌都是看不到的,面對如此多的隐藏未知資訊,麻将玩家的每一個決策都需要兼顧進攻和防守。

此外,在麻将的對戰中,除了正常的摸牌、打牌之外,還要決定是否吃牌、碰牌、杠牌、立直以及是否胡牌。任意一位玩家的吃碰杠以都會改變摸牌的順序,這一過程也涉及了大量的決策。

當AI學會了打麻将,人類高手們還能“吃胡”嗎?

為了更好地解決麻将遊戲中存在的大量隐藏資訊的難題,提升AI的決策能力,騰訊 AI Lab基于強化學習和遺憾值最小化的自我博弈技術,使得AI能從零開始自我學習和提高,并最終收斂到一個最強的混合政策,讓AI在實際對戰的過程中擁有更加平衡的政策能力。

同時,考慮到傳統的非完美資訊搜尋算法在麻将面前很難發揮太大的作用,騰訊 AI Lab基于樂觀價值估計的思想,提出了一種高效的非完美搜尋方法,使得AI在有海量隐藏資訊的遊戲狀态中,仍可以實時調整目前政策,進而更好地應對多變的戰局。

相比人類,“絕藝 LuckyJ“在麻将遊戲中,擁有更加平衡的政策,對局勢的計算更精确,其中包括打每張牌的期望收益、未來可能胡哪些番型等等,通過這樣的“政策”訓練,也為AI走入更多行業打下了基礎。

天鳳平台開發公司C-EGG的CEO角田真吾表示:“這是麻将AI的又一次突破,LuckyJ進一步拓寬了麻将AI的能力邊界。令人感到興奮的是,在特上房包括人類玩家在内的對戰1000局以上的所有玩家中,LuckJ的穩定段位排名第一”。

值得一提的是,“絕藝LuckyJ“在國标麻将中也有亮眼表現,線上下職業選手邀請賽中擊敗六位職業選手,成為首個戰勝國标麻将頂尖職業選手的麻将AI。

當AI學會了打麻将,人類高手們還能“吃胡”嗎?

決策與生成是目前人工智能發展的兩大主線,也是研究通用人工智能的必由之路。在模拟真實世界的虛拟遊戲中,AI學會快速分析、決策與行動,就能執行更困難複雜的任務并發揮更大作用。從 2017 年開始,騰訊AI Lab自研的絕藝、絕悟兩款決策AI,借助棋牌、MOBA等多類遊戲場景,探索用AI解決現實中的複雜問題。

南方+記者 葉丹

【作者】 葉丹

【來源】 南方報業傳媒集團南方+用戶端