99色在线视频-99色综合-99视频精品全国免费-99视频全部免费-能在线观看的一区二区三区-嗯!啊!使劲用力在线观看

這次 AI 突破的是麻將!

人工智能
2019
09/02
17:07
雷鋒網
分享
評論

來源:雷鋒網 作者:camel

圍棋 AlphaGo 點燃的 AI 之火漸漸降溫之際,微軟今天上午發布了他們在麻將游戲中取得的重大突破:麻將 AI "Suphx" 在國際知名專業麻將平臺 " 天鳳 " 上榮升十段。

" 十段 " 是什么概念呢?天鳳平臺上,全球范圍內現役十段的人類選手僅十幾位。Suphx 取得 " 十段 " 的成績,大致可相當于圍棋中 AlphaGo 挑戰勝了李世石。

這是一個不凡的成績。

從 AI 這門學科誕生之日起,游戲 AI 始終與 AI 研究進展相生相伴,跳棋、雙陸棋、國際象棋和圍棋,都曾先后推動了 AI 的發展。

圖:MarionTinsley 與 Chinook 對戰(左);GarryKasparov 與 Deep Blue 對戰(右)

這些棋類游戲有共同之處是,1)它們均有一個簡單而清晰的規則,有清晰的勝負判定條件和行動準則;2)博弈雙方能夠查看所有游戲狀態;3)在公眾認知中,掌握和精通這些棋牌類游戲往往在一定程度上是人類智力的彰顯。

相比以上這幾種棋類游戲,麻將卻是規則復雜、勝負判定繁瑣、信息非完全公開的,且更重要的是在公眾認知中麻將更多地有 " 運氣 " 和 " 憑直覺 " 的成分。

因此麻將 AI 若能取得超越人類的水平,可以期待它將帶來新的一波熱潮。

一、Suphx 的晉級之路

" 天鳳 " 是日本(不要問為什么不是中國四川)的一個在線麻將競技平臺,創立于 2006 年。因其完善的競技規則、專業的段位體系,很快便成為業界知名的高水平專業麻將平臺,受到職業麻將界的廣泛承認。

圖:天風平臺 logo,by tenhou

我們知道,麻將的輸贏與圍棋不一樣,并不僅僅取決于玩家的實力,還取決于抓到的手牌等,如果一個人運氣比較差,拿到一手爛牌,可能再強的實力也只能是輸得不那么難看。所以,麻將不像圍棋一樣,不能單靠一輪對弈,而是要通過多輪(甚至上千輪)對弈才能看出一個雀士的實力。

天鳳的評價制度,采用 Rating 制和段位制并行的制度。剛剛注冊時等級從 " 新人 " 開始,點數 ( pt ) 會根據游戲的情況增減,并最終決定雀士的升段(升級)和降段(降級)。玩家的段位越高,在比賽中排位第四受到的點數懲罰也越多,點數扣除到一定程度會導致降段。按照這種規則,如果雀士的實力水平一定的話,自己的等級也會相對地穩定在某一個段位上。

根據段位,游戲者可以使用的桌也會發生變化。天鳳平臺為高水平麻將玩家提供兩種競技房間:" 特上房 " 對四段以上所有玩家免費開放,允許 AI 參與游戲,目前所有玩家在此房間的最高段位是十段;" 鳳凰房 " 僅對七段以上的人類付費玩家開放,目前不允許 AI 參與游戲,在該房間能夠達到的最高段位是十一段,稱為 " 天鳳位 "。

自天鳳平臺在 2006 年推出以來,全球范圍內達到四人麻將(四麻)天鳳位的雀士也不過 13 人,曾經達到過十段的玩家約有 180 位,而現役十段的人類玩家僅有十幾位。

微軟亞洲研究院開發的麻將 AI Suphx 在今年 3 月份開始登錄天鳳平臺,經過近三個多月、與人類玩家展開了 5000 余場四麻對局后,6 月份 Suphx 成功晉級天鳳十段,也是首個晉級十段的 AI 系統。

圖:天鳳平臺 " 天鳳位 " 和 " 現役十段 " 名單

在 5000 余場對局中,Suphx 的穩定段位超過了 8.7。這樣的穩定段位是一個極高的數字。

據統計,天鳳平臺的所有頂級人類玩家在取得十段后,在 " 特上房 " 共參加過近萬場比賽,整體穩定段位為 7.4。與所有取得過天鳳十段的頂級人類玩家相比,Suphx 在特上房的穩定水平要領先約 1.3 個段位。

此前,天鳳平臺還活躍著另外兩個麻將 AI 系統,由東京大學在 2015 年開發的 " 爆打 " 和 Dwango 公司于 2018 年開發的基于深度學習模型的 "NAGA25",二者的穩定段位均在 6.5 左右。

事實上,在晉級十段之前,Suphx 很長一段時間穩定在九段,其獨特的打牌風格在麻將領域刮起了不小的 "AI 風 ",很多麻友都嘗試從中學習新的打牌方式,并且在中國,很多麻友親切地稱她為 " 蘇菲老師 "、" 蘇菲姐姐 "。

圖:bilibili 網站 Suphx 牌局解析下用戶留言

此外,麻將領域神一級存在、被天鳳平臺冠為 "God of mahjong" 的朝倉康心(天鳳 ID:ASAPIN)也曾表示:" 我看了 Suphx 的比賽,我感覺它好像比我更強大!"

二、麻將 AI 難在哪里?

為什么說麻將 AI 戰勝人類,是游戲 AI 的又一次重大突破呢?因為麻將 AI 相比于棋類游戲(例如國際象棋、圍棋等)更難。

這里需要解釋的一個問題是,游戲的復雜度與游戲的難度并不完全等價,游戲難度除了與游戲本身的復雜度有關以外,還與戰略等多種要素相關,也就是說,數學上更復雜的游戲,玩起來不一定更難。

一般來說,我們可以根據信息的暴露程度可以將游戲分為兩大類:完美信息游戲(Perfect-Information Games)和非完美信息游戲(Imperfect-InformationGames)。如果所有的參與者,在游戲的任何階段都可以訪問所有關于游戲(包括對手)狀態及其可能延續的信息,那么稱這類游戲為完美信息游戲;否則稱為非完美信息游戲。

圍棋、象棋等棋類游戲,對局雙方可以看到局面的所有信息,屬于完美信息游戲;而撲克、橋牌、麻將等游戲,雖然每個參與者都能看到對手打過的牌,但并不知道對手的手牌和游戲的底牌,也就是說各個對局者所掌握的信息是不對稱的,因此屬于不完美信息游戲。

完美信息游戲和非完美信息游戲難度的衡量指標通常是有區別的。

對于完美信息游戲,通常游戲的復雜度就決定了難度,我們可以用狀態空間復雜度(State-Space Complexity)和游戲樹復雜度(Game-TreeComplexity)對其難度進行衡量:

圖:完美信息游戲的狀態空間復雜度和游戲樹復雜度

可以看出,對于傳統的完美信息棋類游戲中,圍棋不管從狀態空間復雜度,還是游戲樹復雜度上都遠遠領先其他棋類游戲。2017 年,AlphaZero 利用 MCTS 和深度強化學習,成功解決了包括圍棋在內的多個完美信息游戲。我們也有理由相信,只要算力足夠,對于更加復雜的棋類游戲,我們都能通過已有的方法得到解決。

而另一方面,對于非完美信息游戲,隱藏信息對于游戲的難度影響很大。例如麻將,參與者只能看到他手中的 13 張牌的信息,對于另外三家的手牌以及剩余的底牌則完全不知。由于這種信息的不完全、非對稱性,對于參與者來說許多不同的游戲狀態看起來是無法區分的。

顯然,對于非完美信息游戲而言,合理的游戲策略應該建立在信息集而不是游戲狀態之上。相應地,當我們衡量非完美信息游戲的難度的時候,也應該依據信息集的數目,而不是游戲狀態空間的大小。信息集的數目通常小于狀態空間的數目。

對于完美信息游戲,由于所有信息都是已知的,每個信息集只包含一個游戲狀態,因此它的信息集數目與狀態空間數目是相等的。

除了信息集的數目,還有一個重要的指標:信息集的平均大小,即在信息集中平均有多少不可區分的游戲狀態。

按照這兩個標準來衡量非完美信息游戲的難度:

圖:非完美信息游戲的信息集數目和信息集平均大小

2017 年卡耐基梅隆大學和阿爾伯特大學相繼發布了 Libratus 和 DeepStack,在兩人無限注德州撲克上成功擊敗了世界頂級人類玩家。

我們可以以信息集數目和信息集平均大小為準則,來對比像完美信息游戲和非完美信息游戲:

圖:圍棋、德州撲克、橋牌和麻將的信息集數目和信息集平均大小對比

從圖中可以看出,圍棋和德州撲克的信息集平均大小遠遠小于橋牌和麻將。目前的 AI 在圍棋和德州撲克上的成功很大程度依賴于搜索算法,因為搜索可以最大程度地發揮計算機的計算優勢。但是因為巨大的信息集平均大小帶來的環境不確定性,傳統的搜索算法在橋牌和麻將面前很難發揮同樣的功效。

圖:游戲 AI 發展歷史

如果把過去的游戲 AI 的研究看做 " 一維延展 "(信息集數目)的話,那么德州撲克則是向二維方向(信息集平均大小)的初始嘗試。但整個二維平面還有更廣闊的的空間需要探索,這需要我們發明全新的方法論,同時這也將成為游戲 AI 的一個主要研究方向。

三、技術詳解

具體到麻將這個游戲。

一方面,136 張麻將牌的排列組合可能性非常多,再加上打牌過程中 4 位玩家出牌的順序并不是固定的(例如碰杠等),導致游戲樹不僅不規則而且還是動態變化。這些特點使得麻將 AI 很難使用 AlphaGo 那樣的蒙特卡洛樹搜索算法。

其次是非完美信息問題。麻將中每個玩家除了手中的 13 張牌和已經打出的牌外,其他玩家手中的牌和剩余的底牌都是未知的(最多可以有超過 120 張未知的牌),由于隱藏信息過多導致游戲樹的寬度非常大,樹搜索算法基本不可行。

另外還需要注意的就是麻將本身的獎勵機制,畢竟這才是評判勝負的標準。對于日本麻將而言,一輪游戲共包含 8 局,最后根據 8 局得分總和進行排名,來形成最終影響段位的點數獎懲。因此有時麻將高手會策略性輸牌,以保證自己在最終結算時獲得最大的點數獎勵。這為構建高超的麻將 AI 策略帶來了額外的挑戰,AI 需要審時度勢,把握進攻與防守的時機。

微軟亞洲研究院的幾位研究員針對麻將的這些特點,將整個訓練過程分為三個階段。

首先是 " 初始化 " 階段,本質上就是用專家數據(天鳳平臺提供的一些公開數據)做有監督學習,得到一個初始模型。

圖:先知教練,即利用隱藏信息指導 AI 模型訓練方向。

隨后在這個初始模型基礎上用自我博弈的方式進行強化學習。在這個階段,為了克服非完美信息博弈的問題,研究者在訓練階段利用不可見的一些隱藏信息來引導 AI 模型的訓練方向,讓它的學習路徑更加清晰、更加接近完美信息意義下的最優路徑,從而倒逼 AI 模型更加深入地理解可見信息,從中找到有效的決策依據。他們稱之為 " 先知教練 " 技術。

與此同時,對于麻將復雜的牌面表達和計分機制,研究團隊還利用 " 全盤預測 " 技術搭建起每輪比賽和 8 輪過后的終盤結果之間的橋梁。這個預測器通過精巧的設計,可以理解每輪比賽對終盤的不同貢獻,從而將終盤的獎勵信號合理地分配回每一輪比賽之中,以便對自我博弈的過程進行更加直接而有效的指導,并使得 Suphx 可以學會一些具有大局觀的高級技巧。

為了應對巨大的狀態空間,研究團隊引入全新的機制對探索過程的多樣性進行動態調控,讓 Suphx 可以比傳統算法更加充分地試探牌局狀態的不同可能。另一方面,一旦某一輪的底牌給定,其狀態子空間會大幅縮小,所以研究團隊讓 Suphx 在推理階段根據本輪的牌局來動態調整策略,對縮小了的狀態子空間進行更有針對性的探索,從而更好地根據本輪牌局的演進做出自適應的決策。

第三個階段則是在線比賽,通過不斷參與到與人類玩家的對局中,從而不斷得到自我更新和提高。

自今年 3 月進入天鳳平臺以來,Suphx 在與人類玩家的對局中學得非???。目前,在平衡攻擊和防御方面,Suphx 表現出了比許多頂尖人類玩家更明智的策略,能夠戰略性地完成短期損失與長期收益之間的權衡,并根據已有的模糊信息進行快速決策。

四、開拓游戲 AI 二次元

盡管目前來看 Suphx 在天鳳平臺上只是達到十段水平,距離 " 天鳳位 " 還有一定距離,但我們可以相信一旦天鳳平臺開放權限,Suphx 達到并超越 " 天鳳位 " 的諸位玩家將指日可待,這也將成為繼 AlphaGo 之后再次挑戰人類認知的歷史事件。

不過它的意義并不僅在于 " 震驚 ",更在于對研究和應用方向的開拓。

正如前面提到的,麻將 AI 的研究為游戲 AI 在 " 第二維度 " 開辟了新的方向,并進行了極大地拓展。我們可以期待未來在 " 第二維度 " 上將會有更多的研究出現。甚至為了更進一步拓展研究范圍,可能會有一些研究人員發明出具有更大信息集數目和更大信息集平均大小的新游戲來。這不是不可能。

此外,我們所生活的世界也正是一個非完美信息的決策過程,麻將游戲中復雜的推理策略和帶有隨機性的博弈過程,比完美信息游戲更加貼近人類復雜的真實生活。我們同樣可以期待,對非完美信息游戲的研究,將有助于我們開發出適用于真實生活場景的更加 " 智能 " 的 AI 系統。

當然,最直接的意義還在于,Suphx" 蘇菲老師 " 在牌風上已經自成一派,創造了許多新的策略和打法,這將直接改變麻將社區的生態。許多麻將愛好者已經開始學習 Suphx 的打法來提升和豐富自己的麻將技巧,這其中包括天鳳位的大神太くないお,他是世界上第 15 位三人麻將天鳳位獲得者,也是第一位在四人麻將和三人麻將中均取得天鳳位的頂級玩家。他表示:" 我已經看了 300 多場 Suphx 的比賽,我甚至不再觀看人類玩家的比賽了。我從 Suphx 身上學到很多新技術,它們對于我的三人麻將打法有著非常大的啟發意義。"

期待 " 蘇菲老師 " 晉升天鳳位。雷鋒網報道。

相關閱讀

[ 1 ] 游戲 AI 的緣起與進化,https://mp.weixin.qq.com/s/p1XYJIqVrUUvSxRQcxBkoA

[ 2 ] 哪類游戲 AI 難度更高?用數學方法來分析一下,https://mp.weixin.qq.com/s/ZIlhWK19qXFsb3jOQaGGfw

[ 3 ] 游戲 AI 挑戰進階,即時策略游戲和非完美信息游戲成為熱點,https://mp.weixin.qq.com/s/cB0zczZ5ZkqaNvNw2KDshw

THE END
廣告、內容合作請點擊這里 尋求合作
ai
免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表砍柴網的觀點和立場。

相關熱點

據小米MIUI官方,小米AI實驗室AutoML團隊就自動化神經架構搜索(NAS)方面取得的成果,在近日首度接受了媒體公開采訪。
人工智能
7月25日消息,阿里巴巴旗下半導體公司平頭哥正式發布玄鐵910(XuanTie910),稱玄鐵910目前業界性能最強的一款RISC-V處理器。
業界
AI+5G+IoT的組合,雖然打開了語音芯片的新想象力。但是在這個邏輯里,未來能占據廣泛市場的芯片模式,絕不是今天智能音箱芯片的模樣。語音芯片本身,變化才剛剛開始。
人工智能
困難重重的AI“辯味”。
人工智能
今天凌晨,一年一度的蘋果WWDC 19全球開發者大會在美國圣何塞舉辦,蘋果更新了自家系統平臺macOS、iOS、watchOS、tvOS以及今年剛剛加入的iPadOS。
業界

相關推薦

1
3
主站蜘蛛池模板: 操美女在线观看 | 亚洲第一区视频在线观看 | 天天爱天天做天天爽天天躁 | 欧美人体一区二区三区 | 人人干人人上 | 黄色综合网 | 五月天天 | 日本免费新一区二区三区 | 色综合网址 | 蜜桃欧美性大片 | 国产自产在线 | 国产亚洲精品福利在线 | 青青国产成人久久91 | 国产精品亚洲欧美日韩一区在线 | 成年黄网站在线观看免费 | 国产精品视频大全 | 欧美视频在线免费播放 | 日本精品中文字幕在线播放 | 黄片毛片免费 | 狼人香蕉网 | 国产dvd毛片在线视频 | 欧洲成人r片在线观看 | 成人激情视频网 | 亚洲国产精品综合欧美 | 美女一级毛片免费不卡视频 | 午夜a视频| 国产欧美视频在线观看 | 天天射美女 | 大黄香蕉视频 | 黄色毛片免费网站 | 亚洲欧美中文日韩在线v日本 | 久久精品国产亚洲精品2020 | 伊人www | 中文字幕第38页永久乱码 | 天天操夜夜摸 | 国产日韩欧美另类重口在线观看 | 中国高清videossex免费 | 亚洲激情视频在线播放 | 五月婷婷激情综合 | 九九99视频在线观看视频观看 | 91成人高清在线播放 |