AlphaGo給圍棋帶來(lái)了新方法,它背后主要的方法是Value Networks(價(jià)值網(wǎng)絡(luò))和Policy Networks(策略網(wǎng)絡(luò)),其中Value Networks評(píng)估棋盤(pán)位置,Policy Networks選擇下棋步法。這些神經(jīng)網(wǎng)絡(luò)模型通過(guò)一種新的方法訓(xùn)練,結(jié)合人類(lèi)專(zhuān)家比賽中學(xué)到的監(jiān)督學(xué)習(xí),以及在自己和自己下棋(Self-Play)中學(xué)到強(qiáng)化學(xué)習(xí)。這不需要任何前瞻式的Lookahead Search,神經(jīng)網(wǎng)絡(luò)玩圍棋游戲的能力,就達(dá)到了最先進(jìn)的蒙特卡洛樹(shù)搜索算法的級(jí)別(這種算法模擬了上千種隨機(jī)自己和自己下棋的結(jié)果)。我們也引入了一種新搜索算法,這種算法將蒙特卡洛模擬和價(jià)值、策略網(wǎng)絡(luò)結(jié)合起來(lái)。
通過(guò)這種搜索算法,AlphaGo在和其他圍棋程序比賽的勝率達(dá)到了99.8%,并以5:0的比分擊敗了人類(lèi)歐洲圍棋冠軍樊麾。這是電腦程序第一次在全尺寸(19X19)的棋盤(pán)上擊敗了人類(lèi)專(zhuān)業(yè)選手,這一成果過(guò)去認(rèn)為至少需要10年才能實(shí)現(xiàn)。
歐洲圍棋冠軍樊麾:2005 年樊麾被正式聘任為法國(guó)圍棋隊(duì)和少年圍棋隊(duì)的總教練,那一年的他才24歲。他是2013、2014和2015歐洲圍棋賽冠軍。
通過(guò)將Value Networks、Policy Networks與樹(shù)搜索結(jié)合起來(lái),AlphaGo達(dá)到了專(zhuān)業(yè)圍棋水準(zhǔn),讓我們看到了希望:在其他看起來(lái)無(wú)法完成的領(lǐng)域中,AI也可以達(dá)到人類(lèi)級(jí)別的表現(xiàn)!
論文簡(jiǎn)介
所有完全信息(perfect information)博弈都有一個(gè)最優(yōu)值函數(shù)(optimal value function),它決定了在所有參與博弈的玩家都做出了完美表現(xiàn)的情況下,博弈的結(jié)果是什么:無(wú)論你在棋盤(pán)的哪個(gè)位置落子(或者說(shuō)是狀態(tài)s)。這些博弈游戲是可能通過(guò)在含有大約
個(gè)可能行動(dòng)序列(其中b是博弈的寬度,也就是在每個(gè)位置能夠移動(dòng)的步數(shù),而d是博弈的深度)的搜索樹(shù)(search tree)上反復(fù)計(jì)算最優(yōu)值函數(shù)來(lái)解決的。 在象棋(
)和圍棋之類(lèi)(
)的大型博弈游戲中,窮盡地搜索是不合適的,但是有效搜索空間是可以通過(guò)2種普遍規(guī)則得到降低的。
首先,搜索的深度可能通過(guò)位置估計(jì)(position evaluation)來(lái)降低:在狀態(tài)s時(shí)截取搜索樹(shù),將隨后的子樹(shù)部分(subtree)替換為根據(jù)狀態(tài)s來(lái)預(yù)測(cè)結(jié)果的近似的值函數(shù)。這種方法使程序在象棋、跳棋、翻轉(zhuǎn)棋(Othello)的游戲中表現(xiàn)超越了人類(lèi),但人們認(rèn)為它無(wú)法應(yīng)用于圍棋,因?yàn)閲鍢O其復(fù)雜。其次,搜索的寬度可能通過(guò)從策略概率
——一種在位置s時(shí)表示出所有可能的行動(dòng)的概率分布——中抽樣行動(dòng)來(lái)降低。
比如,蒙特卡洛法通過(guò)從策略概率p中為博弈游戲雙方抽樣長(zhǎng)序列的行動(dòng)來(lái)讓搜索達(dá)到深度的極限、沒(méi)有任何分支樹(shù)。將這些模擬結(jié)果進(jìn)行平均,能夠提供有效的位置估計(jì),讓程序在西洋雙陸棋(backgammon)和拼字棋(Scrabble)的游戲中展現(xiàn)出超越人類(lèi)的表現(xiàn),在圍棋方面也能達(dá)到低級(jí)業(yè)余愛(ài)好者水平。
譯者注:圍棋為何如此復(fù)雜?
圍棋有3^361 種局面,而可觀(guān)測(cè)到的宇宙,原子數(shù)量才10^80。
圍棋難的地方在于它的估值函數(shù)非常不平滑,差一個(gè)子盤(pán)面就可能天翻地覆,同時(shí)狀態(tài)空間大,也沒(méi)有全局的結(jié)構(gòu)。這兩點(diǎn)加起來(lái),迫使目前計(jì)算機(jī)只能用窮舉法并且因此進(jìn)展緩慢。但人能下得好,能在幾百個(gè)選擇中知道哪幾個(gè)位置值得考慮,說(shuō)明它的估值函數(shù)是有規(guī)律的。這些規(guī)律遠(yuǎn)遠(yuǎn)不是幾條簡(jiǎn)單公式所能概括,但所需的信息量還是要比狀態(tài)空間本身的數(shù)目要少得多。一句話(huà),窮舉狀態(tài)并不是最終目標(biāo),就算以后超超級(jí)計(jì)算機(jī)能做到這一點(diǎn),也不能說(shuō)解決了人工智能。只有找到能學(xué)出規(guī)律的學(xué)習(xí)算法,才是解決問(wèn)題的根本手段。By 田淵棟
蒙特卡洛樹(shù)搜索(MCTS)使用蒙特卡洛算法的模擬結(jié)果來(lái)估算一個(gè)搜索樹(shù)中每一個(gè)狀態(tài)(state)的值。隨著進(jìn)行了越來(lái)越多的模擬,搜索樹(shù)會(huì)變得越來(lái)越龐大,而相關(guān)的值也會(huì)變得越來(lái)越精確。通過(guò)選取值更高的子樹(shù),用于選擇行動(dòng)的策略概率在搜索的過(guò)程中會(huì)一直隨著時(shí)間而有所改進(jìn)。目前最強(qiáng)大的圍棋程序都是基于蒙特卡洛樹(shù)搜索的,通過(guò)配置經(jīng)訓(xùn)練后用于預(yù)測(cè)人類(lèi)棋手行動(dòng)的策略概率進(jìn)行增強(qiáng)。這些策略概率用于將搜索范圍縮小到一組概率很高的行動(dòng)、以及在模擬中抽樣行動(dòng)。這種方法已經(jīng)取得了高級(jí)業(yè)余愛(ài)好者水平的表現(xiàn)。然而,先前的工作僅局限于基于輸入特征(input features)的線(xiàn)性組合的粗淺策略概率和值函數(shù)。
近期,深度卷積神經(jīng)網(wǎng)絡(luò)在視覺(jué)領(lǐng)域有很多前所未有的表現(xiàn):例如,圖像分類(lèi)、臉部識(shí)別、玩雅特麗游戲等。他們使用很多層神經(jīng)元,每個(gè)被安排在交疊的區(qū)塊(Tiles)中來(lái)構(gòu)建越來(lái)越抽象和本地化的圖片表示。我們?cè)趪逵螒蛑胁捎昧艘粋€(gè)相似的構(gòu)架。我們用19X19的圖像來(lái)傳遞棋盤(pán)位置,使用卷積層來(lái)構(gòu)建位置的表示。我們使用這些神經(jīng)網(wǎng)絡(luò)來(lái)減少搜索樹(shù)的有效深度和寬度(breadth):使用一個(gè)Value Networks(價(jià)值網(wǎng)絡(luò))來(lái)估算位置,使用Policy Network(策略網(wǎng)絡(luò))來(lái)對(duì)動(dòng)作進(jìn)行抽樣。
我們使用由若干機(jī)器學(xué)習(xí)階段(Stages)構(gòu)成的流水線(xiàn)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)(例1)。我們直接使用人類(lèi)專(zhuān)家的步法來(lái)訓(xùn)練監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)pσ。這為快速而有效的學(xué)習(xí)更新(Learning Updates)提供了高質(zhì)量的梯度和即時(shí)反饋。與之前的工作相似,我們也訓(xùn)練了一個(gè)快速策略網(wǎng)絡(luò)pπ,它可以快速地在模擬中對(duì)動(dòng)作進(jìn)行抽樣。接下來(lái),我們訓(xùn)練了強(qiáng)化學(xué)習(xí)(RL)策略網(wǎng)絡(luò)pρ,這個(gè)網(wǎng)絡(luò)通過(guò)優(yōu)化“自己對(duì)抗自己”的最終結(jié)果來(lái)改善監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)。這將策略調(diào)整到贏棋這一正確目標(biāo)上,而非讓預(yù)測(cè)精確率最大。最后,我們訓(xùn)練了價(jià)值網(wǎng)絡(luò)vθ,它可以預(yù)測(cè)出RL策略網(wǎng)絡(luò)通過(guò)模擬“自己對(duì)抗自己”而得出的策略中哪種是最佳策略。我們的程序AlphaGo高效地結(jié)合將策略和價(jià)值網(wǎng)絡(luò)與蒙特卡洛樹(shù)搜索結(jié)合起來(lái)。
實(shí)現(xiàn)過(guò)程
為了評(píng)估AlphaGo,我們?cè)谥T多AlphaGo變體和一些其他圍棋程序中進(jìn)行了內(nèi)部比賽,這其中包括了最強(qiáng)大的商業(yè)程序Crazy Stone和Zen,還有最大的開(kāi)源程序Pachi和Fuego。所有這些程序都是基于高性能MCTS算法。此外,比賽也包含了開(kāi)源程序GnuGo,這個(gè)程序使用了在MCTS之前出現(xiàn)的最先進(jìn)的方法。規(guī)定所有程序每次落子有5秒的計(jì)算時(shí)間。
比賽的結(jié)果表明單機(jī)AlphaGo領(lǐng)先任何之前的圍棋程序很多段位,取得了495局比賽中494次勝利的成績(jī)(99.8%)。為了給AlphaGo提出更大的挑戰(zhàn),我們也讓AlphaGo讓四子(讓子,即對(duì)手自由落子)來(lái)比賽;AlphaGo讓子競(jìng)賽中對(duì)陣Crazy Stone、Zen和Pachi時(shí)分別取得了77%、86%和99%的成績(jī)。分布式AlphaGo明顯更強(qiáng)大,對(duì)陣單機(jī)AlphaGo取得77%的成績(jī),完勝其他程序。
詳解:AlphaGo 如何在對(duì)弈中選擇步法
黑色棋子代表AlphaGo正處于下棋狀態(tài),對(duì)于下面的每一個(gè)統(tǒng)計(jì),橙色圓圈代表的是最大值所處的位置。
a.用價(jià)值網(wǎng)絡(luò)(value network)估測(cè)根節(jié)點(diǎn)s處的所有子節(jié)點(diǎn)s’,展示了幾個(gè)最大的獲勝概率估計(jì)值。
b.計(jì)算樹(shù)中從根節(jié)點(diǎn)s處伸出來(lái)的邊(其中每條邊用(s,a)來(lái)表示)的動(dòng)作值Q(s,a),僅當(dāng)(λ=0)時(shí),取價(jià)值網(wǎng)絡(luò)估值的平均值。
c.計(jì)算了根位置處伸出的邊的動(dòng)作值Q(s,a),僅當(dāng)(λ=1)時(shí),取模擬估計(jì)值的平均值。
d.直接從SL策略網(wǎng)絡(luò)中得出的落子概率,(如果這個(gè)概率高于0.1%)則結(jié)果以百分比形式表示出來(lái)。
e.計(jì)算了在模擬過(guò)程中,從根節(jié)點(diǎn)選出的某個(gè)動(dòng)作的頻率百分比。
f.表示來(lái)自于AlphaGo搜索樹(shù)的主要變異性(principal variation)(最大訪(fǎng)問(wèn)數(shù)路徑),移動(dòng)路徑以序號(hào)形式呈現(xiàn)出來(lái)。
紅色圓圈表示AlphaGo選擇的步法;白方格表示樊麾作出的回應(yīng);樊麾賽后評(píng)論說(shuō):他特別欣賞AlphaGo預(yù)測(cè)的(標(biāo)記為1)的步法。
AlphaGo與樊麾的比賽結(jié)果
以編號(hào)形式展示了AlphaGo和樊麾進(jìn)行圍棋比賽時(shí)各自的落子順序。棋盤(pán)下方成對(duì)放置的棋子表示了相同交叉點(diǎn)處的重復(fù)落子。每對(duì)中的第一個(gè)棋子上的數(shù)字表示了何時(shí)發(fā)生重復(fù)落子,而落子位置由第二個(gè)棋子上的數(shù)字決定。
第一盤(pán):AlphaGo 以 2 目半獲勝
第二盤(pán):AlphaGo 中盤(pán)勝
第三盤(pán):AlphaGo 中盤(pán)勝
第四盤(pán):AlphaGo 中盤(pán)勝
第五盤(pán):AlphaGo 中盤(pán)勝
最終,我們?cè)u(píng)估了分布式AlphaGo與樊麾的比賽,他是專(zhuān)業(yè)2段位選手,2013、14和15年歐洲圍棋賽冠軍。在2015年10月5日到9日,AlphaGo和樊麾正式比賽了5局。AlphaGo全部獲勝。這是第一次一個(gè)電腦圍棋程序,在沒(méi)有讓子、全尺寸(19X19)的情況下?lián)魯∪祟?lèi)專(zhuān)業(yè)選手,這一成果過(guò)去認(rèn)為至少需要 10 年才能實(shí)現(xiàn)。
討論
在我們的工作中,我們開(kāi)發(fā)了圍棋程序,它將深度神經(jīng)網(wǎng)絡(luò)和樹(shù)搜索結(jié)合起來(lái)。這個(gè)程序可以達(dá)到最強(qiáng)的人類(lèi)選手的表現(xiàn),因此完成了一個(gè)人工智能“偉大挑戰(zhàn)”。我們也為圍棋首創(chuàng)了高效步法選擇和位置評(píng)估函數(shù),這是通過(guò)具有創(chuàng)新性地將監(jiān)督和強(qiáng)化學(xué)習(xí)兩種方法結(jié)合起來(lái)從而訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。我們也引入了一個(gè)新搜索算法,這一算法成功的整合了神經(jīng)網(wǎng)絡(luò)評(píng)估和蒙特卡洛樹(shù)模擬算法。我們的程序AlphaGo在高性能樹(shù)搜索引擎中從一定規(guī)模上將這些成分整合在一起。
在和樊麾的比賽中,AlphaGo在評(píng)估位置方面要比深藍(lán)與Kasparov4比賽時(shí)所評(píng)估的位置少幾千倍,這是由于我們使用了策略網(wǎng)絡(luò)更智能地選擇那些位置,還使用了價(jià)值網(wǎng)絡(luò)更精確地評(píng)估它們,而價(jià)值網(wǎng)絡(luò)更接近人類(lèi)的下棋方式。另外,深藍(lán)依靠手工設(shè)計(jì)評(píng)估方程,而AlphaGo的神經(jīng)網(wǎng)絡(luò)是直接通過(guò)純比賽數(shù)據(jù)訓(xùn)練,也使用了通用監(jiān)督和強(qiáng)化學(xué)習(xí)方法。
圍棋代表了很多人工智能所面臨的困難:具有挑戰(zhàn)性的決策制定任務(wù)、難以破解的查找空間問(wèn)題和優(yōu)化解決方案如此復(fù)雜以至于用一個(gè)策略或價(jià)值函數(shù)幾乎無(wú)法直接得出。之前在電腦圍棋方面的主要突破是引入MCTS,這導(dǎo)致了很多其他領(lǐng)域的相應(yīng)進(jìn)步:例如,通用博弈,經(jīng)典的計(jì)劃問(wèn)題,計(jì)劃只有部分可觀(guān)測(cè)問(wèn)題、日程安排問(wèn)題和約束滿(mǎn)足問(wèn)題。通過(guò)將策略和價(jià)值網(wǎng)絡(luò)與樹(shù)搜索結(jié)合起來(lái),AlphaGo終于達(dá)到了專(zhuān)業(yè)圍棋水準(zhǔn),讓我們看到了希望:在其他看起來(lái)無(wú)法完成的領(lǐng)域中,AI也可以達(dá)到人類(lèi)級(jí)別的表現(xiàn)。
專(zhuān)家評(píng)論
微軟亞洲工程院院長(zhǎng)劉震在新智元機(jī)器學(xué)習(xí)群里的評(píng)論:我認(rèn)為AI技術(shù)征服人類(lèi)不需要太長(zhǎng)時(shí)間,可能就發(fā)生在今年,AI技術(shù)征服人類(lèi)。Google的AlphaGo在圍棋比賽中以5:0打敗了歐洲圍棋冠軍。下一次比賽:是在3月與李世石九段的圍棋比賽,為此谷歌拿出100萬(wàn)美元作為這次比賽的獎(jiǎng)勵(lì)。
I thought AI won't beat human in Go for a long time... It may be this year! Google's AlphaGo beats European professional champion 5:0; next on deck: 李世石九段 in March for $1M Google prize.
陳雷:萬(wàn)同科技CEO,留德MBA,連續(xù)創(chuàng)業(yè)者,現(xiàn)致力于人工智能+圍棋的互聯(lián)網(wǎng)服務(wù),圍棋網(wǎng)絡(luò)9段。
對(duì)于人而言,圍棋競(jìng)技是智力、心理和靈性三個(gè)維度的綜合比拼。根據(jù)Deep Mind現(xiàn)有的計(jì)算機(jī)圍棋解決方案描述,可以判斷程序在智力維度取得了很大的進(jìn)展。在智力方面,計(jì)算機(jī)圍棋研究領(lǐng)域中要解決的核心問(wèn)題是如何對(duì)盤(pán)面做形勢(shì)判斷,即專(zhuān)家評(píng)估系統(tǒng)的解決方案,專(zhuān)家評(píng)估系統(tǒng)能力的顯著提高會(huì)導(dǎo)致圍棋AI水準(zhǔn)的本質(zhì)提升。Deep Mind的計(jì)算機(jī)圍棋解決方案其實(shí)可歸結(jié)為精確的專(zhuān)家評(píng)估系統(tǒng)(value network)、基于海量數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)(policy network),及傳統(tǒng)的人工智能方法蒙特卡洛樹(shù)搜索的組合。有理由相信這個(gè)程序已經(jīng)達(dá)到與標(biāo)準(zhǔn)業(yè)余6段棋手或中國(guó)職業(yè)棋手等級(jí)分200位之后的棋手實(shí)力相當(dāng)?shù)牡夭?。從?jīng)驗(yàn)上看,由于缺少心理和靈性維度的突破,AlphaGo戰(zhàn)勝人類(lèi)最頂尖的圍棋高手尚需時(shí)日。
關(guān)于 Google DeepMind
Google DeepMind 是一家英國(guó)人工智能公司,創(chuàng)立于2010年,名為DeepMind Technologies,2014年被谷歌收購(gòu),更名為Google DeepMind。
這家公司由Demis Hassabis、Shane Legg和Mustafa Suleyman創(chuàng)立。公司目標(biāo)是“解決智能”,他們嘗試通過(guò)合并機(jī)器學(xué)習(xí)最好的方法和系統(tǒng)神經(jīng)科學(xué)來(lái)構(gòu)建強(qiáng)大的通用學(xué)習(xí)算法。他們?cè)噲D形式化智能,進(jìn)而不僅在機(jī)器上實(shí)現(xiàn)它,還要理解人類(lèi)大腦。當(dāng)前公司的焦點(diǎn)在于研究能玩游戲的電腦系統(tǒng),研究的游戲范圍很廣,從策略型游戲圍棋到電玩游戲。
創(chuàng)始人介紹
Demis Hassabis,人工智能研究人員,神經(jīng)科學(xué)家,電腦游戲設(shè)計(jì)者,畢業(yè)于劍橋大學(xué),并在倫敦大學(xué)獲得PhD,研究興趣:機(jī)器學(xué)習(xí)、神經(jīng)科學(xué)。
Shane Legg,計(jì)算學(xué)習(xí)研究人員,DeepMind創(chuàng)始人,研究興趣:人工智能、神經(jīng)網(wǎng)絡(luò)、人工進(jìn)化、強(qiáng)化學(xué)習(xí)和學(xué)習(xí)理論。
Mustafa Suleyman,英國(guó)企業(yè)家,DeepMind Technologies的共同創(chuàng)始人和產(chǎn)品運(yùn)營(yíng)主管,同時(shí)也是Reos Partners的共同創(chuàng)始人,被谷歌收購(gòu)后,他成為Google DeepMind的應(yīng)用AI部門(mén)主管。
來(lái)源|Nature 新智元編譯 編輯|化學(xué)加
官微 化學(xué)加 2016-1-28同時(shí)發(fā)出
投稿合作郵箱:cs@huaxuejia.cn
聲明:化學(xué)加刊發(fā)或者轉(zhuǎn)載此文只是出于傳遞、分享更多信息之目的,并不意味認(rèn)同其觀(guān)點(diǎn)或證實(shí)其描述。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益,請(qǐng)作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時(shí)更正、刪除,謝謝。 電話(huà):18676881059,郵箱:gongjian@huaxuejia.cn