close

田淵棟:為什麼新版阿爾法狗論文沒上《自然》封面,卻更經典

原標題:田淵棟:為什麼新版阿爾法狗論文沒上《台中產後護理之家推薦台中月子中心餐點自然》封面,卻更經典



AlphaGo Zero隻用瞭490萬的數據就達到瞭AlphaGo的成就。

【寫在前面】



倫敦當地時間10月18日18:00(北京時間19日01:00),谷歌旗下的DeepMind團隊公佈瞭進化後的最強版AlphaGo ,代號AlphaGo Zero。相關論文再次登上世界頂級科學雜志——《自然》。
一年多前,AlphaGo便是2016年1月28日當期的封面文章,Deepmind公司發表重磅論文,介紹瞭這個擊敗歐洲圍棋冠軍樊麾的人工智能程序。也是自那時候起,AlphaGo在全球范圍內掀起瞭人工智能浪潮。
那這次的新版本AlphaGo究竟有多厲害?打敗李世石的AlphaGo用瞭3000萬盤比賽作為訓練數據,AlphaGo Zero用瞭490萬盤比賽數據。經過3天的訓練,AlphaGo Zero就以100:0的比分完勝對陣李世石的那版AlphaGo。
在DeepMind的最新論文中,AlphaGo Zero綜合瞭上一個版本的策略網絡和價值網,利用瞭強化學習的方法,隻用瞭單一的神經網絡、一臺機器和4個TPU,就能在沒有人類指導的情況下,隻用3天時間進行學習,打敗瞭戰勝過李世石的那版AlphaGo。
看上去如此完美的AlphaGo Zero,在其他人工智能開發者眼裡的表現如何,它對未來人工智能的啟示又有哪些?
Facebook人工實驗室成員田淵棟在自己的知乎賬號上發表瞭自己的看法。他認為,DeepMind的新論文要比上一篇好很多,方法非常幹凈標準,結果非常好,以後肯定是經典文章。並且,他非常驚訝AlphaGo Zero竟隻用瞭490萬的數據就達到瞭AlphaGo的成就。
田淵棟曾先後在微軟、谷歌、Facebook等科技公司實習工作。他在Facebook的辦公桌離CEO紮克伯格隻有6米遠。他所負責的圍棋項目(Darkforest)曾公開得到紮克伯格的表揚,目前他的研究主要集中在遊戲人工智能開發上。

老實說這篇Nature要比上一篇好很多,方法非常幹凈標準,結果非常好,以後肯定是經典文章瞭。

Policy network(策略網絡)和value network(價值網絡)放在一起共享參數不是什麼新鮮事瞭,基本上現在的強化學習算法都這樣做瞭,包括我們這邊拿瞭去年第一名的Doom Bot(編註:Facebook團隊開發的人工智能系統),還有ELF(編註:Facebook人工智能遊戲測試平臺)裡面為瞭訓練微縮版星際而使用的網絡設計。另外我記得之前他們已經反復提到用Value network對局面進行估值會更加穩定,所以最後用完全不用人工設計的default policy rollout(缺省策略)也在情理之中。

讓我非常吃驚的是僅僅用瞭四百九十萬的自我對局,每步僅用1600的MCTS rollout(蒙特卡羅搜樹),Zero就超過瞭去年三月份的水平。並且這些自我對局裡有很大一部分是完全瞎走的。這個數字相當有意思。想一想圍棋所有合法狀態的數量級是10^170,五百萬局棋所能覆蓋的狀態數目也就是10^9這個數量級,這兩個數之間的比例比宇宙中所有原子的總數還要多得多。僅僅用這些樣本就能學得非常好,隻能說明卷積神經網絡(CNN)的結構非常順應圍棋的走法,說句形象的話,這就相當於看瞭大英百科全書的第一個字母就能猜出其所有的內容。用ML(機器學習)的語言來說,CNN的inductive bias(模型的適用范圍)極其適合圍棋漂亮精致的規則,所以稍微給點樣本水平就上去瞭。反觀人類棋譜有很多不自然的地方,CNN學得反而不快瞭。我們經常看見跑KGS或者GoGoD(編註:兩者均為訓練數據集)的時候,最後一兩個百分點費老大的勁,也許最後那點時間完全是花費在過擬合奇怪的招法上。

如果這個推理是對的話,那麼就有幾點推斷。一是對這個結果不能過分樂觀。我們假設換一個問題(比如說蛋白質折疊 protein folding),神經網絡不能很好擬合它而隻能采用死記硬背的方法,那泛化能力就很弱,Self-play(自我對弈)就不會有效果。事實上這也正是以前圍棋即使用Self-play都沒有太大進展的原因,大傢用手調特征加上線性分類器,模型不對路,就學不到太好的東西。一句話,重點不在左右互搏,重點在模型對路。

二是或許卷積神經網絡(CNN)系列算法在圍棋上的成功,不是因為它達到瞭圍棋之神的水平,而是因為人類棋手也是用CNN的方式去學棋去下棋,於是在同樣的道路上,或者說同樣的inductive bias(歸納偏置)下,計算機跑得比人類全體都快得多。假設有某種外星生物用RNN的方式學棋,換一種inductive bias,那它可能找到另一種(可能更強的)下棋方式。Zero用CNN及ResNet的框架在自學習過程中和人類世界中圍棋的演化有大量的相似點,在側面上印證瞭這個思路。在這點上來說,說窮盡瞭圍棋肯定是還早。

三就是更證明瞭在理論上理解深度學習算法的重要性。對於人類直覺能觸及到的問題,機器通過采用有相同或者相似的inductive bias結構台中產後月子中心價格的模型,可以去解決。但是人不知道它是如何做到的,所以除瞭反復嘗試之外,人並不知道如何針對新問題的關鍵特性去改進它。如果能在理論上定量地理解深度學習在不同的數據分佈上如何工作,那麼我相信到那時我們回頭看來,針對什麼問題,什麼數據,用什麼結構的模型會是很容易的事情。我堅信數據的結構是解開深度學習神奇效果的鑰匙。

另外推測一下為什麼要用MCTS而不用強化學習的其它方法(我不是DeepMind的人,所以肯定隻能推測瞭)。MCTS其實是在線規劃(online planning)的一種,從當前局面出發,以非參數方式估計局部Q函數,然後用局部Q函數估計去決定下一次rollout要怎麼走。既然是規劃,MCTS的限制就是得要知道環境的全部信息,及有完美的前向模型(forward model),這樣才能知道走完一步後是什麼狀態。圍棋因為規則固定,狀態清晰,有完美快速的前向模型,所以MCTS是個好的選擇。但要是用在Atari(雅達利)上的話,就得要在訓練算法中內置一個Atari模擬器,或者去學習一個前向模型(forward model),相比actor-critic((演員評判傢)或者policy gradient(策略梯度方法)可以用當前狀態路徑就地取材,要麻煩得多。但如果能放進去那一定是好的,像Atari這樣的遊戲,要是大傢用MCTS我覺得可能不用學policy直接當場planning就會有很好的效果。很多文章都沒比,因為比瞭就不好玩瞭。

另外,這篇文章看起來實現的難度和所需要的計算資源都比上一篇少很多,我相信過不瞭多久就會有人重復出來,到時候應該會有更多的insight(提示)。大傢台中月子中心價格期待一下吧。

(本文獲田淵棟授權發佈,禁止二次轉載)

台中月子中心

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

arrow
arrow
    創作者介紹
    創作者 ttgda5jh3f 的頭像
    ttgda5jh3f

    天痕的日常生活

    ttgda5jh3f 發表在 痞客邦 留言(0) 人氣()