台中月子中心餐點台中產後護理介紹分享～坐月子必看－天痕的日常生活

田淵棟：為什麼新版阿爾法狗論文沒上《自然》封面，卻更經典

原標題：田淵棟：為什麼新版阿爾法狗論文沒上《台中產後護理之家推薦台中月子中心餐點自然》封面，卻更經典

AlphaGo Zero隻用瞭490萬的數據就達到瞭AlphaGo的成就。

【寫在前面】

倫敦當地時間10月18日18：00（北京時間19日01：00），谷歌旗下的DeepMind團隊公佈瞭進化後的最強版AlphaGo ，代號AlphaGo Zero。相關論文再次登上世界頂級科學雜志——《自然》。
一年多前，AlphaGo便是2016年1月28日當期的封面文章，Deepmind公司發表重磅論文，介紹瞭這個擊敗歐洲圍棋冠軍樊麾的人工智能程序。也是自那時候起，AlphaGo在全球范圍內掀起瞭人工智能浪潮。
那這次的新版本AlphaGo究竟有多厲害？打敗李世石的AlphaGo用瞭3000萬盤比賽作為訓練數據，AlphaGo Zero用瞭490萬盤比賽數據。經過3天的訓練，AlphaGo Zero就以100：0的比分完勝對陣李世石的那版AlphaGo。
在DeepMind的最新論文中，AlphaGo Zero綜合瞭上一個版本的策略網絡和價值網，利用瞭強化學習的方法，隻用瞭單一的神經網絡、一臺機器和4個TPU，就能在沒有人類指導的情況下，隻用3天時間進行學習，打敗瞭戰勝過李世石的那版AlphaGo。
看上去如此完美的AlphaGo Zero，在其他人工智能開發者眼裡的表現如何，它對未來人工智能的啟示又有哪些？
Facebook人工實驗室成員田淵棟在自己的知乎賬號上發表瞭自己的看法。他認為，DeepMind的新論文要比上一篇好很多，方法非常幹凈標準，結果非常好，以後肯定是經典文章。並且，他非常驚訝AlphaGo Zero竟隻用瞭490萬的數據就達到瞭AlphaGo的成就。
田淵棟曾先後在微軟、谷歌、Facebook等科技公司實習工作。他在Facebook的辦公桌離CEO紮克伯格隻有6米遠。他所負責的圍棋項目（Darkforest）曾公開得到紮克伯格的表揚，目前他的研究主要集中在遊戲人工智能開發上。

老實說這篇Nature要比上一篇好很多，方法非常幹凈標準，結果非常好，以後肯定是經典文章瞭。

Policy network(策略網絡）和value network（價值網絡）放在一起共享參數不是什麼新鮮事瞭，基本上現在的強化學習算法都這樣做瞭，包括我們這邊拿瞭去年第一名的Doom Bot（編註：Facebook團隊開發的人工智能系統），還有ELF（編註：Facebook人工智能遊戲測試平臺）裡面為瞭訓練微縮版星際而使用的網絡設計。另外我記得之前他們已經反復提到用Value network對局面進行估值會更加穩定，所以最後用完全不用人工設計的default policy rollout（缺省策略）也在情理之中。

讓我非常吃驚的是僅僅用瞭四百九十萬的自我對局，每步僅用1600的MCTS rollout(蒙特卡羅搜樹)，Zero就超過瞭去年三月份的水平。並且這些自我對局裡有很大一部分是完全瞎走的。這個數字相當有意思。想一想圍棋所有合法狀態的數量級是10^170，五百萬局棋所能覆蓋的狀態數目也就是10^9這個數量級，這兩個數之間的比例比宇宙中所有原子的總數還要多得多。僅僅用這些樣本就能學得非常好，隻能說明卷積神經網絡（CNN）的結構非常順應圍棋的走法，說句形象的話，這就相當於看瞭大英百科全書的第一個字母就能猜出其所有的內容。用ML（機器學習）的語言來說，CNN的inductive bias（模型的適用范圍）極其適合圍棋漂亮精致的規則，所以稍微給點樣本水平就上去瞭。反觀人類棋譜有很多不自然的地方，CNN學得反而不快瞭。我們經常看見跑KGS或者GoGoD（編註：兩者均為訓練數據集）的時候，最後一兩個百分點費老大的勁，也許最後那點時間完全是花費在過擬合奇怪的招法上。

如果這個推理是對的話，那麼就有幾點推斷。一是對這個結果不能過分樂觀。我們假設換一個問題（比如說蛋白質折疊 protein folding），神經網絡不能很好擬合它而隻能采用死記硬背的方法，那泛化能力就很弱，Self-play（自我對弈）就不會有效果。事實上這也正是以前圍棋即使用Self-play都沒有太大進展的原因，大傢用手調特征加上線性分類器，模型不對路，就學不到太好的東西。一句話，重點不在左右互搏，重點在模型對路。

二是或許卷積神經網絡（CNN）系列算法在圍棋上的成功，不是因為它達到瞭圍棋之神的水平，而是因為人類棋手也是用CNN的方式去學棋去下棋，於是在同樣的道路上，或者說同樣的inductive bias（歸納偏置）下，計算機跑得比人類全體都快得多。假設有某種外星生物用RNN的方式學棋，換一種inductive bias，那它可能找到另一種（可能更強的）下棋方式。Zero用CNN及ResNet的框架在自學習過程中和人類世界中圍棋的演化有大量的相似點，在側面上印證瞭這個思路。在這點上來說，說窮盡瞭圍棋肯定是還早。

三就是更證明瞭在理論上理解深度學習算法的重要性。對於人類直覺能觸及到的問題，機器通過采用有相同或者相似的inductive bias結構台中產後月子中心價格的模型，可以去解決。但是人不知道它是如何做到的，所以除瞭反復嘗試之外，人並不知道如何針對新問題的關鍵特性去改進它。如果能在理論上定量地理解深度學習在不同的數據分佈上如何工作，那麼我相信到那時我們回頭看來，針對什麼問題，什麼數據，用什麼結構的模型會是很容易的事情。我堅信數據的結構是解開深度學習神奇效果的鑰匙。

另外推測一下為什麼要用MCTS而不用強化學習的其它方法（我不是DeepMind的人，所以肯定隻能推測瞭）。MCTS其實是在線規劃（online planning）的一種，從當前局面出發，以非參數方式估計局部Q函數，然後用局部Q函數估計去決定下一次rollout要怎麼走。既然是規劃，MCTS的限制就是得要知道環境的全部信息，及有完美的前向模型（forward model），這樣才能知道走完一步後是什麼狀態。圍棋因為規則固定，狀態清晰，有完美快速的前向模型，所以MCTS是個好的選擇。但要是用在Atari（雅達利）上的話，就得要在訓練算法中內置一個Atari模擬器，或者去學習一個前向模型（forward model），相比actor-critic（(演員評判傢）或者policy gradient（策略梯度方法）可以用當前狀態路徑就地取材，要麻煩得多。但如果能放進去那一定是好的，像Atari這樣的遊戲，要是大傢用MCTS我覺得可能不用學policy直接當場planning就會有很好的效果。很多文章都沒比，因為比瞭就不好玩瞭。

另外，這篇文章看起來實現的難度和所需要的計算資源都比上一篇少很多，我相信過不瞭多久就會有人重復出來，到時候應該會有更多的insight（提示）。大傢台中月子中心價格期待一下吧。

（本文獲田淵棟授權發佈，禁止二次轉載）

台中月子中心

台灣電動床工廠電動床

AUGI SPORTS｜重機車靴｜重機車靴推薦｜重機專用車靴｜重機防摔鞋｜重機防摔鞋推薦｜重機防摔鞋

AUGI SPORTS｜augisports｜racing boots｜urban boots｜motorcycle boots

台中產後月子中心價格台中產後之家推薦台中產後護理之家推薦台中月子中心價格台中頂級月子中心

ttgda5jh3f

天痕的日常生活

ttgda5jh3f 發表在痞客邦留言(0) 人氣()

E-mail轉寄

天痕的日常生活

天痕的日常生活

台中月子中心餐點台中產後護理介紹分享～坐月子必看

歷史上的今天

留言列表

站方公告

活動快報

【全民...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

天痕的日常生活

天痕的日常生活

台中月子中心餐點 台中產後護理介紹分享～坐月子必看

歷史上的今天

留言列表

站方公告

活動快報

【全民...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

台中月子中心餐點台中產後護理介紹分享～坐月子必看