陳經:分析AlphaGo算法巨大的優勢與可能的缺陷

2016年3月12日人機大戰第三局,AlphaGo執白176手中盤勝李世石,以3:0的比分提前取得瞭對人類的勝利。

這一局李世石敗得最慘,早早就被AlphaGo妙手擊潰,整盤毫無機會。最後李世石悲壯地造劫,在AlphaGo脫先之後終於造出瞭緊劫。但AlphaGo隻靠本身劫就贏得瞭劫爭,粉碎瞭AlphaGo不會打劫的猜想。這一局AlphaGo表現出的水平是三局中最高的,幾乎沒有一手棋能被人置疑的,全是好招。三局過去,AlphaGo到底實力高到什麼程度,人們反而更不清楚瞭。

看完這三局,棋界終於差不多絕望瞭,原以為5:0的,都倒向0:5瞭。有些職業棋手在盤算讓先、讓二子是否頂得住。整個歷程可以和科幻小說《三體》中的黑暗戰役類比,人類開始對戰勝三體人信心滿滿,一心想旁觀5:0的大勝。一場戰鬥下來人類艦隊全滅,全體陷入瞭0:5的悲觀失望情緒中。

我也是糾結瞭一陣子,看著人類在圍棋上被機器碾壓的心情確實不好。但是承認機器的優勢後,迅速完成瞭心理建設,又開心地看待圍棋瞭。其實挺容易的,國際象棋界早就有這樣的事瞭。這個可以等五盤棋過後寫。

現在我的感覺是,棋界整體還是對AlphaGo的算法以及風格很不適應。一開始輕視,一輸再輸,姿態越來越低,三盤過後已經降到一個很低迷沉鬱的心理狀態瞭。這也可以理解,我一台南個人信貸試算個圍棋迷都抑鬱瞭一會,何況是視棋如生命的職業棋手。但是不管如何,還是應該從技術的角度平心靜氣地搞清楚,AlphaGo到底是怎麼下棋的,優勢到底在哪些,是不是就沒有一點弱點瞭?

現在有瞭三盤高水平的棋譜,質量遠高於之前和樊麾的五盤棋譜。還有谷歌2016年1月28號發表在《自然》上的論文,介紹瞭很多技術細節,還有一些流傳的消息,其實相關的信息並不少,可以作出一些技術分析瞭。

之前一篇文章提到,從研發的角度看,谷歌團隊把15-20個專傢湊在瞭一起,又提供瞭巨量的高性能計算資源,建立起瞭整個AlphaGo算法研究的“流水線”。這樣谷歌團隊就從改程序代碼的麻煩工作中解放出來,變成指揮機器幹活,開動流水線不斷學習進步,改善策略網絡價值網絡的系數。而且這個研發架構似乎沒有什麼嚴重的瓶頸,可以持續不斷地自我提升,有小瓶頸也可以想辦法再改訓練方法。就算它終於遇到瞭瓶頸,可能水平也遠遠超過人類瞭。

這些復雜而不斷變動的神經網絡系數是AlphaGo的獨門絕技,要訓練這些網絡,需要比分佈式版本對局時1200多個CPU多得多的計算資源。AlphaGo算法裡還是有一些模塊代碼是需要人去寫的,這些代碼可不是機器訓練出來的,再怎麼訓練也改不瞭,谷歌團隊還不可能做到這麼厲害。例如蒙特卡洛搜索(MCTS)整個框架的代碼,例如快速走子網絡的代碼。這裡其實有兩位論文共同第一作者David Silver和Aja Huang多年積累的貢獻。這些人寫的代碼,就會有內在的缺陷,不太可能是完美無新竹銀行信貸利率比較缺的。這些缺陷不是“流水線”不眠不休瘋狂訓練能解決的,是AlphaGo真正的內在缺陷,是深度學習、self-play、進化、強化學習這些高級名詞解決不瞭的。谷歌再能堆硬件,也解決不瞭,還得人去改代碼。

第一局開局前,谷歌就說其實還在忙著換版本,最新版本不穩定,所以就用上一個固定版本瞭。這種開發工作,有可能就是人工改代碼消除bug的,可能測試沒完,不敢用。

總之,像AlphaGo這麼大一個軟件,從算法角度看存在bug是非常可能的。在行棋時表現出來就是,它突然下出一些不好的招數,而且不是因為策略網絡價值網絡水平不夠高,而是MCTS框架相關的搜索代碼運行的結果。如果要找AlphaGo潛在的bug,需要去仔細研究它的“搜索 ”。這可能是它唯一的命門所在,而且不好改進。

那麼MCTS的好處壞處到底是什麼?幸運的是,Zen和CrazyStone等上一代程序,以及facebook田淵棟博士開發的Darkforest都用瞭MCTS。它們和AlphaGo雖然棋力相差很遠,但是行棋思想其實很相似,相通之處遠比我們想象的高得多。

這是田淵棟貼的Darkforest對前兩局的局勢評分。可以看出,這個評分和棋局走向高度一致,完全說得通。而且谷歌也透露瞭AlphaGo對局勢的評分,雖然一直領先,但第二局也有接近的時候,能夠相互印證。如果到網上下載一個Zen,輸入AlphaGo和李世石的對局,選擇一個局面進行分析,也會有像模像樣的評分出來。這究竟是怎麼回事?

從技術上來說,所謂的局勢評分,就是程序的MCTS模塊,對模擬的合理局面的勝率估計。連AlphaGo也是這樣做的,所以幾個程序才能對同樣一個局面聊到一塊去。所有程序的MCTS,都是從當前局面,選擇一些分支節點搜索,一直分支下去到某層的“葉子”節點,比如深入20步。

這個分支策略,AlphaGo和Darkforest用的是“策略網絡”提供的選點,選概率大的先試,又鼓勵沒試過的走走。到瞭葉子節點後,就改用一個“快速走子策略”一直下完,不分支瞭,你一步我一步往下推進,比如再下200步下完數子定出勝負。這個走子策略必台南個人信貸利息須是快速的,谷歌論文中說AlphaGo的快速走子策略比策略網絡快1000倍。如果用策略網絡來走子,那就沒有時間下完瞭,和李世石對局時的2小時會遠遠不夠用。下完以後,將結果一路返回,作一些標記。最後統計所有合理的最終局面,看雙方勝利的各占多少,就有一個勝率報出來,作為局勢的評分。一般到80%這類的勝率就沒意義瞭,必勝瞭,機器看自己低於20%就中盤認輸瞭。

AlphaGo的創新是有價值網絡,評估葉子節點時不是隻看下完的結果,而是一半一半,也考慮價值網絡直接對葉子節點預測的勝負結果。走子選擇就簡單瞭,選獲勝概率最大的那個分支。機器也會隨機下,因為有時幾個分支勝率一樣。

MCTS這個框架對棋力最大的意義,我認為就是“大局觀”好。無論局部如何激烈戰鬥,所有的模擬都永遠下完,全盤算子的個數。這樣對於自己有多少占地盤的潛力,就比毛估估要清楚多瞭。以前的程序,就不下到終局,用一些棋塊形狀幅射之類的來算自己影響的地盤,估得很差,因為一些棋塊死沒死都不清楚。MCTS就不錯,下到終局死沒死一清二楚。MCTS也不會隻盯著局部得失,而是整個盤面都去劃清楚邊界。這個特點讓幾個AI對局勢的評估經常很相似,大局觀都不錯。MCTS對於雙方交界的地方,以及虛虛實實的陣勢,通過打入之類的模擬,大致有個評估。當然這不是棋力的關鍵,大局觀再好,局部被對手殺死也沒有用,可能幾手下來,局勢評估就發生瞭突變。

AlphaGo的大局觀還特別好,特別準確,主要是它模擬的次數最多,模擬的質量最好。而且這個大局觀從原理上就超過瞭人類!比如人看到一塊陣勢,如果不是基本封閉的實空,到底價值多少評估起來其實是非常粗的。高手點目時經常這樣,先把能點的目算清楚,有一些小陣勢如無憂角就給個經驗目數,然後加上貼目算雙方精確目數的差值,然後說某方的某片陣勢能不能補回這個差值,需要扣除對方打入成的目數,孤棋薄棋減目數。這類估算有很多不精確的因素。

AlphaGo就不一樣瞭,它會真的打入到陣勢裡,來回模擬個幾十萬次,每一次都是精確的!人絕對沒有能力像AlphaGo這麼想問題,一定是利用經驗去估算陣勢的價值,誤差就可能很大。極端情況下,一塊空有沒有棋,職業棋手根本判斷不清,AlphaGo卻可以通過實踐模擬清楚,沒棋和有棋相比,目數差別太大瞭。AlphaGo雖然不是嚴格證明,但通過概率性地多次打入模擬,能夠接近理論情況,比人類憑經驗要強太多瞭。我可以肯定,AlphaGo的大局觀會遠遠超過職業高手,算目也要準得多,所以佈局好、中後盤收束也很強大。甚至Zen之類的程序大局觀都可能超過職業高手。

例如第二局這個局面:

李世石左下占瞭便宜,本來局勢還可以。但是他70和72手吃瞭一子落瞭後手,被AlphaGo走到73,大局一下就落後瞭。這個在前面Darkforest對局勢的評估圖中都非常清楚,是局勢的轉折點。李世石要是手頭有個Zen輔助,試著下兩下都可能會知道70手不要去吃一子瞭。大局觀不太好的職業高手,比如李世石就是個典型,大局觀不如Zen真不一定是笑話。李世石比Zen強的是接觸戰全局戰的手段,要強太多瞭。MCTS實事求是不怕麻煩下完再算子的風格,比起人類棋手對於陣勢價值的粗放估算,是思維上先天的優勢。

AlphaGo比其它程序強,甚至比職業高手還強的,是近身搏殺時的小手段。

第三局,李世石29和31是失著。29湊白30雙,雖然獲得瞭H17的先手,但是中間的頭更為重要。當黑31手飛出後,白32象步飛可以說直接將黑擊斃瞭。在盤面的左上中間焦點處,AlphaGo的快速走子網絡會有一個7*7之類的小窗口,對這裡進行窮舉一樣的搜索,用人手寫的代碼加上策略網絡。32這步妙招可能就是這樣找出來的,李世石肯定沒有算到。但是AlphaGo是不怕麻煩的,就一直對著這裡算,比人更容易看到黑三子的可憐結局。這個計算對人有些復雜,隻有實力很強的才能想到算清楚,對AlphaGo就是小菜。李世石一招不慎就被技術性擊倒瞭。AlphaGo對這種封閉局部的計算,是它超過人類的強項。

但是AlphaGo的搜索是不是就天衣無縫瞭?並不是。來看第二局這個局面:

AlphaGo黑41手尖沖,43手接出作戰。最後下成這樣,這是三局中AlphaGo被眾多職業棋手一致認為最明顯的一次虧損失誤,如果它還有失誤的話。我們猜想它為什麼會失誤。關鍵在於,這裡是一個開放式的接觸戰,棋塊會發展到很遠的地方去。AlphaGo的小窗口封閉窮舉搜索就不管用瞭,就隻有靠MCTS在那概率性地試。這裡分支很多,甚至有一個復雜的到達右上角的回頭征。我認為AlphaGo這裡就失去瞭可靠的技術手段,終於在這個人類一目瞭然的局面中迷失瞭。它是沒有概念推理的,不知道什麼叫“憑空生出一塊孤棋”。也不確定人會在50位斷然反擊,可能花瞭大量時間在算人妥協的美好局面。

再來看AlphaGo一個明確的虧損。第一局白AlphaGo第136手吃掉三子。這裡是一個封閉局面,是可以完全算清楚的。可以絕對地證明,136手吃在T15更好,這裡白虧瞭一目。但是為什麼AlphaGo下錯瞭?因為它沒有“虧一目”的這種概念。隻有最終模擬收完數子,白是179還是180這種概念,它根本搞不清楚差的一個子,是因為哪一手下得不同產生的,反正都是勝,它不在乎勝多少。除非是176與177子的區別,一個勝一個負,那136就在勝率上劣於T15瞭,它可能就改下T15瞭。

這個局面白已經勝定瞭所以無所謂。但是我們可以推想,如果在對局早期,局部發生瞭白要吃子的選擇,一種是A位吃,一種是B位吃,有目數差別,選哪種吃法?這就說不清瞭。AlphaGo的小窗口窮舉,是為瞭保證對殺的勝利,不殺就輸瞭。但是都能吃的情況下,這種一兩目的區別,它還真不好編程說明。說不定就會下錯虧目瞭。

經過以上的分析,AlphaGo相對人類的優勢和潛在缺陷就清楚多瞭。它的大局觀天生比人強得多,因為有強大的計算資源保證模擬的終局數量足夠,策略網絡和價值網絡剪枝又保證瞭模擬的質量。它在封閉局部的對殺會用一個小窗口去窮舉,絕對不會輸,還能找到妙手。它佈局好,中盤戰鬥控制力強,都是大局觀好的表現。它中後盤收束差不多都是封閉局面瞭,基本是窮舉瞭,算目非常精確,幾百萬次模擬下來什麼都算清瞭。想要收官中撈點目回去不是問題,它勝瞭就行;但是想收官逆轉是不可能的,影響瞭勝率它立刻就窮舉把你堵回去。

但是封閉式局面的小手段中,AlphaGo可能存在不精確虧目的可能性,不知道怎麼推理。在開放式接觸戰中,如果戰鬥會搞到很遠去,它也可能手數太多算不清,露出破綻。但不會是崩潰性的破綻,要崩潰瞭它就肯定能知道這裡虧瞭,不崩吃點暗虧它就可能糊塗著。目前來看,就是這麼兩個小毛病。

另外還有打劫的問題。如果是終局打劫,那是沒有用的,它就窮舉瞭,你沒有辦法。如果是在開局或者中局封閉式局部有瞭劫爭,由於要找劫,等於強制變成瞭殺到全盤的開放度最大的開放式局面瞭。這是AlphaGo不喜歡的,它的小窗口搜索就用不上瞭。而用MCTS搜索,打劫步數過多,就會超過它的葉子節點擴展深度,比如20步就不行瞭,必須“快速走子”收完瞭。這時它就胡亂終局瞭,不知道如何處理劫爭,模擬質量迅速下降。所以,這三局中,AlphaGo都顯得“不喜歡打劫”。但是,這不是說它不會打劫,真要逼得它不打劫必輸瞭,那它也就被MCTS逼得去打瞭。如果劫爭發生在早中期手數很多,在打劫過程中它就可能發生失誤。

當然這隻是一個猜想。它利用強大的大局觀與局部手段,可以做到“我不喜歡打劫,打劫的變化我繞過”,想吃就給你,我到別的地方撈回來。當然如果對手足夠強大,是可以逼得它走上打劫的道路的,它就隻好打瞭,說不定對手就有機會瞭。第三局李世石就逼得它打起瞭劫,但是變化簡單它不怕,隻用本身劫就打爆瞭對手。

如果要戰勝AlphaGo,根據本文的分析,應該用這樣的策略:大局觀要頂得住,不能早早被它控制住瞭。局部手段小心,不要中招。頂住以後,在開放式的接觸戰中等它自己犯昏。或者在局部定型中看它自己虧目。在接觸戰中,要利用它“不喜歡打劫”的特性,利用一些劫爭的分枝虛張聲勢逼它讓步,但又不能太過分把它逼入對人類不利的劫爭中。這麼看,這個難度還台中個人信貸條件真挺高的。但也不是不可想象瞭,柯潔大局觀好,比較合適。李世石大局觀差,不是好的人類代表。

本文進行瞭大膽的猜測,可能是一傢之言。但我也是有根據的,並不是狂想。如果這篇文章能幫助人類消除對AlphaGo的恐懼,那就起到瞭作用。

作者簡介:筆名陳經,香港科技大學計算機科學碩士,中國科學技術大學科技與戰略風雲學會研究員,棋力新浪圍棋6D。21世紀初開始有獨特原創性的經濟研究。2003年的《經濟版圖中的發展中國傢》預言中國將不斷產業升級,挑戰發達國傢。2006年著有《中國的“官辦經濟”》。

致謝:感謝中國科學技術大學科技桃園代辦信用貸款與戰略風雲學會會長袁嵐峰博士(@中科大胡不歸 )與其他會員的寶貴意見。

(觀察者網)
  • 真實案例講解:被貸款了怎麼辦?什麼是“被貸款”?信貸利率比較2017 銀行不會跟你說!各家銀行信用貸款條件被貸款是指被他人假冒自己的名義在銀行辦理了貸款。信貸利率比較2017 銀行不會跟你說!各家銀行信用貸款條件一些人在遭遇此類事件時,往往忍氣吞聲,不知該如何應對。事實上,被貸款了怎麼辦這個問題很好解決,只看你有沒有勇氣拿起武器捍衛自己的合法權益?有權要求認定合同無效【案例一】 2011105日,熊妍購買了一套商品房,當她交完首付,來到銀行辦理按揭手續時,卻遭到拒絕。理由是她曾辦理過三筆貸款,累計金額已達90萬元,信貸利率比較2017 銀行不會跟你說!各家銀行信用貸款條件不能再貸款了。銀行提供的查詢證明顯示,信貸利率比較2017 銀行不會跟你說!各家銀行信用貸款條件熊妍於2009年及2010年,在鄰縣一家銀行的確有著貸款記錄,每筆均為30萬元。“我根本就沒有在你們銀行貸過款,信貸利率比較2017 銀行不會跟你說!各家銀行信用貸款條件怎麼會有如此巨額的貸款記錄?”面對熊妍的質詢,信貸利率比較2017 銀行不會跟你說!各家銀行信用貸款條件鄰縣銀行卻無動於衷,因為他們知道,這只不過是領導親屬利用私自獲取的熊妍身份資訊辦理的貸款。信貸利率比較2017 銀行不會跟你說!各家銀行信用貸款條件熊妍有權訴請法院確認三筆貸款合同無效。本案中,銀行領導為了自己親屬的利益,弄虛作假、串通一氣地連續三次利用私自獲取的熊妍身份資訊辦理貸款,信貸利率比較2017 銀行不會跟你說!各家銀行信用貸款條件客觀上也確已損害熊妍的利益,無疑當屬惡意串通。而《合同法》第五十二條規定:“有下列情形之一的,合同無效:……()惡意串通,損害國家、集體或者第三人利益信貸利率比較2017 銀行不會跟你說!各家銀行信用貸款條件;……”《民法通則》第五十八條也已規定“惡意串通,損害國家、集體或者第三人利益的”民事行為無效。即銀行與真正貸款人的行為,信貸利率比較2017 銀行不會跟你說!各家銀行信用貸款條件從開始起就對熊妍沒有法律約束力。
  • 信貸利率比較2017 銀行不會跟你說!各家銀行信用貸款條件
  • 真實案例講解:被貸款了怎麼辦?什麼是“被貸款”?台中個人信貸利率比較2017 我要申請個人小額信貸5萬很快嗎被貸款是指被他人假冒自己的名義在銀行辦理了貸款。台中個人信貸利率比較2017 我要申請個人小額信貸5萬很快嗎一些人在遭遇此類事件時,往往忍氣吞聲,不知該如何應對。事實上,被貸款了怎麼辦這個問題很好解決,只看你有沒有勇氣拿起武器捍衛自己的合法權益?有權要求認定合同無效【案例一】 2011105日,熊妍購買了一套商品房,當她交完首付,來到銀行辦理按揭手續時,卻遭到拒絕。理由是她曾辦理過三筆貸款,累計金額已達90萬元,台中個人信貸利率比較2017 我要申請個人小額信貸5萬很快嗎不能再貸款了。銀行提供的查詢證明顯示,台中個人信貸利率比較2017 我要申請個人小額信貸5萬很快嗎熊妍於2009年及2010年,在鄰縣一家銀行的確有著貸款記錄,每筆均為30萬元。“我根本就沒有在你們銀行貸過款,台中個人信貸利率比較2017 我要申請個人小額信貸5萬很快嗎怎麼會有如此巨額的貸款記錄?”面對熊妍的質詢,台中個人信貸利率比較2017 我要申請個人小額信貸5萬很快嗎鄰縣銀行卻無動於衷,因為他們知道,這只不過是領導親屬利用私自獲取的熊妍身份資訊辦理的貸款。台中個人信貸利率比較2017 我要申請個人小額信貸5萬很快嗎熊妍有權訴請法院確認三筆貸款合同無效。本案中,銀行領導為了自己親屬的利益,弄虛作假、串通一氣地連續三次利用私自獲取的熊妍身份資訊辦理貸款,台中個人信貸利率比較2017 我要申請個人小額信貸5萬很快嗎客觀上也確已損害熊妍的利益,無疑當屬惡意串通。而《合同法》第五十二條規定:“有下列情形之一的,合同無效:……()惡意串通,損害國家、集體或者第三人利益台中個人信貸利率比較2017 我要申請個人小額信貸5萬很快嗎;……”《民法通則》第五十八條也已規定“惡意串通,損害國家、集體或者第三人利益的”民事行為無效。即銀行與真正貸款人的行為,台中個人信貸利率比較2017 我要申請個人小額信貸5萬很快嗎從開始起就對熊妍沒有法律約束力。
  • 台中個人信貸利率比較2017 我要申請個人小額信貸5萬很快嗎
  • 真實案例講解:被貸款了怎麼辦?什麼是“被貸款”?新竹小額借款 中國信託貸款100萬信貸試算被貸款是指被他人假冒自己的名義在銀行辦理了貸款。新竹小額借款 中國信託貸款100萬信貸試算一些人在遭遇此類事件時,往往忍氣吞聲,不知該如何應對。事實上,被貸款了怎麼辦這個問題很好解決,只看你有沒有勇氣拿起武器捍衛自己的合法權益?有權要求認定合同無效【案例一】 2011105日,熊妍購買了一套商品房,當她交完首付,來到銀行辦理按揭手續時,卻遭到拒絕。理由是她曾辦理過三筆貸款,累計金額已達90萬元,新竹小額借款 中國信託貸款100萬信貸試算不能再貸款了。銀行提供的查詢證明顯示,新竹小額借款 中國信託貸款100萬信貸試算熊妍於2009年及2010年,在鄰縣一家銀行的確有著貸款記錄,每筆均為30萬元。“我根本就沒有在你們銀行貸過款,新竹小額借款 中國信託貸款100萬信貸試算怎麼會有如此巨額的貸款記錄?”面對熊妍的質詢,新竹小額借款 中國信託貸款100萬信貸試算鄰縣銀行卻無動於衷,因為他們知道,這只不過是領導親屬利用私自獲取的熊妍身份資訊辦理的貸款。新竹小額借款 中國信託貸款100萬信貸試算熊妍有權訴請法院確認三筆貸款合同無效。本案中,銀行領導為了自己親屬的利益,弄虛作假、串通一氣地連續三次利用私自獲取的熊妍身份資訊辦理貸款,新竹小額借款 中國信託貸款100萬信貸試算客觀上也確已損害熊妍的利益,無疑當屬惡意串通。而《合同法》第五十二條規定:“有下列情形之一的,合同無效:……()惡意串通,損害國家、集體或者第三人利益新竹小額借款 中國信託貸款100萬信貸試算;……”《民法通則》第五十八條也已規定“惡意串通,損害國家、集體或者第三人利益的”民事行為無效。即銀行與真正貸款人的行為,新竹小額借款 中國信託貸款100萬信貸試算從開始起就對熊妍沒有法律約束力。
  • 新竹小額借款 中國信託貸款100萬信貸試算

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
6100045260A3D1EB

arrow
arrow

    ggu040kk80 發表在 痞客邦 留言(0) 人氣()