http://www.199rrr.com 2016-05-25 13:58 來源:祈飛科技
最近Google DeepMind 公司的AlphaGo與李世石的人機大戰引起了全球新聞媒體和公眾對于人工智能的高度關注,其影響力遠遠超出了圍棋領域。
DeepMind 是一家什么樣的公司
DeepMind 是一家英國的人工智能公司,2014年1月被Google以5億英鎊收購。該公司在人工智能方面最有名的成果當首推2013年提出的DQN(Deep Q Network,一種深度學習和強化學習相結合的深度強化學習算法模型),在只有原始像素和游戲系統的打分作為輸入的情況下,人工智能系統成功的通過38天的自學習掌握了Atari游戲,到目前為止在至少49種Atari 2600 游戲上達到甚至超過了人類頂級玩家的水平。其成果先后發表在NIPS和Nature上,在人工智能領域引起震動。目前DeepMind除了AlphaGo外,還有健康醫療項目。
計算機圍棋與人工智能
國際象棋較容易設計局面評價函數(以擒王為目的,不同棋子有不同的權重),變化和搜索的深度相對有限,可采用Alpha-Beta剪枝算法進行有效搜索。IBM的“深藍”在1997年就擊敗了卡斯帕羅夫。
而圍棋的變化總數極大,宋代沈括在夢溪筆談中提到的算法結果為3的361次方,即“連書‘萬字’四十三”(棋盤19x19, 每個點都有黑子,白子,空白三種可能)。最近美國普林斯頓大學的研究人員計算出精確的合法棋局總數為2.08x10的170次方,這個數值比宇宙中的基本粒子總數還要多。并且圍棋很難建立明確的局面評價函數,同時局面評價函數又及其不平滑。這兩點導致簡單的暴力搜索在圍棋上不適用。
在深度學習引入計算機圍棋領域前,最好的結果是基于蒙特卡洛樹搜索(MCTS)的UCT算法。通俗的說就是計算機進行大量的模擬對局,隨機走子直到對局結束,根據勝率統計決定當前局面的最佳選擇。這樣就避開了局面評價函數的建立。然而人類對局時對于當前局面的棋形是有“棋感”的,這種“棋感”很大程度上幫助棋手評估局面并判斷預測重點的行棋選擇,即相當于快速有效的減小了搜索空間。這種“棋感”所對應的特征選取和模式識別讓人自然的聯系起近年來在AI領域如日中天的深度學習技術。這次的AlphaGo實際上是整合了MCTS,深度學習和強化學習三項技術。
深度學習是在傳統神經網絡基礎上的發展,其主要特征之一是網絡層數相比傳統淺層(受制于計算能力,數據量以及BP算法的梯度衰減等原因,一般為3層)神經網絡增多,模型復雜度大大提高,故有更強的非線性表達能力。
深度學習的最大優勢之一是無監督的特征學習,傳統的機器學習面臨的一個最大問題就是特征的人工設計和選取,深度學習則能通過大量數據學習出有效的抽象特征表達。
深度學習的出現和蓬勃發展有其內部和外部因素的推動。內因就是包括前述的網絡模型(如DNN,DCNN,SAE,RBM,DBN等)的改進,以及訓練算法的改進。外部因素包括海量數據(防止過擬合,并且可以使用無標簽數據)的獲得和高性能計算的發展。自2006年Hinton提出深度學習的概念后尤其是2012年在ImageNet上獲得巨大突破以來,以深度卷積神經網絡為代表的深度學習以催枯拉朽之勢橫掃計算機視覺、語音識別、自然語言處理等領域。在互聯網加大數據的時代背景下,已成為處理非結構化數據的一大利器。
強化學習(Reinforcement Learning)是一個目標驅動的連續決策過程。即學習怎樣根據當前的狀態決定動作,以最大化所獲得的回報信號。學習算法并未被告知如何執行動作,而是通過試驗去發現怎樣選擇動作以獲得最大的回報,這個回報是對動作好壞的評價。通常情況下,動作不僅獲得當前即時的回報,而且會影響下一個狀態乃至所有后續狀態的回報。
強化學習的最終目的是決策過程中整體的回報函數期望最大化。通過試錯進行搜索以及延時的回報是強化學習的兩個最顯著的特征。強化學習已在包括機器人控制,通信,金融,博弈等在內的眾多領域獲得成功應用。
回到計算機圍棋上,AlphaGo 通過深度卷積神經網絡的訓練,建立了行棋策略網絡(Policy Network)和價值網絡(Value Network)。訓練數據集采用了十數萬的人類棋譜,形成3千萬的局面數據作為輸入。AlphaGo通過策略網絡決定行棋判斷(著棋點可按分值排序),通過價值網絡進行局面判斷。有趣的是,AlphaGo還能通過大量的自我對弈(對弈的行棋法則是根據策略網絡決定的),根據對弈結果,應用強化學習獲得更新的策略網絡和價值網絡。這就是所謂AlphaGo通過雙手互博而得到自主學習能力。根據DeepMind 的CEO Demise Hassabis 透露,他們下一步還有一個更大膽的計劃,即不需要任何人類棋譜的輸入,單純由“BetaGo” 通過自我對弈和強化學習,獲得更優的行棋網絡模型。這是因為人類的圍棋下法未必是最優的,利用它訓練出的初始化行棋網絡模型有可能陷入到局部極值。
策略網絡使得AlphaGo只需針對少數有價值的可能著棋點進行蒙特卡洛樹搜索,即有效的減少了蒙特卡洛樹搜索的寬度。而價值網絡使得蒙特卡洛樹搜索時的模擬對弈在局面估值達到一定閾值后即停止,無需進行至終局。這就有效的減少了蒙特卡洛樹搜索的深度。蒙特卡洛樹搜索、深度學習和強化學習的有效結合使得AlphaGo獲得了空前的成功。
人機大戰后的思考
首先對于圍棋界,不禁讓人反思當今職業圍棋是否太過功利,太拘泥于勝負而過分糾纏于邊角的變化而缺乏創新?在AlphaGo橫空出世前一年仙逝的吳清源大師在晚年提出的“二十一世紀的圍棋”,其精神實質就如同AlphaGo所展示給我們的,是一種整體圍棋。盡管離“圍棋之神”還有不小的距離,AlphaGo 作為超人類的圍棋存在,也有助于我們去探索一系列真相:黑棋的先著效率如何?目前的貼目是否合理?圍棋的實質是什么?取消座子還棋頭真的是一種進步嗎?以九三分投、大飛守角為代表的快速打散局面的中國古棋“八卦”布局在座子還棋頭規則下是否合理?“當湖十局”的質量到底如何?中國古棋圣黃龍士、范西屏、施襄夏與日本古棋圣道策、丈和、秀策相比誰更強?
此次的人機大戰也讓我們看到了資本的力量和一個成功的商業營銷案例。相較于FaceBook在計算機圍棋項目“Dark Forest”上投入的寥寥兩人,DeepMind 在Nature上的論文就有署名作者20人,其中兩位并列第一作者David Silver 和Aja Huang更是在博士、博士后階段有10余年的計算機圍棋經驗。AlphaGo 使用了1202個CPU和176個GPU于分布式計算,展現了Google強大的工程能力。人機大戰前Google更是做足了保密工作,事實上其內部評測人機大戰用的V18版本可讓去年10月份擊敗歐洲冠軍樊麾二段的版本四子,Elo等級分在4000分之上,遠超李世石的3530和目前世界排名第一的柯潔的3630分。人機大戰進一步展現了Google在人工智能方面的全球引領者的企業形象,最終讓Google的股票市值增加愈400億美元。
人工智能已在包括機器人、通信、互聯網、商業智能、保險、金融、健康醫療等眾多領域融入到我們的生活中并正在改變著我們的生活。例如IBM的Watson作為認知計算系統的代表,應用了先進的自然語言處理,信息檢索,知識表達,自動推理和機器學習技術。其代表性產品包括著名的自動問答系統DeepQA以及和MSK合作的腫瘤治療系統。
事實上我國傳統醫學的“表象學”走的也是類似神經網絡這條路,在當時的技術條件下,無法對多數疾病的發病機理做出科學的分析判斷,于是把人視作一個黑盒子的復雜系統,輸入是脈搏等各種體征,輸出是判斷得到的疾病類別。老中醫某種意義上相當于通過大量的訓練數據,訓練得到類似神經網絡的人體疾病判斷模型,因而能對疾病進行判斷。
在現代條件下,對于復雜的人體系統,也難以在細胞層面、分子層面對各種病癥進行科學解釋。幸運的是,通過如CT、MRI、PET、血液分析等種種醫療儀器設備,更多科學的體征數據可以獲得。學習訓練用的數學模型更加復雜,優化算法更加科學,人工智能系統更加具備在高緯數據空間發掘有意義的數據模式的能力。包括深度學習、強化學習在內的各種人工智能技術也廣泛應用于機器人對環境的自主感知、自主決策、各種動作運動控制、人機交互,無人機飛行和姿態控制,自動無人駕駛等領域。
結束語
我們也應看到,目前人工智能的發展尚處在初級階段,距離人類有思維意識的真正意義上的智能還有很長的路要走。清代棋圣范西屏在其畢生著述《桃花泉弈譜》自序中寫道,“勛生今之時,為今之弈,后此者,又安知其不愈出愈奇”。在當今知識大爆炸、技術大變革的風云時代,我們更應有積極的心態來迎接、學習、應用、創新新技術。
作為人工智能機器人系統方案商,深圳市祈飛科技有限公司正積極應對挑戰,在不斷突破自我,創新科技,專注于人工智能的研發。祈飛機器人以祈飛研究院為核心技術研發主體,下設人工智能、圖像視覺、多維感知、控制系統、精密機械實驗室等,持續在人工智能機器人系統主體應用領域進行研發投入,以祈飛智能機器人制造為集團供應鏈保障中心,以全球營銷隊伍為市場先鋒,全力打造技術研發、智能制造、平臺網絡多維度創新型人工智能企業。
祈飛科技園
相信,隨著人工智能技術的不斷發展,人工智能化市場必將成為祈飛科技絢麗的舞臺。