來源:IPRdaily.cn 中文網
作者:徐方明 審協北京中心材料部 IP創新贏
原標題:伸向人類的“上帝之手”
小贏說:
提到“上帝之手”,大家可能聯想到的是馬拉多納的那個傳奇進球,然而今天小編帶你討論的卻是關于人工智能能否統治人類的討論。
相信很多人都知道上圖:
米開朗基羅壁畫《創世紀》中最著名的一部分
上帝將手指伸向亞當
如今,人工智能的快速發展,
讓很多人對這幅畫又有了新的理解:
是上帝創造了人類,還是人類創造了上帝?
說到人工智能,不得不提到近來霸屏的
頻頻占據權威媒體的頭條,
也再次驚動了CCTV的新聞聯播
歲末年初短短七天,
一個名叫 “Master”的神秘棋手
在網上取得了對中日韓頂級高手的60連勝,
其中包括世界冠軍
柯潔、古力、樸廷桓、井山裕太……
這個“Master”最終被證實為AlphaGo升級版
“阿法狗也好,Master也罷,
都是‘圍棋上帝’派來給人類引路的”。
被稱為“手談”的古老智力運動——圍棋,因為變化太多,計算復雜,成為了人類智力活動最后的堡壘。如今,這最后的堡壘終于被機器攻破,引起了社會和科技界的巨大的轟動和對未來的思考。
簡單回顧一下“阿爾法狗”的發展歷程
2016年1月28日,《Nature》的封面論文介紹了谷歌公司旗下的DeepMind團隊開發的“阿爾法狗”(AlphaGo)的原理;同時公開宣布AlphaGo以5:0完勝歐洲圍棋冠軍樊麾。
但是,當日圍棋界該程序比賽結果紛紛表示不屑。因為圍棋在歐洲是小眾項目,歐洲的圍棋冠軍僅僅是中日韓職業四段左右的水平。
然而,兩個月后,在2016年3月著名的人機大戰中,AlphaGo以4:1戰勝圍棋世界冠軍李世石,讓人們經歷了對人工智能從不屑到驚嘆的巨大轉變。
上圖中,李世石在第4局(2016年3月13日)第78手弈出傳說中的“神之一手”,扭轉了局勢,成為唯一戰勝阿爾法狗的一局。當時便有人感嘆:但愿這不是人類最后一次戰勝機器。
不過,中國圍棋選手柯潔,職業九段
19歲時已經拿過四個圍棋世界冠軍
保持著世界大賽14連勝
中國圍棋甲級聯賽18連勝的記錄
被譽為當今世界圍棋第一人,
當時在其微博放出豪言:
阿爾法狗能戰勝李世石,但戰勝不了我
阿爾法狗在閉關修煉10個月后,以Master的身份
用60連勝將人類高手一一挑落馬下
與“Master”對戰后
一向年少輕狂的柯潔卻說出了這樣的話:
與Master的對戰刷新了我的認知
人類一直遵循的圍棋定勢全是錯的!
我們人類甚至沒有沾到過圍棋真理的邊
AlphaGo用實戰證明,
所謂靠“棋感”、“味道”判斷進行的對局
并不屬于人類大腦的“專利”。
事實上,AlphaGo的原理在《Nature》發表之前已經公開:那就是通過專利的形式。谷歌申請的WO2015/054264A1(中文同族為CN105637540A)的最早優先權日為2013年5月12日,國際公開日為2015年4月16日,都早于論文在《Nature》的發表時間。
透過專利WO2015/054264A1我們來解密阿爾法狗的深度強化學習方法原理:其核心在于搭建了兩個深度神經網絡,將經驗數據輸入第二神經網絡并進行訓練,并根據第二神經網絡生成或更新第一神經網絡,第一神經網絡又生成目標動作值(action-value)參數,而第二神經網絡基于第一神經網絡生成的目標而被更新。
簡單的說:其算法就是通過歷史的棋譜模擬下棋,模擬下的棋局又成為歷史棋譜進行學習,然后不斷的自我學習迭代提高。
什么深度神經網絡?目標動作值?還是結合《Nature》的AlphaGo文章進行理解。
對應上述專利中提及的兩個神經網絡,AlphaGo團隊設計了策略網絡(policy network)和價值網絡(value network),這兩個網絡分別是由13層和15層的卷積神經網絡所構成,以棋盤圖片作為輸入,每層網絡中應用多級的過濾器以獲得每種走法的概率分布或獲勝預測值,策略網絡負責篩選可能性較大的走子方案,價值網絡負責評估盤面獲勝的可能性。綜合兩個網絡得到目標動作值,如果其低于一個閾值,則AlphaGo認輸,否則通過蒙特卡洛搜索樹將以上二者結合,選擇訪問計數(visit count)最大值的落點作為下一步行棋點。
策略網絡能夠學習圍棋高手的對局,學習他們是如何選擇下一步的,其還能通過類似于周伯通“雙手博弈”的方式,自我海量對弈強化學習,不斷優化修正習得的人類棋法
(在與李世石對局前AlphaGo便學習了基于16萬職業棋手對局數據庫而掌握了近3000萬步大師步法秘笈,還進行了3000萬局的自我對弈)
當然,更大的網絡能夠獲得更好的訓練準確度,但在搜索過程中評估會更慢,在用時更短的非正式對局中,樊麾便贏過AlphaGo兩局,此番快棋戰中,Master能取得60連勝,說明DeepMind團隊可能在策略網絡算法優化上取得了新的進步。
價值網絡是個和策略網絡結構相似的多層神經網絡,但輸出單一的獲勝預測值而不是概率分布,判斷誰占優。這也是AlphaGo高于人類的地方,價值判斷是人類思考中是很難量化的,棋手只能代之以“厚勢”、“兩分”等可意會不可言傳的模糊判斷,這也是很多棋手希望AlphaGo能公布的后臺數據。
(例如胡耀宇九段在微博中這樣說:)
當然,人工智能的含義遠不止是挑戰人類智力,它還包括機器人、語音識別、圖像識別、自然語言處理和專家系統等。谷歌之所以收購DeepMind,就是看中了其在反向圖片搜索(reverse image search)領域的兩項專利技術(US2014/0019431A1和US2014/0019484A1)。
國際上,人工智能的創新和創業也日趨活躍,Facebook、IBM、Microsoft等世界科技巨頭也紛紛在人工智能領域加強技術創新和專利布局。
在我國,人工智能也得到政策層面的高度支持,2015年7月國務院發布《關于積極推進“互聯網+”行動的指導意見》,將人工智能作為重點布局的11個領域之一,2016年四部委聯合印發了《“互聯網+”人工智能三年行動實施方案》,為人工智能發展提出具體的策略方案。根據烏鎮智庫2016年度發布的《烏鎮指數:全球人工智能發展報告2016》,中國在人工智能企業數量、專利申請量、融資規模上僅次于美國,發展潛力巨大。
最后回到圍棋作為結束,幾千年的歷史變遷中它經歷過幾番塑造,發源于中國堯舜時代,由日本發揚光大,上世紀80年代起韓國異軍崛起,本世紀中國又重回世界圍棋之巔。此次卻是由人工智能掀起新一次的圍棋革命,讓人類既驚奇而又困惑。
“人工智能”被認為是未來十年改變世界的最重要的一項技術,站在風口上,別忘搶占專利的制高點。
來源:IPRdaily.cn 中文網
作者:徐方明 審協北京中心材料部 IP創新贏
編輯:IPRdaily.cn LoCo
校對:IPRdaily.cn 縱橫君
本文來自IPRdaily.cn中文網并經IPRdaily.cn中文網編輯。轉載此文章須經權利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉載,請注明出處:“http://www.meihaolucy.com/”