AlphaGo徹底戰勝人類意味著什麼?

你必須明白,這些人中的大部分還沒有準備好去拔掉他們身上的控制物。他們中的很多人都如此習慣於、並且無望地依賴於這個控制系統,甚至會反過來維護它!

《黑客帝國》

阿爾法狗與人類頂尖棋手的人機大戰註定成為人工智能的裡程碑事件,當AI變得越來越復雜,越來越聰明,以至於在多個領域全面超越人類的時候,那時的AI會是提高人類生產力和生活質量的好助手?抑或是徹底控制奴役人類的天網?現在還難以下結論,但可以肯定的是接下來數十年裡AI對人類生活造成的沖擊將是巨大的,本文就來說說阿爾法狗徹底戰勝人類到底意味著什麼。

1. 貓 和 狗 的野蠻生長

2012年,GoogleX的 貓 AI面世,紐約時報曾以《需要多少計算機才能正確的識別貓?16000臺》為標題報道吳恩達領導的GoogleX實驗室是如何訓練機器認識貓的,最為特別的是,谷歌的貓AI不需要任何外界信息的幫助,它就能從數千萬張圖片中找出那些有貓的圖片。傳統的人臉識別是由程序員預先將整套系統編程實現,告訴計算機人臉應該是怎樣的,電腦才能對包含同類信息的圖片作出識別,而谷歌AI卻是自己發現瞭 貓 的概念,之前沒有人告訴過它 貓 是什麼,也沒有人類告訴它貓應該長成什麼模樣。

2009年,斯坦福大學華人教授李飛飛創立瞭全球最大的圖像識別數據庫-ImageNet,收集瞭大量帶有標註信息的圖片數據供計算機視覺模型進行訓練,擁有1500萬張標註過的高清圖片,總共22000類。2012年,Hinton的學生Alex依靠8層深的卷積神經網絡一舉獲得瞭基於ImageNet的ILSVRC比賽冠軍,瞬間點燃瞭卷積神經網絡研究的熱潮。

後來每年一度基於ImageNet數據庫的深度網絡對象識別比賽牽動著各大公司的心弦,2014年,Google深度網絡在ImageNet ILSVRC的比賽中取得第一名,識別錯誤率為6.67%,2015年,微軟研究院的Kaiming-He等4名華人提出的152層深度殘差網絡獲得冠軍,識別錯誤率僅為3.57%,超越人類的識別能力。2016年,李飛飛團隊在教會瞭計算機去識別圖像的基礎上,讓計算機像一幼兒一樣學會看圖說話,並會用 句子 進行交流,例如不止是說某張圖裡有隻 貓 ,還可以說 這隻貓是坐在床上的 。

2016年,英國倫敦的DeepMind(2014年被谷歌收購)五年磨一劍, 狗 (AlphaGo)AI橫空出世,與李世石人機大戰4:1獲勝。DeepMind的創始人傑米斯.哈薩比斯(Demis Hassabis)志向遠大,其遠景目標直指通用人工智能。雖然圍棋藝術很主觀,但AlphaGo卻把圍棋下得很客觀,阿爾法狗設計瞭在每一步都會分析有什麼影響,用哈薩比斯的話講,AlphaGo已經可以模仿人的直覺,而且具備創造力,通過組合已有知識或獨特想法的能力,不過這些能力目前僅僅局限於圍棋。

李開復關於阿爾法狗的評價很高: AlphaGo是一套設計精密的卓越工程,達到瞭歷史性的業界裡程碑,這套工程不但有世界頂級的機器學習技術,也有非常高效的代碼,並且充分發揮瞭谷歌在全球最宏偉的計算資源 。當然也有IBM的工程師匿名評價瞭他傢的 沃森 (Watson)和 狗 (AlphaGo)的智力,聲稱沃森和AlphaGo的智力對比,基本上是狗和人的對比,Watson雖是人名,但是在阿法狗的智商面前,他才是真的狗。

由此看來,大傢應該知道阿爾法狗的技術有多牛瞭。從某種程度上講,狗用的不是谷歌工程師寫的一般意義上的算法,而是用的一套類人的學習框架(強化學習+深度學習),反復學習棋譜,自己和自己對戰,類似於人類的學習方式,強化學習讓狗擁有瞭初步的自我學習和博弈思考能力。

當今世界,不少領域有著巨量信息和超級復雜的系統,例如電信、醫療、金融、天文、氣候和經濟領域,即使是領域內的專傢也無法應對海量數據和系統的復雜性。同時,數以億計的移動傳感器、智能手機和互聯網、無聯網、企業系統還在源源不斷地喂養數字地球,全球互聯網和企業系統海量數據的爆炸式增長,給基於深度學習的人工智能插上瞭騰飛的翅膀。

我在前文《深度學習的深度價值是什麼》曾提過,深度學習的核心技術是幾十年前就提出的人工神經網絡,如果將人工神經網絡比為火箭發動機一代,那麼深度學習就是火箭發動機二代,升級瞭訓練方式(Hinton大神首創),加裝瞭高性能計算配置(做遊戲顯卡起傢的Nvidia居功至偉),最關鍵的是有瞭互聯網和企業級巨頭們的海量大數據燃料。為什麼神經網絡換馬甲為深度學習之後,能獲得突破性進展(圖像、語音、翻譯等多個領域接近或完敗人類),上述三個方面的天時地利人和發揮瞭關鍵作用。

另外我們都知道,偉大的東西往往很簡單,好比愛因斯坦的EMC方程,深度學習也是一種樸素、簡單、優美而有效的方法:像小孩搭積木一樣簡單地構建網絡結構;性能不夠,加層來湊的樸素思想,這種標準化、易用性的處理架構,極大降低瞭機器學習的難度,當然最關鍵還是效果,就某些應用領域而言,深度學習在大數據環境下的學習能力完敗傳統方法。 而阿爾法狗(AlphaGo)徹底戰勝人類頂尖高手,就是深度學習技術應用的極致體現。大數據時代,AI生逢其時,就像哈勃望遠鏡一樣,可以推進人類文明的進步,從治療癌癥、發現引力波、金融交易、安全防控到氣候模擬等。可以預見的是,隨著深度學習技術和這一波 貓 狗 AI工程的野蠻生長,人類正在大踏步邁入人工智能時代。

2.阿爾法狗vs.人工智能阿波羅計劃

2016年第一次人機大戰開始之前,筆者當時做瞭一個簡要的論述: 在我看來,本次人機大戰,機器智能戰勝高智商人類的可能性極大!在不遠的將來,人類有限的感知計算在擁有超級強大計算資源並結合智能算法的機器面前將不堪一擊。同時,這次人機大戰也是對大數據深度學習技術的一次實戰檢驗。為什麼這樣講,雖說博弈搜索技術已在國際象棋的對弈中取得瞭巨大的成功,但卻難以適用於圍棋,因為圍棋棋盤橫豎各有19條線,共有361個落子點,雙方交替落子,這意味著圍棋總共可能有10^171(1後面有171個零)種可能性。

這個數字到底有多大,我們宇宙中的原子總數是10^80(1後面80個零,這個估算數據來源於網絡,無法確認)。就是說窮盡整個宇宙的原子數也不能存下圍棋的所有可能性。另外,從搜索樹的分枝數看,國際象棋約為35,如果隻構造分析7步棋的博弈搜索樹,則隻需甄別35^7 650*10^8種變化,這對每秒計算2億步棋的 深藍 計算機而言,想一步棋約需5分鐘。而圍棋的分枝數約為200,若也分析7步棋的變化,則要計算200^7個結果,想一步棋則需2年時間。 下面是國際象棋和圍棋的計算復雜度比較示意圖。

從上面兩種博弈的計算復雜度比較圖可以看出,圍棋變化的復雜度要比國際象棋高得多,對圍棋進行全局博弈的窮舉式搜索,就傳統的計算機處理技術來講顯然是不可能實現的。所以說圍棋的挑戰被稱為人工智能領域的 阿波羅計劃 ,宇宙原子數都不能窮盡的可能性,機器不可能窮舉哪怕少部分比例的圍棋走法,機器要下贏圍棋沒有什麼套路可言,唯一的辦法就是學會 學習 ,自我學習,而不能靠死記硬背。那阿爾法狗為什麼會在短短幾年時間內就能進行學習,並超越人類頂尖棋手的智慧呢?下文就要來說說狗的核心技術-深度學習和強化學習。

3.阿爾法狗的類腦學習方法

一般來講,機器學習分為監督學習(需要老師教)、無監督學習(不需要老師教)和半監督學習(自我學習和老師指導結合),而AlphaGo用到的強化學習技術就有點類似半監督學習。在筆者看來,阿爾法狗基於深度學習+強化學習+蒙特卡洛樹決策的組合式學習方法(或者說學習框架)可能已經站在瞭人類大腦學習的門口,為什麼這樣講,我們來看看阿爾法狗的系統架構。AlphaGo不是一個預編程的圍棋程序,而是采用瞭與人類學習類似的機制,用到的核心技術如下圖(分析得十分詳細,感謝微軟亞洲研究院鄭宇和張鈞波兩位作者)。

人類下棋的思維方式,一般是根據輸入的局面,進行候選招法和形勢判斷,綜合比較以後給出最終落子策略。AlphaGo的學習方法與此非常相似,從上面架構圖分析可以看出,阿爾法狗的學習分為三個階段進行:

(1)基礎學習階段-通過對棋譜的深度學習完成策略網絡的構建,直接使用人類高手的落子弈法(也就是棋譜),采用深度學習技術訓練一種有監督學習型走棋策略網絡。這個策略網絡能對走子時的弈法快速采樣,用來預測一個局面數據集中人類棋手的落子情況。AlphaGo的策略網絡,就對應瞭人類 選點 決策過程,選點決策要基於我們歷史的學習情況,老師的指導情況,來決定其掌握的基礎博弈水平。這個過程在於快速的學習歷史棋盤,獲取較優的下棋選擇,類似於我們的觀察學習獲得的第一反應,準確度不高所以我稱之為基礎學習。

(2)提升強化階段-通過自我對戰強化學習來提高博弈水平,采用強化學習技術來優化先前的走棋策略網絡,通過自我博弈的強化學習迭代結果,來提升前面的策略網絡。此階段是將該策略調校到贏取比賽的正確目標上,而非最大程度的預測準確性。強化學習對前一版策略網絡用策略梯度學習來最大化該結果(即贏得更多的比賽),通過和這個策略網絡自我博弈,即與之前的 自己 不間斷訓練以提高下棋的水平,這個過程有點類似於人類的鞏固學習和理解貫通階段。

(3)實時決策階段-通過深度回歸學習構建估值網絡,用來預測自我博弈強化學習數據集裡局面的預期結果,即預測那個策略網絡的局面會成為贏傢。結合蒙特卡洛樹(MCTS)搜索壓縮搜索空間,降低瞭搜索時間復雜度, MCTS決策有效結合瞭策略網絡和估值網絡,形成瞭完整的決策系統,利用強化學習對整個盤面的全局輸贏概率進行判斷,類似於人類的判斷決策過程。

上述三個階段還分為線下和線上兩個部分,線下學習類似於我們打基礎,鞏固復習階段,在線學習是考試決策階段。這三個階段的核心關鍵詞是模仿,而不是規則。這點很重要,基礎學習階段靠對歷史棋盤的深度學習進行模仿,獲得初始知識,強化學習自我對戰也是模仿逐步形成自己的決策判斷,這也是為什麼谷歌的阿爾法狗會完勝IBM的沃森,因為人類與生俱來的行為不是基於規則而是基於模仿的,通過模仿建立起基本知識體系之後,才會出現規則。從這個角度看,谷歌號稱十年內實現通用人工智能,不是沒有可能,因為除瞭強化學習之外,還有遷移學習、對抗學習、認知學習 具有強大計算能力的機器可以把人類的學習方式虐個遍,總有會找到一條有效的模仿之路。

4.阿爾法狗的深度學習架構,也許開啟瞭機器智能的魔盒

深度學習的基本神經元模型,模擬瞭人腦的神經元軸突構建過程,為什麼人工神經網絡這個超級火箭模型幾十年前就提出來瞭,高湯塊成型食品機械而到現在才開始爆發出力量呢?因為受限於燃料和加速器,例如要模擬一億個神經元。每個神經元有100萬個連接,就是100萬億條計算路徑,人腦有800億個神經元,能達到人類一樣計算能力的深度學習網絡要能產生8萬億條計算路徑。這在十年前都是無法想象的,幾十年前更是沒有大數據燃料,也沒有超級計算加速器。而現在各大互聯網巨頭的服務器農場裝備上瞭GPU的計算力,加上全球聯網的大數據,所以深度學習得以爆發,這對傳統機器學習技術的沖擊也是巨大的,阿爾法狗的深度學習架構,也許開啟瞭機器智能的魔盒,為什麼這樣講,下面幾點值得關註:

(1)大數據條件下,傳統機器學習的溫室模型、脆弱的人工特征工程、單模態的計算能力,難以走出實驗室進行大規模應用。大數據的智能學習需要滿足樣本自由化和特征工程自動化處理能力,深度學習之路就是在逐步解決這一問題。

(2)阿爾法狗基於深度學習、強化學習和蒙特卡洛樹決策的類腦學習架構,加上谷歌巨量的雲計算和GPU資源,這種系統架構比以前的任何人工智能技術都靠譜,擴展空間巨大。早期關於動物學習的觀點就是基於強化學習框架構建,每一次成功都會換來獎勵,從而加強動物大腦中對這種獎勵的正強化學習聯系,而每一次失望都會造成相應的弱化學習行為。所以,對於成功的機器學習系統來講,強化學習能力不容忽視,因為它們能發展出直覺和識別能力,而不隻是按照程序員編好的程序工作。

(3)未來多種學習方式的深度交叉融合,將極大推進深度學習的應用價值特別是人工智能的突破。機器的情感、記憶推理等高級智能,將會由基於深度特征學習和加裝存儲記憶、推理模塊的遷移學習、強化學習、對抗學習等各種學習方式的交叉融合而實現,未來的機器學習方式可能遠不隻這幾種,其本質都是在模仿人類的學習方式。遷移學習代表瞭我們的進化過程,學習的舉一反三、觸類旁通,強化學習類似周伯通左右互搏,對抗學習完全是無師自通等,以深度學習為主線食品設備的技術棧極大地拓展瞭機器學習能力。

(4)通用AI之路任重道遠,無監督學習是最後一座待突破的堡壘。大傢都知道深度神經網絡有如此神效,但具體的網絡參數為什麼能夠表現出智能恐怕無人知曉?人的大腦分兩個部分。一部分(大腦皮質)負責產生意識。一部分負責記憶、運算。深度學習算法模擬的是後者。但對於前者,人類還一無所知,類腦與神經計算科學可以說還沒有真正入門,另外無監督學習能力才是真正智能誕生的基礎。這方面的進展還不容樂觀,深度學習四大金剛之一LeCun對AlphaGo的評價可見一斑。

LeCun說到: 絕大多數人類和動物的學習方式是非監督學習。如果智能是個蛋糕,非監督學習才是蛋糕主體,監督學習隻能說是蛋糕上的糖霜奶油,而強化學習隻是蛋糕上點綴的櫻桃。現在我們知道如何制作 糖霜奶油 和上面的 櫻桃 , 但並不知道如何制作蛋糕主體。我們必須先解決關於非監督學習的問題,才能開始考慮如何做出一個真正的AI。這還僅僅是我們所知的難題之一。更何況那些我們未知的難題呢? 正如LeCun所說,未來解碼人類學習方式的重大突破性技術,很可能會由無監督學習來完成,因為無監督才是人類和動物學習的關鍵模式,嬰幼兒通過少量有監督學習訓練之後,在後續幾十年的成長過程中,能夠觀察並發現世界的內在結構和獲得經驗知識,都是一種無監督的自發主動的學習模式,而不是像小時候被父母告知每項事物的名稱和意義。而AlphaGo的核心技術采用瞭監督學習和強化學習,強化學習離無監督學習能力還很遠,所以說對於完全無監督學習這個AI堡壘來講,阿爾法狗應該說還在門口摸索,但無疑現階段的進步也是十分巨大的。

5.弱AI到強AI的生產力變革

李開復曾提到矽谷近幾年的一個趨勢: 做深度學習的人工智能博士生,一畢業就能拿到200到300萬美金的年收入的offer,這是有史以來沒有發生過的 (估計是極個別現象)。與之相比的是,美國大學生的平均終生薪金收入是230萬美金,而高中畢業生的平均終生薪金收入是130萬美金,深度學習博士一年的收入是普通大學生一生的收入,可見各大科技巨頭在深度學習和人工智能這個領域押下瞭多重的籌碼,難道就不怕打水漂麼?其實是在賭一個關鍵節點,所謂的風口技術,我們從人類社會的發展來看,經歷瞭農耕時代、工業時代、電氣時代和當今的網絡時代,現在正是跨越智能時代的關鍵技術節點,很大程度上就看深度學習等關鍵AI技術能否擔當得起如蒸汽機、電燈和互聯網這樣重大的歷史性變革技術使命。深度學習能否使機器學習更標準、更易用、更智能,同時通過數據驅動來降低機器學習技術的應用門檻,這是AI技術普及的必須條件,所以科技巨頭們必須押重註爭搶這一技術至高點。種種跡象表明以深度學習為代表的新型機器學習技術體系有望擔此重任。

當然,AI目前的發展還處於弱AI(Artificial Narrow Intelligence ,ANI)階段,如阿爾法狗一樣隻擅長某一方面的人工智能。這個階段的AI是人類的好助手,就像電視、汽車、電腦一樣為我們所用,提高我們的工作效率,如工業機器人、醫療機器人、智能問答、自動駕駛、疾病診斷、自動交易、智能終端等工具,極大提高瞭信息社會的生產力。而強人工智能(Artificial General Intelligence ,AGI)將在各方面相當於人類或者超過人類,也稱為通用人工智能,谷歌做AlphaGo的終極目標在於此。

越是強大的技術,其自身發展的速度(指數級增長)也是無法想象的,當谷歌的自動駕駛狗(已行駛超200萬公裡)、醫療狗(DeepMind各種疾病診斷AI已初現身手)、翻譯狗(谷歌幾十種語言的自動翻譯)、軍事狗(Boston Dynamic機器人)、金融狗等各種狗連成一片的時候,工業機器人一定會走出牢籠,變身各種機器助手進入到你的傢裡和辦公室,而狗的服務端則會像電力一樣提供源源不斷的智能服務,強AI時代也就成為現實瞭,當然這個發展過程可能存在極大變數,如何防止失控和壟斷?這是馬斯克創立OpenAI聯盟的原因,不過好像聯盟裡的成員也都些能搞壟斷的主,都是在花巨資建設自己的AI系統。

人工智能的發展速度隻會越來越快,IBM的watson在有足夠病例和病理知識的輸入下,其對一般病癥的判定準確率能高於初級醫生,換句話說,它可以替代美國大多數社區醫院的醫生,其在律師行業也能作為助理律師處理一般性事務。比沃森智商高很多的AlphaGo發展空間更大,遊戲AI,圍棋AI,醫療AI,金融AI AlphaGo架構的通用化和橫向擴展並不難,深度學習、神經網絡、強化學習、MCTS和GPU計算等都是通用的技術,AlphaGo的成功驗證瞭這些技術組合的高效性和可擴展性。向其它領域擴展,核心技術和算法都是相通的,隻是數據不同,服務載體和表現形式不同而已。面對各領域的智能化變革,在不遠的將來,人造勞動者正在從各個領域洶湧而來,大部分藍領或白領工作都將被取代,飛行員、司機,流水線工人,客服,翻譯,醫生甚至教師。唯一的變數在於藝術、創造和溝通,雖然機器現在也能作詩和畫畫瞭,但是否能夠超越人類,還沒有定論。

6.結論與展望

當阿爾法狗這樣成長速度遠超人類的智能系統,在各行各業全面開花的時候,對我們生活造成的沖擊無疑是巨大的,會提高生產力,搶我們的飯碗,甚至提高整個文明的智慧水平。那很多人可能會問, 貓狗 們能產生自我意識嗎?我想這個問題是決定人類命運的關鍵,也是如何與強AI和諧相處的關鍵。馬斯克(Elon Musk)、蓋茨和霍金都曾提出關於人工智能失控的問題,霍金稱人工智能會威脅奴役人類,馬斯克認為人工智能是在 召喚魔鬼 ,擔憂未來人工智能可能會被用於邪惡,甚至會誕生《終結者》裡的 天網 系統(擁有自我意識)毀滅人類。

早在1950年,圖靈的論文《計算機器與智能》(Computing Machinery and Intelligence)開篇就說到: 我提議思考這樣一個問題,機器能思考嗎? ,並提出瞭最著名的圖靈測試方法。直到現在,實現圖靈測試還是遙遙無期,短期來看,AI要產生自我意識很難,畢竟連自然語言處理的很多問題都還沒有解決,當AI能像人類一樣流暢地、富有邏輯和情感地聽、說、讀、寫之後,再談自我意識可能會靠譜一些。

不過任何事物的發展也有個例外,當網絡規模巨大、連接復雜到一定程度之後,會否產生一些變異或進化?隻有科技巨頭們自傢的機器農場才知道,一般的研究機構因少有海量的數據資源和計算能力也就無從知曉瞭,畢竟我們連深度神經網絡為何有如此神效都不知道,超大規模的神經網絡參數調節為什麼能夠表現出超強的識別和學習能力?更不知道,對人類來講,這個問題就像理解我們自己的大腦一樣難。當然,正如哈薩比斯所說,信息過載和冗餘是大數據時代我們面臨的首要問題,我們希望能利用AI找到元解決方案,人工智能可以幫助我們更好地探索人腦的奧秘。

總之,汽車淘汰馬車,電燈淘汰油燈,電腦淘汰人腦,這些個歷史進程是無法改變的,我們的變革周期在加速,工作的變化也會越來越快,也許就在你覺得自己通過挑燈充電走在前面的時候,其實你掌握的技能已經處於被淘汰的邊緣。如果有奇點的話,現在就正處於加速收斂的階段,量變到質變的前夜,強人工智能將深刻改變我們生活,也會給我們帶來巨大挑戰。阿爾法狗的徹底勝利在昭示著AI的覺醒,強AI的誕生對於人類而言仍是吉兇莫測,一邊是《星際迷航》,一邊是《終結者》,路掌握在我們自己手中。






鳳凰網國際智庫由鳳凰網集中優勢資源重點打造的平臺型智庫,旨在打造中國最具影響力的國際問題研究智庫,致力於成為“思想市場領導者”。將思想產品的生產和傳播有效的結合起來,在智庫與智庫之間達成協作共贏。

自動填充機

台灣電動床工廠 電動床
台灣電動床工廠 電動床
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
一川抽水肥清理行|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運
X戰警多鏡頭行車記錄器專業網|多鏡頭行車記錄器|多鏡頭行車紀錄器比較|多鏡頭行車紀錄器推薦|多鏡頭行車紀錄器影片
台中抽水肥專業網|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運
台灣靜電機批發工廠|靜電機|靜電機推薦|靜電油煙處理機|靜電油煙處理機推薦
優美環保科技工程-靜電機,靜電機推薦,靜電機保養,靜電機清洗,靜電油煙處理機


arrow
arrow

    yuk260mu64 發表在 痞客邦 留言(0) 人氣()