學習的勵志文章(2)
學習的勵志文章
學習的勵志文章:深度學習是什么?
作者:獵豹CEO傅盛
人工智能,就好像第四次工業(yè)革命,正從學術(shù)界的私藏,轉(zhuǎn)變?yōu)橐环N能夠改變世界的力量。尤其,以深度學習取得的進步為顯著標志。它讓匍匐前進60年的人工智能一鳴驚人。我們正降落到一片新大陸。深度學習帶來的這場重大技術(shù)革命,有可能顛覆過去20年互聯(lián)網(wǎng)對技術(shù)的認知,實現(xiàn)技術(shù)體驗的跨越式發(fā)展。
那么,深度學習到底是什么?怎么理解它的重要性?
我們先從概念和現(xiàn)象入手。我總結(jié)了一句話,學術(shù)上看未必嚴謹,但從我的理解角度看——深度學習是基于多層神經(jīng)網(wǎng)絡(luò)的,海量數(shù)據(jù)為輸入的,規(guī)則自學習方法。
這里包含了幾個關(guān)鍵詞:
第一個關(guān)鍵詞叫多層神經(jīng)網(wǎng)絡(luò)。
深度學習所基于的多層神經(jīng)網(wǎng)絡(luò)并非新鮮事物,甚至在80年代被認為沒前途。但近年來,科學家們對多層神經(jīng)網(wǎng)絡(luò)的不斷算法優(yōu)化,使它出現(xiàn)了突破性的進展。以往很多算法是線性的。而這世界上大多數(shù)事情的特征是復(fù)雜非線性的。比如貓的圖像中,就包含了顏色、形態(tài)、五官、光線等各種信息。深度學習的關(guān)鍵就是通過多層非線性映射將這些因素成功分開。
那為什么要深呢?多層神經(jīng)網(wǎng)絡(luò)比淺層的好處在哪兒呢?
簡單說,就是可以減少參數(shù)。因為它重復(fù)利用中間層的計算單元。我們還是以認貓為例好了。它可以學習貓的分層特征:最底層從原始像素開始學習,刻畫局部的邊緣和紋;中層把各種邊緣進行組合,描述不同類型的貓的器官;最高層描述的是整個貓的全局特征。它需要超強的計算能力,同時還不斷有海量數(shù)據(jù)的輸入。特別是在信息表示和特征設(shè)計方面,過去大量依賴人工,嚴重影響有效性和通用性。深度學習則徹底顛覆了“人造特征”的范式,開啟了數(shù)據(jù)驅(qū)動的“表示學習”范式——由數(shù)據(jù)自提取特征,計算機自己發(fā)現(xiàn)規(guī)則,進行自學習。
你可以理解為——過去,人們對經(jīng)驗的利用,靠人類自己完成。在深度學習呢?經(jīng)驗,以數(shù)據(jù)形式存在。因此,深度學習,就是關(guān)于在計算機上從數(shù)據(jù)中產(chǎn)生模型的算法,即深度學習算法。
問題來了,幾年前講大數(shù)據(jù),以及各種算法,與深度學習有什么區(qū)別呢?
過去的算法模式,數(shù)學上叫線性,x和y的關(guān)系是對應(yīng)的,它是一種函數(shù)體現(xiàn)的映射。但這種算法在海量數(shù)據(jù)面前遇到了瓶頸。國際上著名的ImageNet圖像分類大賽,用傳統(tǒng)算法,識別錯誤率一直降不下去,上深度學習后,錯誤率大幅降低。在2010年,獲勝的系統(tǒng)只能正確標記72%的圖片;到2012年,多倫多大學的 Geoff Hinton利用深度學習的新技術(shù),帶領(lǐng)團隊實現(xiàn)了85%的準確率。2015年的ImageNet競賽上,一個深度學習系統(tǒng)以96%的準確率第一次超過了人類(人類平均有95%的準確率)。
計算機認圖的能力,已經(jīng)超過了人。尤其圖像和語音等復(fù)雜應(yīng)用,深度學習技術(shù)取得了優(yōu)越的性能。為什么呢?其實就是思路的革新。
舉幾個腦洞大開的例子。
先說計算機認貓。我們通常能用很多屬性描述一個事物。其中有些屬性可能很關(guān)鍵,很有用,另一些屬性可能沒什么用。我們就將屬性被稱為特征。特征辨識,就是一個數(shù)據(jù)處理的過程。傳統(tǒng)算法認貓,也是標注各種特征去認。就是大眼睛,有胡子,有花紋。但這種特征寫著寫著,有的貓和老虎就分不出來,狗和貓也分不出來。這種方法叫——人制定規(guī)則,機器學習這種規(guī)則。
深度學習方法怎么辦呢?直接給你百萬張圖片,說這里有貓,再給你上百萬張圖,說這里沒貓。然后再訓練一個深度網(wǎng)絡(luò),通過深度學習自己去學貓的特征,計算機就知道了,誰是貓。
第二個例子是谷歌訓練機械手抓取。
傳統(tǒng)方法肯定是看到那里有個機械手,就寫好函數(shù),move到xyz標注的空間點,利用程序?qū)崿F(xiàn)一次抓取。而谷歌現(xiàn)在用機器人訓練一個深度神經(jīng)網(wǎng)絡(luò),幫助機器人根據(jù)攝像頭輸入和電機命令,預(yù)測抓取的結(jié)果。簡單說,就是訓練機器人的手眼協(xié)調(diào)。機器人會觀測自己的機械臂,實時糾正抓取運動。所有行為都從學習中自然浮現(xiàn),而不是依靠傳統(tǒng)的系統(tǒng)程序。
為了加快學習進程,谷歌用了14個機械手同時工作,在將近3000小時的訓練,相當于80萬次抓取嘗試后,開始看到智能反應(yīng)行為的出現(xiàn)。據(jù)公開資料,沒有訓練的機械手,前30次抓取失敗率為34%,而訓練后,失敗率降低到18%。這就是一個自我學習的過程。
有人問了,深度學習,能學習寫文章嗎?
來看這個例子。斯坦福大學的計算機博士andrej kapathy曾用托爾斯泰的小說《戰(zhàn)爭與和平》來訓練神經(jīng)網(wǎng)絡(luò)。每訓練100個回合,就叫它寫文章。100個回合后,機器知道要空格,但仍然有亂碼。500個回合后,能正確拼寫一些短單詞。1200個回合后,有標點符號和長單詞。2000個回合后,已經(jīng)可以正確拼寫更復(fù)雜的語句。
整個演化過程是個什么情況呢?以前我們寫文章,只要告訴主謂賓。而以上過程,完全沒人告訴機器語法規(guī)則。甚至,連標點和字母區(qū)別都不用告訴它。不告訴機器任何程序。只是不停將原始數(shù)據(jù)進行訓練,一層一層訓練,最后輸出結(jié)果——就是一個個看得懂的語句。一切看起來都很有趣。人工智能與深度學習的美妙之處,也正在于此。
我還去硅谷看過一家公司——完全顛覆以往的算法,利用深度學習實現(xiàn)圖像深度信息的采集。
眾所周知,市面上已經(jīng)有無人機,可實現(xiàn)人的跟蹤。它的方法是什么呢?一個人,在圖像系統(tǒng)里,一堆色塊的組合。通過人工的方式進行特征選擇,比如顏色特征,梯度特征。拿簡單的顏色特征舉例:比如你穿著綠色衣服,突然走進草叢,就可能跟丟?;?,他脫了件衣服,幾個人很相近,也容易跟丟。此時,若想在這個基礎(chǔ)上繼續(xù)優(yōu)化,將顏色特征進行某些調(diào)整,是非常困難的。而且調(diào)整后,還會存在對過去某些狀況不適用的問題。
總之,這樣的算法需要不停迭代,迭代又會影響前面的效果。而硅谷這個團隊,利用深度學習,把所有人腦袋做出來,只區(qū)分好前景和背景。區(qū)分之后,背景全部用數(shù)學方式隨意填充,再不斷生產(chǎn)大量背景數(shù)據(jù),進行自學習。只要把前景學習出來就行。
據(jù)我所知,很多傳統(tǒng)方法,還在采用雙目視覺。用計算機去做局部匹配,再根據(jù)雙目測出的兩個匹配的差距,去推算空間另一個點和它的三角位置,從而判斷離你多遠。可想而知,深度學習的出現(xiàn),使得很多公司辛苦積累的軟件算法直接作廢了。“算法為核心競爭力”,正在轉(zhuǎn)變?yōu)椋?ldquo;數(shù)據(jù)為核心競爭力”。技術(shù)人員必須進入新的起跑線。
最后再舉個例子。
大家都做過胃鏡。尤其胃痛,很痛苦。腸胃鏡要分開做,而且小腸看不見。有一家公司出了一種膠囊攝像頭。吃進去后,在你的消化道,每5秒拍一幅圖,連續(xù)攝像,此后再排出膠囊。所有關(guān)于腸道胃部的問題,全部完整記錄。但醫(yī)生光把那個圖看完,就需要五個小時。原本的機器主動檢測漏檢率高,要醫(yī)生復(fù)查。后來,他們采用深度學習。采集8000多例圖片數(shù)據(jù)灌進去,用機器不斷學,不僅提高診斷精確率,減少了醫(yī)生的漏診,以及對稀缺好醫(yī)生的經(jīng)驗依賴。只需要靠機器自己去學習規(guī)則。
深度學習算法,可以幫助醫(yī)生作出決策。
了解完深度學習,接著思考一個問題——20世紀70年代末80年代初,個人電腦突飛猛進時,人工智能的商業(yè)化卻步履維艱。喬布斯曾這樣定義個人計算機的價值——“它是我們思維的自行車”。那么,今天的人工智能呢?深度學習呢?它給我們真正帶來的東西是什么?未來,對行業(yè)和社會有什么影響?中國公司的機會在哪?
看了“學習的勵志文章”的人還看了:
1.勵志學習文章
2.青年學生勵志文章