百度大腦李彥宏演講視頻
百度大腦李彥宏演講視頻
百度大腦震撼發(fā)布的重播視頻分享給大家,大家來學(xué)習(xí)觀看百度大腦李彥宏演講視頻吧,學(xué)習(xí)偉大人物演講技巧,百度大腦李彥宏演講的全文,希望可以幫助大家!
百度大腦李彥宏演講視頻
李彥宏在百度世界大會(huì)的演講全文:
歡迎來到2016百度世界!
大家知道,百度世界是我們每年舉辦一次的百度技術(shù)創(chuàng)新大會(huì)。今年的主題我們聚焦在人工智能,大家在之前收到的請(qǐng)柬上已經(jīng)看到這個(gè)主題了。剛才開場(chǎng)視頻是以人工智能為主題的,今天我的主題演講也將圍繞著人工智能來展開。
今年6月份,我在百度聯(lián)盟峰會(huì)上講了一個(gè)概念,叫做互聯(lián)網(wǎng)的下一幕。下一幕是什么意思呢?就是說,互聯(lián)網(wǎng)的發(fā)展在此之前已經(jīng)經(jīng)過了兩個(gè)非常重要的階段,第一個(gè)階段大概持續(xù)了十幾年的時(shí)間,就是我們講的PC互聯(lián)網(wǎng)階段。第二個(gè)階段是在最近四五年,我們把它叫做移動(dòng)互聯(lián)網(wǎng)的階段。對(duì)于中國(guó)市場(chǎng)來說,隨著上網(wǎng)人數(shù)越來越多,上網(wǎng)人口的滲透率越來越高,現(xiàn)在已經(jīng)達(dá)到了七億多,就是說已經(jīng)超過了50%的滲透率,同時(shí),每一個(gè)上網(wǎng)的人現(xiàn)在也基本都用上了智能手機(jī)。
這意味著什么呢?這意味著,未來互聯(lián)網(wǎng)的增長(zhǎng)不能再靠人口紅利來驅(qū)動(dòng)了,也就是說,移動(dòng)互聯(lián)網(wǎng)的時(shí)代其實(shí)正在離開我們。這可能是很多人覺得難以接受的。我們國(guó)家現(xiàn)在進(jìn)入了所謂的新常態(tài),經(jīng)濟(jì)的增長(zhǎng)需要靠“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃來推動(dòng),所謂“互聯(lián)網(wǎng)+”就是希望用互聯(lián)網(wǎng)的思維方式、互聯(lián)網(wǎng)的效率來推動(dòng)各個(gè)行業(yè)、產(chǎn)業(yè)的繼續(xù)發(fā)展。但是,我們互聯(lián)網(wǎng)的從業(yè)者其實(shí)又深深地感受到了這其中的危機(jī),這個(gè)危機(jī)就是因?yàn)檫^去的粗放增長(zhǎng)階段已經(jīng)結(jié)束了。
移動(dòng)互聯(lián)網(wǎng)之后的下一幕是什么?其實(shí)現(xiàn)在已經(jīng)很清楚了,就是我們所說的人工智能。人工智能對(duì)于百度來說是核心當(dāng)中的核心,我們也很幸運(yùn),在過去的五六年當(dāng)中,百度花了很大很大的精力投入到人工智能的研發(fā)當(dāng)中。人工智能對(duì)于百度來說意味著什么呢?我可以用簡(jiǎn)單的四個(gè)字來描述,就是百度大腦。百度大腦的概念我們其實(shí)在大約三年前就對(duì)外講過。那個(gè)時(shí)候我們講,百度大腦已經(jīng)具備了大概兩三歲孩子的智力水平了。自此以后,不斷的有人來問我,尤其是今年人工智能突然火起來了之后,很多人來問我說,你們這個(gè)百度大腦現(xiàn)在相當(dāng)于多少歲人的智力水平了。
要回答這個(gè)問題其實(shí)還蠻難的,我也不知道它現(xiàn)在是多少歲了,因?yàn)楫吘谷四X和電腦它還是有很大的區(qū)別,百度大腦雖然是一個(gè)人工智能的大腦,但是它和人正常的發(fā)育的過程還是很不一樣的。
百度大腦到底由什么構(gòu)成的呢?它基本上是由三個(gè)大的部分組成的。第一個(gè)組成部分,就是人工智能的算法。我們有超大規(guī)模的神經(jīng)網(wǎng)絡(luò),這是模擬人的神經(jīng)元組成的網(wǎng)絡(luò),但其實(shí)我們也不知道真正人腦工作的原理是什么,只是想象當(dāng)中應(yīng)該是這個(gè)樣子。我們還使用了萬億級(jí)的參數(shù),人腦的神經(jīng)源大概是千億級(jí)的,我們也有千億的樣本和千億的特征進(jìn)行訓(xùn)練。整個(gè)這些東西組成了百度大腦當(dāng)中算法的部分。
百度大腦的第二個(gè)組成部分是我們計(jì)算能力?,F(xiàn)在我們已經(jīng)使用了數(shù)十萬臺(tái)的服務(wù)器來進(jìn)行計(jì)算,而這當(dāng)中很多的服務(wù)器不是傳統(tǒng)基于CPU的服務(wù)器,而是基于GPU。早年的時(shí)候,GPU主要在游戲等領(lǐng)域使用得比較廣泛,在人工智能、尤其是深度學(xué)習(xí)起來以后,我們發(fā)現(xiàn),其實(shí)GPU特別適合人工智能的計(jì)算,尤其是深度學(xué)習(xí)的計(jì)算,一塊GPU可以頂100個(gè)CPU的計(jì)算能力。有關(guān)GPU的事情,我之后會(huì)請(qǐng)一位外部的嘉賓,就是NVIDIA的創(chuàng)始人和CEO黃仁勛先生,讓他給大家介紹更多有關(guān)GPU的,尤其是在人工智能領(lǐng)域應(yīng)用的情況。
百度大腦的第三部分是數(shù)據(jù)。數(shù)據(jù)也非常非常重要,而且這個(gè)數(shù)據(jù)量也是非常大的。比如說,我們已經(jīng)收集了全網(wǎng)上萬億的互聯(lián)網(wǎng)網(wǎng)頁內(nèi)容,這其中包括了很多視頻、音頻、圖像,這些數(shù)據(jù)也是數(shù)以百億級(jí)的。我們還有每天數(shù)十億次網(wǎng)民的搜索請(qǐng)求,而且還有每天數(shù)百億次的網(wǎng)民定位請(qǐng)求,就是說這個(gè)人在什么地方,這樣的請(qǐng)求也比大家想象得多,每天都有好幾百億次這樣的定位請(qǐng)求。
有了算法,有了計(jì)算能力,有了數(shù)據(jù),百度大腦就可以開始工作了。百度大腦又到底有什么樣的功能?讓我們來看一看。
我們今天想重點(diǎn)介紹的四個(gè)功能:一個(gè)是語音的能力,一個(gè)是圖像的能力,一個(gè)是自然語言理解的能力,還有一個(gè)就是用戶畫像的能力。這幾個(gè)能力雖然都是屬于人工智能中比較典型的應(yīng)用,但是它的發(fā)展階段也是很不一樣的。比如說語音,現(xiàn)在就已經(jīng)進(jìn)入了相對(duì)比較成熟的階段,在很多很多領(lǐng)域中都開始進(jìn)入實(shí)用階段,識(shí)別的準(zhǔn)確率也已經(jīng)很高了。圖像最近幾年也有了長(zhǎng)足的進(jìn)展。這兩者都屬于人工智能當(dāng)中認(rèn)知的部分,所以深度學(xué)習(xí)的算法非常適合處理這些形式。
相對(duì)來說,自然語言的理解、或處理能力就更加難一些,并處在一個(gè)更加早期的階段,因?yàn)樗苏J(rèn)知方面的能力之外,還要求有推理、規(guī)劃等等能力,才能夠真正地理解自然語言。用戶畫像的能力,其實(shí)從傳統(tǒng)意義上來講并不是人工智能的領(lǐng)域,但是由于近年來大數(shù)據(jù)的發(fā)展,尤其是大型互聯(lián)網(wǎng)公司有能力搜集很多用戶的數(shù)據(jù)之后,再用人工智能的方法、用機(jī)器學(xué)習(xí)的方法,就可以把一個(gè)人的特征描繪得非常非常清楚。所以今天,用戶畫像也變成了人工智能、或者說變成了百度大腦的一個(gè)重要功能。
下面我就分別來講一下這幾個(gè)功能,這幾個(gè)百度大腦的功能。
我們先看一下語音,剛才也講了應(yīng)該說今天人工智能發(fā)展的最成熟的一部分能力,而語音又分成兩個(gè)方向,一個(gè)是語音的合成,一個(gè)是語音的識(shí)別。
我們先看看語音識(shí)別。今年MIT Technology Review(《MIT科技評(píng)論》)雜志,把百度的Deep Speech 2評(píng)為“2016改變世界十大突破技術(shù)”,這就是百度的語音識(shí)別引擎,它已經(jīng)到了第二代,主要就是使用了深度學(xué)習(xí)的能力。這樣的一個(gè)技術(shù)已經(jīng)可以把語音識(shí)別的準(zhǔn)確度做到多少呢?大概可以做到97%的準(zhǔn)確率,這樣的準(zhǔn)確率已經(jīng)達(dá)到、甚至有時(shí)已經(jīng)超過了人對(duì)語音的識(shí)別能力。當(dāng)然,我們講這些能力不是為了簡(jiǎn)單地去炫耀這個(gè)數(shù)字有多好,我更感興趣的是,當(dāng)你有了這些能力時(shí),它可以在什么領(lǐng)域應(yīng)用,又可以在哪些方面幫助到我們,這其實(shí)才是最最讓我們覺得興奮的地方。我個(gè)人的想象力很有限,整個(gè)百度幾萬人的想象力也是有限的,但是這些能力如果賦予到很多很多人,賦予給幾億人、幾十億人,這個(gè)可能性幾乎是無限的。先用我們比較有限的想象力來給大家舉一個(gè)例子。
這是一個(gè)銷售、電話銷售的例子,是一個(gè) 2B(To B)的應(yīng)用。這個(gè)應(yīng)用是什么意思呢?很多的公司其實(shí)都有電話銷售這樣的一個(gè)部門,都需要這樣做。但是銷售,尤其是電話銷售這個(gè)行業(yè),大家知道流動(dòng)性是比較大的,很多銷售都是新人,新人的話就會(huì)經(jīng)過一定的時(shí)間培訓(xùn)才能夠上崗,但即使是經(jīng)過培訓(xùn)的話,也不一定有那些有經(jīng)驗(yàn)的銷售那么出活兒、出單。其實(shí)有經(jīng)驗(yàn)、最優(yōu)秀的銷售和一般、較差的銷售相比,在效率上有非常大的差別。我們?cè)趺床拍軌蜃屝率?、讓沒有經(jīng)驗(yàn)的銷售,能夠具備最優(yōu)秀銷售的銷售能力?過去的做法是,把優(yōu)秀的銷售經(jīng)驗(yàn)總結(jié)成冊(cè)子讓大家去學(xué)習(xí),讓這些銷售去背,但是怎么活學(xué)活用還是需要一個(gè)過程的。而有了這么高精度的語音識(shí)別能力之后,我們就可以徹底改變這樣一個(gè)狀況了,甚至可以讓一個(gè)剛剛上崗一個(gè)月的銷售就具備最優(yōu)秀銷售的能力,也就是說,我們可以通過實(shí)時(shí)的語音識(shí)別甄別出用戶或客戶在問什么問題,然后我們?cè)賹?shí)時(shí)地在屏幕上告訴新的銷售,最優(yōu)秀的銷售是怎么回答這個(gè)問題的。過去沒有實(shí)時(shí)的語音識(shí)別的時(shí)候,你需要線下學(xué),學(xué)完了之后上去用、很容易就忘了,但是有了這個(gè)系統(tǒng)之后,我們就可以解決這樣的問題。
我們來看一下這個(gè)案例。
【播放語音識(shí)別技術(shù)演示視頻】
大家看到,在剛才的過程中,百度大腦一直在實(shí)時(shí)地識(shí)別雙方的對(duì)話,尤其是從電話里面?zhèn)鞒鰜淼穆曇?,有的時(shí)候并不是那么清晰,對(duì)于人來說要完全聽清楚每一個(gè)字其實(shí)都是有一定難度的,但百度大腦的語音識(shí)別能力已經(jīng)可以做到非常精準(zhǔn),并且可以根據(jù)用戶的問題、實(shí)時(shí)推薦下一步的工作要怎樣應(yīng)對(duì),這是一個(gè)語音識(shí)別應(yīng)用在企業(yè)日常運(yùn)作中的一個(gè)例子,就像我剛才講的,應(yīng)該還有很多很多應(yīng)用場(chǎng)景,大家可以根據(jù)自己的背景去想象。
語音識(shí)別是一方面,語音合成又是另外一個(gè)方面。語音合成是什么意思呢?就是機(jī)器可以把文字轉(zhuǎn)換成語音,把它念出來、讀出來。今天的語音合成也有了和過去非常不一樣的體驗(yàn),最主要的就是,它可以用比較自然的人的聲音讀出來,而不是像過去機(jī)器一樣,每一個(gè)字之間的停頓都是一樣長(zhǎng),是勻速的、沒有表情的。這樣的自然體驗(yàn),當(dāng)然對(duì)于用戶的黏性來說也是有很大的作用。
現(xiàn)在,百度每天要響應(yīng)2.5億次的語音合成請(qǐng)求,這些請(qǐng)求用來干什么呢?比如說,過去人們看小說,今天可以在手機(jī)百度里面聽小說。慢慢的人們聽小說的時(shí)間也更長(zhǎng)了,過去每個(gè)人平均在小說頻道會(huì)花大概四十分鐘左右的時(shí)間,現(xiàn)在要花將近兩個(gè)半小時(shí),就是因?yàn)榘延?jì)算機(jī)合成出來的語音讀出來給我們聽,確實(shí)是一個(gè)很不錯(cuò)的體驗(yàn),甚至是一種享受。那么這種讀出來的小說,和我們平時(shí)聽到的廣播有什么本質(zhì)上的不一樣?其實(shí)非常不一樣。廣播是每一個(gè)人聽到的東西是一模一樣的,而今天的語音合成,它可以做到每一個(gè)人聽到的東西都是不一樣的,完全根據(jù)你個(gè)人的需求進(jìn)行定制,這就是為什么它的(用戶)黏性會(huì)很高,它能夠具備自然發(fā)聲的能力。不僅如此,其實(shí)我們可以想象一下,它如果能夠模擬一個(gè)自然人的表達(dá)方式或發(fā)聲能力,它就可以模擬任何一個(gè)你喜歡的人的說話方式。
不知道有沒有人注意到,百度地圖里導(dǎo)航功能就是用語音來進(jìn)行的,其中有一個(gè)選項(xiàng)可以用我的聲音進(jìn)行導(dǎo)航。其實(shí)導(dǎo)航的那些話我并沒有說過,機(jī)器只是根據(jù)我平時(shí)說話的情況合成了一個(gè)李彥宏的聲音。這樣的聲音不僅在我身上可以做到,在很多其他人身上也可以做到。
我們現(xiàn)在來給大家展示一個(gè)合成的聲音。我們合成了一下13年前已經(jīng)去世的張國(guó)榮的聲音,我們來放一段video。
【播放情感語音合成視頻】
為什么給大家展示這個(gè)呢?一方面我知道,很多人是張國(guó)榮的粉絲,另一方面,其實(shí)合成張國(guó)榮的聲音比合成一般人的聲音要更難。為什么呢?因?yàn)樗膰?guó)語語料相對(duì)來說比較少,所以,我們能夠合成他的聲音,就一定能合成很多很多人的聲音。
對(duì)于百度來說,百度大腦的語音合成能力可以讓每個(gè)人都有自己的聲音模型,你只要按照我們的要求說50句話,我就學(xué)會(huì)了你說話的方式。當(dāng)你擁有自己的合成聲音之后,比如說家里的老人想經(jīng)常聽你說一說,你把這個(gè)聲音合成出來讓他聽就好了?;蛘哒f你平時(shí)要加班,小孩睡覺之前想聽個(gè)故事,你合成自己的聲音給孩子講一遍這個(gè)故事,聽起來也會(huì)很親切。所以大家可以看到,這些語音的能力會(huì)帶來各種各樣新的可能性。
下面我給大家講一下圖像。用一個(gè)比較專業(yè)的術(shù)語來講,我們叫做計(jì)算機(jī)視覺。這也是現(xiàn)在廣義的人工智能中非常重要的領(lǐng)域。說到圖像的識(shí)別,我想大家自然而然會(huì)反應(yīng)出來一個(gè)什么應(yīng)用呢?應(yīng)該就是我們通常講的人臉識(shí)別的應(yīng)用。人臉識(shí)別的準(zhǔn)確率今天已經(jīng)達(dá)到了99.7%,已經(jīng)非常非常準(zhǔn)確了。現(xiàn)場(chǎng)的屏幕能夠識(shí)別出來我們一些嘉賓,根據(jù)他們的人臉,我們知道這個(gè)人是誰,這個(gè)準(zhǔn)確率已經(jīng)比較高了。剛才進(jìn)來的時(shí)候,大家也可以看到一些人臉識(shí)別的展臺(tái),我們是可以識(shí)別很多很多人的面孔的。
那么,人臉識(shí)別這個(gè)技術(shù)是怎么實(shí)現(xiàn)的?我們要對(duì)人臉的特征提取它的關(guān)鍵點(diǎn),把這些點(diǎn)打出來之后要做一些處理,把它連成一個(gè)面部表情,據(jù)此來識(shí)別這樣一個(gè)人。這就使得當(dāng)一個(gè)人的表情發(fā)生變化的時(shí)候,我們?nèi)匀荒軌蜃R(shí)別出來這個(gè)特點(diǎn)是沒有發(fā)生變化的,比如他在哭,他在笑,他在憤怒,他在迷茫,他的表情是不一樣的,但是他的表情特征是不變的,所以我們?nèi)匀豢梢院軠?zhǔn)確地識(shí)別出這樣一個(gè)人。
除了面部識(shí)別之外,圖像識(shí)別還在很多領(lǐng)域也有應(yīng)用。我們?cè)倏匆粋€(gè),這是上海的一個(gè)全景圖,大家使用百度地圖有時(shí)候需要看這樣一個(gè)景,到一個(gè)陌生的地方之前,想看看到那看到的樣子是什么。當(dāng)然,這個(gè)圖不是一個(gè)簡(jiǎn)單的圖像的采集,我們采集了圖像之后要對(duì)圖像中各種各樣的目標(biāo)進(jìn)行識(shí)別,這個(gè)大樓是什么樣的大樓,那個(gè)路牌上面寫的什么字,對(duì)寫的這個(gè)字識(shí)別的話,跟人臉識(shí)別還不太一樣,這里面有一個(gè)特殊的圖像識(shí)別的技術(shù)就是OCR,這個(gè)是二十多年前我們的一個(gè)專利,到今天它的準(zhǔn)確率已經(jīng)非常高了,下面我們也是用一段視頻給大家看一下百度地圖是如何利用圖像識(shí)別的。
【播放百度地圖視頻】
這是百度地圖利用圖像識(shí)別的情況,其實(shí)還有一個(gè)很重要的領(lǐng)域也是非常需要圖像識(shí)別的技術(shù),這個(gè)領(lǐng)域是什么呢?這就是我們過去一年來講得比較多的無人駕駛汽車。無人駕駛汽車涉及到很多很多的技術(shù),比如說我們需要計(jì)算機(jī)視覺的技術(shù),需要高精度地圖,需要對(duì)環(huán)境的感知,需要定位,甚至需要語音的通話。但應(yīng)該說,計(jì)算機(jī)視覺或者是圖像識(shí)別的技術(shù)是“最后一公里”,無人駕駛汽車真的要變成沒有人,真的要能夠解決99.999%、甚至100%的情況,最終還是要依靠計(jì)算機(jī)視覺的能力,要識(shí)別各種各樣的極端的情況。
去年年底開始,我們給大家展示過百度的無人車在五環(huán)上跑,在高速上跑的情況,過去一年左右的時(shí)間我們也花了不少精力去提升我們?cè)诔鞘械缆飞线\(yùn)營(yíng)的水平,下面我們也放一段視頻給大家看一下。
【播放無人車視頻】
大家看到左下角這是人能夠看到的視野,這個(gè)視野其實(shí)是比較窄的,主屏幕是無人車能夠看到的路面情況,大家可以感受到,它感知的范圍其實(shí)比人要寬了很多,很多比較遠(yuǎn)的目標(biāo)都可以感知到,每個(gè)目標(biāo)都給出它唯一的編號(hào)進(jìn)行識(shí)別。對(duì)面有什么車過來了,遇到紅綠燈,遇到障礙怎么辦,行人怎么能識(shí)別出來,或者是樹木,周邊的汽車等等,每一個(gè)目標(biāo)我們都進(jìn)行了識(shí)別和編號(hào),這就是實(shí)際的、一個(gè)百度無人駕駛汽車在城市道路中行駛的情況,上面的45是限速。
這是大致的一個(gè)車看到的世界是什么樣的。這里面涉及了很多計(jì)算機(jī)視覺或者是圖像識(shí)別的技術(shù),尤其是這兩個(gè)技術(shù):一個(gè)是我們叫做車輛的檢測(cè),你行駛過程中怎么能夠知道旁邊有車輛,這個(gè)車輛在哪?這個(gè)車輛的檢測(cè)我們現(xiàn)在按照國(guó)際權(quán)威的評(píng)測(cè)來看,車輛檢測(cè)的能力,百度無人車已經(jīng)排名第一了。還有一個(gè)很重要的能力是車輛跟蹤的能力。這個(gè)不僅是全自動(dòng)的無人車,即使是對(duì)半自動(dòng)的、高度自動(dòng)駕駛來說,也是一個(gè)很基本的能力。你怎樣能夠準(zhǔn)確地跟著前面的車走,這個(gè)技術(shù)在包括準(zhǔn)確性、全面性、連續(xù)性等六項(xiàng)指標(biāo)中,我們已經(jīng)有四項(xiàng)拿到了第一。
這是無人車對(duì)于圖像識(shí)別依賴的情況。我們?cè)俳o大家展示一個(gè)領(lǐng)域,就是增強(qiáng)現(xiàn)實(shí)AR,AR其實(shí)也是非常依賴(圖像識(shí)別)。拿著手機(jī)拍一下現(xiàn)實(shí)的情況,我們要能夠識(shí)別出來這是哪,這里面有什么,然后才能跟用戶進(jìn)行互動(dòng),才能產(chǎn)生真實(shí)世界和一些虛擬世界的完美的結(jié)合。那么這個(gè)東西有什么應(yīng)用呢?我們也覺得很高興我們的周總、我們的廣告主非常敏銳地把握到了這么一個(gè)機(jī)會(huì),他說OK,我可以把現(xiàn)實(shí)世界中我的產(chǎn)品和虛擬世界中我希望用戶感知的東西結(jié)合在一起,這樣的一個(gè)做法也可以說是一種新型的廣告形式,下面我們就來看一個(gè)具體的例子。這是我們跟歐萊雅中國(guó)合作的一個(gè)例子。我們放視頻。
【播放歐萊雅視頻】
所以大家看到無論你拿手機(jī)拍一張明信片,還是拍一個(gè)實(shí)物的洗發(fā)水,它都可以準(zhǔn)確地識(shí)別出來這個(gè)東西,和用戶進(jìn)行互動(dòng),這里面不僅有圖像識(shí)別的技術(shù),也很大程度上取決于廣告主的創(chuàng)意,如果創(chuàng)意和這個(gè)技術(shù)結(jié)合,對(duì)消費(fèi)者的吸引力也非常大,所以我們也期待將來的時(shí)間和客戶很好地合作,把這個(gè)創(chuàng)意,把最優(yōu)秀的想法和最優(yōu)秀的技術(shù)結(jié)合起來,給消費(fèi)者帶來實(shí)惠。
這是有關(guān)圖像識(shí)別方面的幾個(gè)例子。下面我們?cè)倏醋匀徽Z言處理。自然語言處理其實(shí)我剛才也講了,它的成熟程度應(yīng)該不如語音,甚至不如圖像識(shí)別,但是即使在目前的狀態(tài)下,它也能夠給大家?guī)砗芏嗪芏嗖灰粯拥捏w驗(yàn)。最直接的例子應(yīng)該是我們?nèi)ツ暝诎俣仁澜绱髸?huì)上講的一個(gè)例子,就是度秘。度秘是一個(gè)個(gè)人智能的助理。這個(gè)個(gè)人智能助理今天我們可以在手機(jī)百度里面找到,度秘跟用戶進(jìn)行交互,現(xiàn)在已經(jīng)有超過一半的交互是通過語音和圖像來完成的,去年我們也講了,語音和圖像將來會(huì)變成一個(gè)主流。
度秘除了它能夠識(shí)別語音和圖像之外,其實(shí)它更關(guān)鍵、更核心的技術(shù),是能夠用人的語言來與人進(jìn)行交流,并且能夠理解人的很多意思和意圖,盡管不是每一次都能理解。
過去這段時(shí)間我們也利用度秘的自然語言的能力做了一個(gè)比較有意思的應(yīng)用,用度秘來解說奧運(yùn)籃球,下面我們看一下視頻。
【播放度秘與楊毅合作解說視頻】
這個(gè)不是度秘單獨(dú)完成的一次解說,是他和著名籃球評(píng)論員楊毅先生一起合作做的一次奧運(yùn)籃球比賽的解說。今天我們也很高興把楊毅先生請(qǐng)到了現(xiàn)場(chǎng),現(xiàn)在請(qǐng)他上臺(tái)。
【嘉賓楊毅登臺(tái)】
楊毅:大家上午好,我是楊毅。
Robin:剛才我們看到很有意思。你跟度秘一起解說了一場(chǎng)籃球的比賽,而且我也注意到你的風(fēng)格和度秘的風(fēng)格還是很不一樣的,我想問你一下,作為一個(gè)籃球評(píng)論員,你覺得一個(gè)好的解說員應(yīng)該具備什么樣的能力?
楊毅:首先我覺得很難說我有資格來講一個(gè)好的評(píng)論員要具備什么樣的能力,我相信很多行業(yè)都在不斷地前進(jìn)和發(fā)展。而且對(duì)一個(gè)解說員,即使他解說了一萬場(chǎng)比賽,但他下面面臨的一場(chǎng)比賽也是新的。但我想,總的來說,一個(gè)解說要想很好地工作,首先你要對(duì)這個(gè)項(xiàng)目有非常深刻的了解,無論對(duì)它的項(xiàng)目特點(diǎn)還是歷史背景,第二個(gè)要有非??焖俚默F(xiàn)場(chǎng)反應(yīng)能力,第三個(gè)我覺得要有出眾的語言表達(dá)能力,把你看到的、聽到的,能夠盡快地呈現(xiàn)給觀眾或者是聽眾。
Robin:對(duì),這些能力度秘都在不斷地學(xué)習(xí)過程中,還有很多不完美的地方,我也希望度秘能夠從你的身上學(xué)到很多很多東西。剛才我們看到你和度秘合作的這樣一次解說,它跟你學(xué)習(xí)了一次之后,我們想讓它單獨(dú)做一次籃球比賽的解說,現(xiàn)在我們看一下度秘解說籃球奧運(yùn)決賽的情況。
【播放度秘解說奧運(yùn)籃球決賽視頻】
Robin:ok,這是度秘單獨(dú)的解說,也想請(qǐng)楊毅先生評(píng)論一下你的學(xué)生表現(xiàn)怎么樣?
楊毅:顯然度秘比之前和它一起說的時(shí)候完成得更好了。其實(shí)我跟它說的時(shí)候,它的表現(xiàn)就是出乎我的預(yù)料的,我也聽說它學(xué)習(xí)過上百場(chǎng)甚至上千場(chǎng)的比賽,它對(duì)比賽的基本知識(shí)儲(chǔ)備是沒問題的,在這個(gè)行業(yè)里面,它可能比我知道得還多,因?yàn)閹啄昵暗谋荣愇铱赡芤呀?jīng)忘了,但是仍然裝在它的電腦里。上知天文,下知地理,什么都明白,它的表達(dá)也是比較清楚的,在我跟它說的時(shí)候,我覺得只有一個(gè)小小的問題,我覺得它說話的速度確實(shí)是好慢。但是大家剛才看到,它說決賽的時(shí)候能明顯感到語速加快了,更符合體育競(jìng)技的特點(diǎn),更快速地將現(xiàn)場(chǎng)的情緒傳達(dá)給觀眾。
Robin:對(duì),我其實(shí)非常同意。剛才聽的時(shí)候我也有點(diǎn)著急,它說的語速是比較慢的。但是像你剛才講的,度秘也有它的優(yōu)勢(shì),比如它的記憶能力是比人強(qiáng)的,它學(xué)習(xí)了幾百場(chǎng)的奧運(yùn)籃球比賽,每個(gè)運(yùn)動(dòng)員的個(gè)人資料它都記得非常清楚,遇到這些知識(shí)型的問題,它可以非常迅速地、方便地回答。另外我們看解說本身,用戶是可以跟度秘進(jìn)行互動(dòng)的,你點(diǎn)一下“雙方三分球的對(duì)比”,馬上就出來各種各樣的數(shù)據(jù)了,這是度秘的優(yōu)勢(shì)。但是度秘的劣勢(shì)就是它對(duì)人的語言的理解和人的語言的創(chuàng)造能力還有很多需要學(xué)習(xí)的地方,我們也非常希望楊毅先生能夠多給我們度秘提一些建議和提升的地方,也希望我們下次再有機(jī)會(huì)合作時(shí),它說話至少快一點(diǎn)。
楊毅:我覺得它下面的這些功能是非常好的。你可以想象一下,如果它成為一個(gè)成熟的產(chǎn)品,在每個(gè)球迷收看比賽的時(shí)候在家里身邊沙發(fā)上都能擺一個(gè)小機(jī)器人,一邊看著電視里的比賽,聽著電視里的解說,當(dāng)然它可能在電視里解說;同時(shí)他身邊也有個(gè)度秘,可以不斷地就他所關(guān)心的問題問身邊這個(gè)小機(jī)器人,能夠隨時(shí)給他進(jìn)行解答,就真正成為了球迷在收看比賽時(shí)候的好朋友。
Robin:我相信這一天一定會(huì)到來的!而且對(duì)于度秘來說,籃球和其他的比賽沒有任何區(qū)別,都是學(xué)習(xí)知識(shí),它主要的能力還是不斷地學(xué)習(xí)人的思維方式和表達(dá)方式。
楊毅:我相信它肯定會(huì)越來越好。
Robin:謝謝楊毅。
【嘉賓楊毅下場(chǎng)】
Robin:這是有關(guān)自然語言理解的一些介紹,下面再給大家展示一個(gè)自然語言理解的應(yīng)用。這個(gè)應(yīng)用的領(lǐng)域其實(shí)也不是特別新,就是自動(dòng)翻譯。你要想把一種語言轉(zhuǎn)換成另外一種語言,你必須得理解這種語言在說什么。它不是簡(jiǎn)單的把語音轉(zhuǎn)成文字,更多的是需要你知道它是什么意思。今天的百度翻譯已經(jīng)可以支持27種語言、數(shù)百種不同方向的對(duì)譯了?,F(xiàn)在我們來看一下百度翻譯有多大程度上能夠理解人的自然語言。
【播放百度翻譯演示視頻】
Robin:這其實(shí)不是一個(gè)演示,這是一個(gè)實(shí)際的例子。今天當(dāng)大家打開百度翻譯,它已經(jīng)具備了這樣的能力。所以我們看到對(duì)于自然語言的理解一旦能夠達(dá)到一定程度,它就又打開了很多新的可能性。
下面我們講百度大腦的第四個(gè)能力,就是用戶畫像的能力。用戶畫像也是基于百度的大數(shù)據(jù)以及機(jī)器學(xué)習(xí)的方式所獲得的一個(gè)能力?,F(xiàn)在我們已經(jīng)有接近10億的用戶畫像,其中對(duì)于他們的識(shí)別我們已經(jīng)用到了千萬級(jí)的細(xì)分標(biāo)簽。這些標(biāo)簽主要在兩個(gè)維度上體現(xiàn),一個(gè)是通用的維度,它的人口學(xué)特征、短期的意圖、位置屬性;也有一些垂直行業(yè)的特征,他在金融領(lǐng)域是什么樣的情況,它在保險(xiǎn)、醫(yī)療、旅游、健康等領(lǐng)域都有什么樣的愛好、習(xí)慣,這些東西都共同構(gòu)成了我們的用戶畫像。
用戶畫像有什么用途?首先給大家舉一個(gè)百度的例子。
最近幾個(gè)月大家可能注意到了手機(jī)百度,除了上面的搜索框之外,下面增加了各種各樣的文章。這些文章有時(shí)候是新聞,有時(shí)候不見得是新聞,但是確實(shí)是你感興趣的東西。之所以它能夠把你感興趣的東西推薦出來,就是因?yàn)槲覀兝昧税俣鹊挠脩舢嬒?。我知道你是一個(gè)什么人,你喜歡看什么樣的東西。有了這樣的個(gè)性化推薦,過去兩個(gè)月手機(jī)百度推薦的文章的閱讀量增長(zhǎng)了10倍,這種能力就是靠百度給用戶打了60多萬個(gè)標(biāo)簽,而每個(gè)用戶都是這其中某些標(biāo)簽組合后描畫出來的,所以它可以做到千人千面,準(zhǔn)確地講,不是千人千面,而是萬人萬面,億人億面,每個(gè)人對(duì)于百度來說都是不一樣的個(gè)體。所以,每個(gè)人看到的信息和文章都是不一樣的。
這是一個(gè)百度內(nèi)部使用的例子,我們也認(rèn)為用戶畫像可以在很多其他領(lǐng)域使用。我們?cè)俳o大家展示一個(gè)外部的例子。這是6月份上映的電影《魔獸》,它的出品人是傳奇影業(yè),他們就是利用了百度大腦的用戶畫像功能來提升它的票房。那么它是怎么做到的呢?我們也來看一個(gè)視頻。
【播放傳奇影業(yè)視頻】
這個(gè)做法很聰明,它把人群分成三類,一類人是不管怎么樣都要看的,另外一類是不管怎么樣都不會(huì)看的,這兩種人他們都不太關(guān)心。它關(guān)心的是它可以影響的人群,再通過用戶畫像把這些人從搖擺的轉(zhuǎn)換成真正去電影院看的。(原來)他認(rèn)為如果有5%的票房提升就很滿意了,最后實(shí)際上提升超過了200%。當(dāng)然這不是簡(jiǎn)單的說百度你給我用戶畫像,它一用就實(shí)現(xiàn)了提升,他們也下了很大的功夫去設(shè)計(jì)整體的推廣過程。原版的video是比這個(gè)長(zhǎng)很多的,大家有興趣可以聯(lián)系我們的工作人員,看它完整的做法是什么樣的。
講到這里,我基本上把百度大腦幾個(gè)主要的大功能都已經(jīng)呈現(xiàn)出來了。
百度大腦相關(guān)文章:
1.2016百度世界大會(huì)直播視頻錄像回放完整版 百度大腦震撼發(fā)布
3.百度搞笑段子大全