讀《大數(shù)據(jù)時(shí)代》有感:大數(shù)據(jù)時(shí)代的取舍
學(xué)習(xí)啦:《大數(shù)據(jù)時(shí)代》是國外大數(shù)據(jù)研究的先河之作,本書作者維克托·邁爾·舍恩伯格被譽(yù)為“大數(shù)據(jù)商業(yè)應(yīng)用第一人”。下面請欣賞《大數(shù)據(jù)時(shí)代》優(yōu)秀讀后感。
在《大數(shù)據(jù)時(shí)代》的一開頭,講了這樣一則小故事,尤為發(fā)人深省——作者維克托的繼父去世的時(shí)候留下了16000張收藏的照片,這些照片全都是他幾十年來周游世界的影像記錄。因?yàn)轶w量龐大,維克托選擇保留其中的一部分。如何裁決這么多幅照片呢?最后被選出的53張照片具有兩個(gè)共同特點(diǎn):1.照片上有認(rèn)識或可能認(rèn)識的人;2.照片拍攝得很漂亮。這種取舍是嚴(yán)格按照維克托所設(shè)定的程序進(jìn)行的,其背后投射出人類對大數(shù)據(jù)時(shí)代未來的思考——在記憶成為常態(tài)的時(shí)代里,什么會(huì)是遺忘的例外?說得更玄一些,大數(shù)據(jù)時(shí)代,人類應(yīng)該如何構(gòu)建積極而安全的未來?
《大數(shù)據(jù)時(shí)代》書分三部分,分別是商業(yè)變革、管理變革和大思維變革。在翻開這本書之前,我們不妨拿這三部分去套一下開頭的故事。16000張照片精選出一部分是需要一個(gè)工具和流程的,有些人依賴情感感性地挑揀,有些人選擇按照心中一個(gè)可識別的具體要求過濾。這是對待數(shù)據(jù)本身的管理方式不同。如果是160000張照片,1600000張照片甚至更多呢?一種算法在精密地處理著每張照片,而維克托選擇了這樣的兩個(gè)要求,就要承擔(dān)使用數(shù)據(jù)之后萬一錯(cuò)過某張絕世佳作的責(zé)任。再來看這16000張照片本身,它們本身就是有價(jià)值的,每一張都是長輩生活點(diǎn)滴的封存,每一張都有著娓娓道來的動(dòng)人瞬間。只不過或許有些照片定格的瞬間更加難得,有些風(fēng)景照卻可以日后故地重游重拍,因此讓數(shù)據(jù)價(jià)值說話,在維克托的心目中,滿足這兩個(gè)條件的照片更具有被保留的意義,于是商業(yè)變革的縮影也可見一斑。最后要提到的,就是大思維變革,更多、更雜也更好的數(shù)據(jù)看似遮擋視線,但換個(gè)方式面對它們,就是在一個(gè)兼具廣泛性和多樣性的空間里選擇更適合人類的數(shù)據(jù)使用方式,讓數(shù)據(jù)不再單純被陳列,而是可以活起來。不過此處還遺留著一個(gè)不大不小的問題,被舍棄的那一萬五千多張照片,它們的命運(yùn)將會(huì)何去何從,如果是紙質(zhì)的可以撕掉、燒掉,但如果是現(xiàn)在存儲在電子媒介中的,我們能確保點(diǎn)擊刪除的那個(gè)時(shí)刻,這些照片真的從此從這個(gè)世界上消失了嗎?這些數(shù)據(jù),真的是個(gè)體可控制,人類可管理的嗎?
一、思維轉(zhuǎn)變,“樣本=總體”
如果在法律的范疇中,我們提到大數(shù)據(jù)時(shí)代,第一反應(yīng)是各種各樣的。思維變革強(qiáng)調(diào)數(shù)據(jù)處理方式變化引起的思考模式轉(zhuǎn)變。
1、更多
從前收集數(shù)據(jù)是一件令人苦惱的事情,于是人們無意識地選擇規(guī)避大數(shù)據(jù)體量,人為限制了與數(shù)據(jù)的交流。如今,技術(shù)條件已經(jīng)大大地提高,我們的習(xí)慣卻常常停留在原地,因此大數(shù)據(jù)時(shí)代通過一些外在的動(dòng)力去轉(zhuǎn)變這種桎梏是非常有必要的。比如我們想知道應(yīng)用《婚姻法》24條判案調(diào)解的情況,以前或許停留在抽查層面,不然就是要花費(fèi)大量的時(shí)間挨個(gè)調(diào)研,費(fèi)時(shí)費(fèi)力還不一定全面。而現(xiàn)在,包括中國裁判文書網(wǎng)、北大法寶在內(nèi)的多家平臺可以提供大數(shù)據(jù)檢索,簡單輸入關(guān)鍵詞就可以在海量的數(shù)據(jù)庫里精確定位到需要的案例信息,并且呈現(xiàn)出來的數(shù)據(jù)有一定的區(qū)分,網(wǎng)站通常會(huì)自動(dòng)提供一些分類指標(biāo),例如是在哪個(gè)地區(qū)哪級法院,案由是什么,方便后期進(jìn)行圖表統(tǒng)計(jì),用以畫出餅圖、樹狀圖更直觀地了解數(shù)據(jù)面貌。
2、 更雜
但是問題也接踵而來,很多人會(huì)發(fā)現(xiàn)搜索結(jié)果有時(shí)并不一定完全符合預(yù)設(shè)情境,甚至文不對題,比如搜索“轉(zhuǎn)讓股權(quán)”而非“股權(quán)轉(zhuǎn)讓”就可能導(dǎo)致一些案例擦肩而過。而數(shù)據(jù)本身來源的多樣性也導(dǎo)致了數(shù)據(jù)質(zhì)量不一,各地區(qū)各層級司法文書的撰寫水平存在差異,于是經(jīng)檢索獲得的數(shù)據(jù)不一定都能充分發(fā)揮效用。但是紛繁的數(shù)據(jù)反應(yīng)出數(shù)據(jù)體量的龐大,精確性依賴的應(yīng)當(dāng)是算法而非數(shù)據(jù)源,大數(shù)據(jù)的利益促使人們精進(jìn)算法,多次嘗試不同的搜索方式以彌補(bǔ)數(shù)據(jù)瑕疵,我們添加標(biāo)簽時(shí)所固帶的不準(zhǔn)確性從某種意義上說明我們能夠接受世界的紛繁復(fù)雜,這是對更加精確系統(tǒng)的一種對抗。因?yàn)榫_的系統(tǒng)通常試圖讓我們接受一個(gè)世界貧乏而規(guī)整的現(xiàn)象——因貧乏而規(guī)整,然而事實(shí)上現(xiàn)實(shí)就是紛繁復(fù)雜的,天地間存在的事物遠(yuǎn)多于系統(tǒng)所設(shè)想的。不是“一個(gè)唯一的真理”,一款法律條文不是只能適用于一種案情,多款法律條文組合可以推導(dǎo)出不同的邏輯鏈條。要想獲得大規(guī)模數(shù)據(jù)帶來的好處,混亂應(yīng)該是一種標(biāo)準(zhǔn)途徑,而不應(yīng)該是竭力避免的。
3、更好
還有一點(diǎn)極為精妙地同時(shí)出現(xiàn)在法律和大數(shù)據(jù)的世界里,中國作為非判例法國家,查詢其他相似案例固然可以幫助人們預(yù)測案情未來走向,但是這些信判例卻不可以直接作為法源或是最有力的論證。不過,判例中所提到的法律條文,法律條文串起的邏輯思路卻能另一起案件中得以運(yùn)用。相似不代表相同,這是大數(shù)據(jù)時(shí)代個(gè)性化定制中存在的問題,人們在淘寶買了一件衣服之后,相似的預(yù)測方式會(huì)讓系統(tǒng)推薦同樣的款式不同的店家,或許由于渠道或者面料的不同,價(jià)格存在一定差異,但是消費(fèi)者很少會(huì)在短時(shí)間內(nèi)重復(fù)購入。而相關(guān)的預(yù)測方式會(huì)考慮這件衣服的特質(zhì)和要素,譬如蠶絲面料、短袖、款式較為保守等等,這通常折射出消費(fèi)者的偏向,于是再有這些元素組合而成的衣服也很有可能受到青睞。讓數(shù)據(jù)更好意味著提高數(shù)據(jù)的效用,選擇關(guān)聯(lián)度高的數(shù)據(jù),能成功起到預(yù)測的作用。法律是具有預(yù)測的功能的,而大數(shù)據(jù)可以驗(yàn)證或者說提高預(yù)測的可信度。當(dāng)我們看到大量的案例真真實(shí)實(shí)地告訴我們許多故意殺人罪犯罪嫌疑人最終真的被判處死刑時(shí),我們愈發(fā)地相信寫在刑法里的條文所具有的威懾力,更加謹(jǐn)言慎行。
二、量化數(shù)據(jù),從“T” 到 “I”
大數(shù)據(jù)發(fā)展的核心動(dòng)力來源于人類測量、記錄和分析世界的渴望,如今的信息技術(shù)變革重點(diǎn)落在“T”(技術(shù))上,而不是在“I”(信息)上。現(xiàn)在,我們是時(shí)候把聚光燈打向“I”,開始關(guān)注數(shù)據(jù)本身了。
數(shù)字化和數(shù)據(jù)化是兩個(gè)不同的詞語,比如說有一篇判決書適用法律嚴(yán)絲合縫、遣詞造句文采斐然,人們把判決書的每一頁拍下來,再上傳到網(wǎng)上,于是更多的人打開一張張jpg,開始閱讀這篇判決書,這是數(shù)字化。而中國裁判文書網(wǎng)、北大法寶的字符串已經(jīng)經(jīng)過了有效的處理,在我們看來的漢字對于電腦而言是不同意味的0和1,這些網(wǎng)站的后臺當(dāng)然不是活生生的工作人員在一張一張翻看全國各地的司法文書,人為地看到“一審”就歸到“一審”那摞紙上,而是計(jì)算機(jī)算法自動(dòng)識別著不同的字符串,按照指定要求分門別類,這是數(shù)據(jù)化。存儲成本的大幅下降,使得保存數(shù)據(jù)比丟棄數(shù)據(jù)更加容易,書盈四壁固然學(xué)問高深,但是大數(shù)據(jù)時(shí)代的數(shù)據(jù)卻可以得到更長久、更妥善的保存。數(shù)據(jù)的非競爭性使其不同于物質(zhì)性的東西,價(jià)值本身不會(huì)隨著使用次數(shù)增多而減少,可以不斷地被處理。前文已敘,對搜索點(diǎn)擊的個(gè)人用戶而言,法律數(shù)據(jù)庫的好處自然是不言而喻。而大數(shù)據(jù)時(shí)代能容許數(shù)據(jù)發(fā)揮的價(jià)值,還遠(yuǎn)不限于這些現(xiàn)時(shí)的眼前的幫助。數(shù)據(jù)的真實(shí)價(jià)值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,絕大部分隱藏在表面之下。又像是靜止在山坡上的小球,它原地靜止時(shí)不聲不響,一旦釋放滾下山坡,其中的動(dòng)能就能被發(fā)現(xiàn)。數(shù)據(jù)的二次利用使得隱藏價(jià)值得以有效釋放。
我們不妨做個(gè)假設(shè),A是一名學(xué)生,看到了北大法寶上一篇教授的法學(xué)論文后深受啟發(fā),悉心查閱資料并獨(dú)立完成了一篇青出于藍(lán)而勝于藍(lán)的畢業(yè)論文。B則是一位律師,同樣看到了這篇論文之后,他被其中的論證邏輯所折服,將其遷移到了自己正在代理的案件上,后來這個(gè)案件的判決書也上了北大法寶。C則是一個(gè)知名微信公眾號的運(yùn)營小編,閱讀完這篇論文之后,他將其中的一些關(guān)鍵詞句加以摘錄,經(jīng)合理途徑征詢同意后用以評析時(shí)事新聞。不同的個(gè)體使用令這篇文章的數(shù)據(jù)得到再利用,數(shù)據(jù)的維度被不同的使用者拓展,而這些也反過來增加了這篇論文的效用,使得數(shù)據(jù)價(jià)值一翻再翻。當(dāng)然這些數(shù)據(jù)的使用建立在數(shù)據(jù)公開的前提上,數(shù)據(jù)公開依托的是大數(shù)據(jù)時(shí)代的技術(shù)發(fā)展,這是必須要感謝的科技的進(jìn)步。但技術(shù)框架的實(shí)體卻是由這些看似平凡無奇的數(shù)據(jù)所共同組成的價(jià)值不可估量的整體。數(shù)據(jù)一旦被公開,自利的人們按照自己的問題導(dǎo)向去使用數(shù)據(jù),讓數(shù)據(jù)在無形之間價(jià)值倍增,這些不同的使用方式又加成在這些數(shù)據(jù)之上,成了日后人們面對這些數(shù)據(jù)時(shí)做出預(yù)測的依據(jù)——哦,這篇論文當(dāng)年被引用了很多次啊,看來當(dāng)時(shí)很多人都是這么想的,我要多讀幾遍來了解當(dāng)時(shí)法學(xué)的觀念。
大數(shù)據(jù)公司的蓬勃發(fā)展,眾多互聯(lián)網(wǎng)公司紛紛提出“互聯(lián)網(wǎng)+”的理念,進(jìn)軍各學(xué)科各行業(yè),足以體現(xiàn)了數(shù)據(jù)價(jià)值的轉(zhuǎn)移。行業(yè)成熟致使技術(shù)不再是秘密,而數(shù)據(jù)本身的提供者會(huì)更占優(yōu)勢,數(shù)據(jù)價(jià)值移轉(zhuǎn)到數(shù)據(jù)自身和大數(shù)據(jù)思維上。傳統(tǒng)的商業(yè)模式遭到新的風(fēng)浪,數(shù)據(jù)中間商們依靠多種多樣的數(shù)據(jù)來源,對未來充滿信心。
三、管理變革,數(shù)據(jù)什么都知道
大數(shù)據(jù)時(shí)代帶來的隱憂也是不可小覷的。數(shù)據(jù)本身的,數(shù)據(jù)對其他人事物的,提起來都令人蹙眉。大數(shù)據(jù)帶來的威脅源于大數(shù)據(jù)本身的目的,用規(guī)模劇增改變現(xiàn)狀。我們的腦子或有可能被數(shù)據(jù)取代,工具和目的之間的差別顯得搖搖欲墜。我們傾向于從數(shù)字?jǐn)?shù)據(jù)的增長和奧威爾寫《1984》時(shí)所處“監(jiān)事煉獄”的角度去理解大數(shù)據(jù)給個(gè)人隱私帶來的威脅,但是事實(shí)上威脅本身并不只是被加量,而出現(xiàn)了變質(zhì)的可能性。數(shù)據(jù)的二次利用使得人們在迷霧之中就遭遇了數(shù)據(jù)對于個(gè)人隱私的迫害,“告知與許可”原來是人際交往和社會(huì)運(yùn)作中可靠的基石,但是在大數(shù)據(jù)時(shí)代人們還是無法完全預(yù)知數(shù)據(jù)公開后可能發(fā)揮效用的空間和領(lǐng)域,太過限縮會(huì)限制大數(shù)據(jù)潛在價(jià)值的挖掘,而太過空泛則無法真正地保護(hù)個(gè)人隱私。數(shù)據(jù)的重組使得部分?jǐn)?shù)據(jù)的喪失并不阻礙數(shù)據(jù)全貌的呈現(xiàn),當(dāng)不同的加密系統(tǒng)遮蓋住不同的區(qū)間時(shí),解密者通過多次嘗試可以從尚未被遮蓋的區(qū)域精巧躲過障礙,直抵目的地。
數(shù)據(jù)只知道現(xiàn)在和過去嗎?不是的,數(shù)據(jù)會(huì)說話,它仿佛會(huì)預(yù)測未來。在電影Minority Report(《少數(shù)派報(bào)告》)中,三個(gè)超自然人可以想象出逮捕的名義竟是“你即將在今天謀殺你的妻子”。數(shù)據(jù)對現(xiàn)在什么都知道,讓數(shù)據(jù)自以為精確、全面、細(xì)致地掌握了你的全貌,于是它好像比你的大腦還了解你下一步想要做什么。這是和法律上的“無罪推定”有矛盾的,因?yàn)槿嗽谡嬲缸锴熬捅粍儕Z了自由權(quán)利,我們再也無法知道他究竟會(huì)不會(huì)犯罪,他會(huì)不會(huì)因?yàn)榈赖逻x擇的能力而避開這個(gè)可能永遠(yuǎn)都不會(huì)去實(shí)施的行為。當(dāng)一個(gè)買了刀、砒霜、繩子的人突然良心悔過放棄殺人計(jì)劃時(shí),他卻很有可能會(huì)被沖進(jìn)家門的警察給嚇到,更讓他害怕的是,明明買這些東西的計(jì)劃連床邊的妻子都不知道,為什么這些警察會(huì)了解得一清二楚?
但是,以上是我們假設(shè)的壞的情況,我們放棄了自我思考的能力和自我選擇的責(zé)任,把一切都?xì)w于大數(shù)據(jù)的操縱。也許我們可以不這么濫用大數(shù)據(jù)呢。也許當(dāng)我們的數(shù)據(jù)意識到這個(gè)人有可能會(huì)有這樣或那樣的不法舉動(dòng)時(shí),我們可以選擇提前勸阻,而不是提前審判?
更大的數(shù)據(jù)永遠(yuǎn)來源于人本身,回過頭再去看最開頭的故事。維克托可以保留所有的16000張照片,畢竟他生活的年代和他的社會(huì)地位足以支撐起這樣的技術(shù),但是他選擇留下53張。這是數(shù)據(jù)預(yù)想不到的決定,但是人類就是做得出這樣的決定。當(dāng)Alpha go戰(zhàn)勝了那么多棋手之后,人們還是會(huì)覺得學(xué)圍棋不是一件愚蠢的事情,因?yàn)榧抑械淖娓缚偸桥d高采烈地拽著你說“來來來,陪爺爺下一盤棋”。你下得差了,爺爺會(huì)氣鼓鼓地吹著胡子說“教了你這么多年一點(diǎn)長進(jìn)都沒有”;你下贏了,回頭爸爸就拽過你來叮囑你“叫你讓著一點(diǎn)爺爺,下棋不要贏,哄他高興最重要”。這些,數(shù)據(jù),它知道嗎?
作者:宋靜雯
公眾號:新語莘苑
本文為原創(chuàng)文章,版權(quán)歸作者所有,未經(jīng)授權(quán)不得轉(zhuǎn)載!——學(xué)習(xí)啦