企業(yè)大數(shù)據(jù)挖掘?yàn)閱T工構(gòu)建職場(chǎng)知識(shí)圖譜

時(shí)間：2017-02-22 14:56:21 學(xué)良775由分享

　　微軟亞洲研究院有一位大名鼎鼎的個(gè)人助理，昵稱EDI(音同Eddie)，從幫助員工預(yù)訂會(huì)議室到更新梳理公司內(nèi)部“八卦”信息，隨叫隨到全年無(wú)休;不僅如此，EDI對(duì)員工們的喜好也堪稱了如指掌，知道你最喜歡什么時(shí)候、最常在哪里開(kāi)會(huì)，也知道你最關(guān)心哪些新聞。下面是有企業(yè)大數(shù)據(jù)挖掘為員工構(gòu)建職場(chǎng)知識(shí)圖譜，歡迎參閱。

　　企業(yè)大數(shù)據(jù)挖掘為員工構(gòu)建職場(chǎng)知識(shí)圖譜

　　職場(chǎng)知識(shí)圖譜

　　EDI為何如此聰明?一方面，EDI擁有精準(zhǔn)的自然語(yǔ)言理解和對(duì)話能力;另一方面，利用深度學(xué)習(xí)和社交網(wǎng)絡(luò)融合等前沿技術(shù)，EDI為每個(gè)用戶構(gòu)建了一張關(guān)于他們的職場(chǎng)知識(shí)圖譜。本文首先介紹如何構(gòu)建用戶的職場(chǎng)信息圖譜，這是EDI個(gè)人助理的“大腦”，后續(xù)文章將介紹如何賦予EDI自然語(yǔ)言理解和對(duì)話能力，讓它能為主人愉快地工作，歡迎有興趣的讀者繼續(xù)關(guān)注。

　　“The more it has, the more it’s him.” 在英劇《黑鏡》第二季第一集當(dāng)中，女主人公通過(guò)和機(jī)器人對(duì)話的方式懷念自己逝去的男友。借助大數(shù)據(jù)的力量，這個(gè)機(jī)器人能夠從主人公男友的社交網(wǎng)絡(luò)甚至私人郵件中抽取和整合他的個(gè)人信息、關(guān)系網(wǎng)絡(luò)和語(yǔ)言習(xí)慣，構(gòu)建屬于這位男生的個(gè)性化知識(shí)圖譜，從而實(shí)現(xiàn)對(duì)他惟妙惟肖的模仿——如上圖臺(tái)詞所說(shuō)，系統(tǒng)抓取到的信息越多，機(jī)器人模仿的語(yǔ)言行為就越和他本人相似。

　　若說(shuō)《黑鏡》里的機(jī)器人是基于關(guān)于用戶的全方位知識(shí)圖譜，那么，本文要介紹的EDI 則專注于用戶的一個(gè)側(cè)面，即用戶的職場(chǎng)知識(shí)圖譜。

　　在一個(gè)機(jī)構(gòu)里，我們把員工的職場(chǎng)知識(shí)圖譜叫做EDI Graph(Enterprise Deep Intelligence Graph)，圖譜內(nèi)的信息包括員工的部門、技能、項(xiàng)目、文檔、時(shí)間、會(huì)議室和辦公室等，其中每條信息又有各自豐富的屬性，信息與信息之間也存在豐富的關(guān)聯(lián);這些信息的來(lái)源主要分為企業(yè)內(nèi)部數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)兩部分，其中，企業(yè)內(nèi)部數(shù)據(jù)主要包括內(nèi)部網(wǎng)頁(yè)、文檔、會(huì)議記錄、員工基本資料等數(shù)據(jù)，互聯(lián)網(wǎng)數(shù)據(jù)則主要包括維基百科、學(xué)術(shù)論文、LinkedIn等公開(kāi)數(shù)據(jù)。如何將來(lái)自公司內(nèi)部、社交網(wǎng)絡(luò)、Web等不同來(lái)源的異構(gòu)數(shù)據(jù)進(jìn)行梳理和融合、構(gòu)成一張完整的職場(chǎng)知識(shí)圖譜，這是構(gòu)建EDI Graph的關(guān)鍵技術(shù)。只要有了圖譜，就能構(gòu)建EDI Bot，讓這個(gè)昵稱為EDI的機(jī)器人擁有“大腦”，能進(jìn)行理解和分析，了解每個(gè)員工的專長(zhǎng)以及從事的工作內(nèi)容，成為員工貼心的個(gè)人助理。

　　與《黑鏡》里的機(jī)器人相似，EDI也是知道信息越多就越能了解人以及人與人之間的關(guān)系，越接近員工的工作知己。

　　信息融合

　　“EDI, where is BJW1?”

　　對(duì)于同一件事，人們往往會(huì)有不同的表達(dá)，這是人與機(jī)器的一大不同。舉例：“BJW1”是英文“北京微軟西1號(hào)樓“的簡(jiǎn)稱，但人們?cè)诓煌榫诚驴赡苓€有其他表達(dá)方式，比如“BJW-1”、“Beijing West 1”、“Microsoft Tower 1，Beijing，China”以及“微軟1號(hào)樓”等，這些表達(dá)上的差異無(wú)法用簡(jiǎn)單的字符串匹配或縮寫(xiě)匹配的方式來(lái)完成相似度的計(jì)算。那么，EDI該如何知曉它們所指的其實(shí)是同一個(gè)地點(diǎn)呢?

　　我們的做法是將這些千變?nèi)f化的表達(dá)看作不同的語(yǔ)言，通過(guò)機(jī)器翻譯技術(shù)，找到詞與詞之間具有的某種翻譯關(guān)系，從而實(shí)現(xiàn)相似詞語(yǔ)的融合。

　　首先，利用種子規(guī)則，找到信息中高準(zhǔn)確度的種子節(jié)點(diǎn)對(duì)，利用種子節(jié)點(diǎn)對(duì)中屬性的不同表達(dá)，構(gòu)建平行語(yǔ)料庫(kù)。之后，使用深度學(xué)習(xí)技術(shù)構(gòu)建翻譯模型，完成不同信息源之間的屬性“翻譯”。通過(guò)機(jī)器翻譯，不僅能計(jì)算簡(jiǎn)單字符串匹配無(wú)法計(jì)算的相似表達(dá)，甚至還能計(jì)算不同語(yǔ)言中同一表達(dá)的相似度，讓EDI 能夠吸收消化更多更廣泛的信息來(lái)源，對(duì)用戶的表達(dá)做出更準(zhǔn)確的判斷。

　　“Hi EDI, schedule a meeting with David now.”

　　得到不同表達(dá)的相似度之后，如何精準(zhǔn)對(duì)應(yīng)也是一門學(xué)問(wèn)。例如，只要給個(gè)人助理EDI發(fā)送一條非常簡(jiǎn)潔的信息“幫我和David訂個(gè)會(huì)議室”，EDI就能幫助員工準(zhǔn)確預(yù)訂好會(huì)議室。然而只要打開(kāi)微軟員工目錄，就會(huì)發(fā)現(xiàn)名為David的員工大約有兩千名，EDI如何分辨他們并從中確定要和用戶開(kāi)會(huì)那個(gè)David究竟是哪一個(gè)呢?要知道，這兩千位名為David的員工，有些位于同一部門，甚至職務(wù)也都相同，這時(shí)，單單通過(guò)機(jī)器翻譯得到的屬性相似度，可能無(wú)法做出正確的對(duì)應(yīng)。

　　精確匹配的突破口在于不同David的職場(chǎng)知識(shí)圖譜，其網(wǎng)絡(luò)結(jié)構(gòu)也是不同的，我們使用協(xié)同訓(xùn)練(Co-Training)的方法，迭代地進(jìn)行圖結(jié)構(gòu)信息的匹配。在每一輪迭代中，首先利用當(dāng)前已匹配的實(shí)體對(duì)，更新神經(jīng)網(wǎng)絡(luò)翻譯模型，并利用更新后的模型完成屬性間的相似度計(jì)算;同時(shí)，根據(jù)當(dāng)前已匹配節(jié)點(diǎn)計(jì)算待匹配節(jié)點(diǎn)的公共相鄰節(jié)點(diǎn)對(duì)，通過(guò)結(jié)合屬性匹配和圖結(jié)構(gòu)，可以得到新的匹配集合，如此迭代直到收斂。

　　簡(jiǎn)單說(shuō)，EDI能將職場(chǎng)知識(shí)圖譜中同一個(gè)David的信息融合到一起，把不同的David放在各自節(jié)點(diǎn)上，然后通過(guò)參會(huì)歷史、項(xiàng)目合作、內(nèi)部的匯報(bào)關(guān)系等等，了解公司同事之間的遠(yuǎn)近，從而鎖定用戶真正想找的David，完成用戶交給的安排會(huì)議并預(yù)訂會(huì)議室的任務(wù)。

　　信息分析與理解

　　《黑鏡》中的機(jī)器人系統(tǒng)對(duì)主人公男友在社交網(wǎng)絡(luò)上的電郵、照片、視頻甚至聊天記錄進(jìn)行了深入的分析和學(xué)習(xí)，從而實(shí)現(xiàn)對(duì)其惟妙惟肖的模仿。同樣，EDI在掌握豐富的信息之后，也需要進(jìn)一步分析和理解這些數(shù)據(jù)，才能深入了解企業(yè)中的每一個(gè)員工。

　　在一個(gè)企業(yè)中為員工構(gòu)建職場(chǎng)知識(shí)圖譜，最為基本也最為重要的一點(diǎn)，就是構(gòu)建出每位員工的工作內(nèi)容時(shí)間線，通過(guò)時(shí)間線我們就可以了解到“who，when，what”，即：誰(shuí)，在何時(shí)，做過(guò)什么事情。

　　有了這些結(jié)構(gòu)化的知識(shí)，如果想知道誰(shuí)在做Cortana相關(guān)的項(xiàng)目，只需要問(wèn)“Who is working on Cortana?”，EDI就能給出你想要的答案。這對(duì)構(gòu)建企業(yè)智能應(yīng)用具有極為重要的意義。

　　順帶指出，項(xiàng)目名稱的抽取也不簡(jiǎn)單。我們無(wú)法通過(guò)簡(jiǎn)單地標(biāo)注數(shù)據(jù)、訓(xùn)練模型或是基于規(guī)則的方法來(lái)進(jìn)行抽取，因?yàn)椴煌袠I(yè)、不同領(lǐng)域?qū)τ陧?xiàng)目的表述可能千變?nèi)f化，那么EDI是如何抽取出工作內(nèi)容以及相關(guān)項(xiàng)目的名稱呢?

　　我們認(rèn)為，項(xiàng)目的名稱都是語(yǔ)義完整的短語(yǔ)——例如，在“微軟亞洲研究院在丹棱街5號(hào)”這句話里，“微軟亞洲研究院”就是一個(gè)語(yǔ)意完整的短語(yǔ)——于是，我們先從企業(yè)內(nèi)部的數(shù)據(jù)抽取出語(yǔ)意完整的短語(yǔ)，再?gòu)倪@些短語(yǔ)中劃分出項(xiàng)目的名稱。在微軟內(nèi)部，各種文檔、網(wǎng)頁(yè)等總量在千萬(wàn)這個(gè)數(shù)量級(jí)，而統(tǒng)計(jì)規(guī)則例如互信息、熵等，在數(shù)據(jù)量較大的時(shí)候可以有效地完成對(duì)短語(yǔ)的切分。因此，我們?cè)谶f歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network)模型中通過(guò)后驗(yàn)正則化(Posterior Regularization)引入互信息、熵等統(tǒng)計(jì)量定義的偏序切分規(guī)則，在完成短語(yǔ)劃分的同時(shí)，得到其對(duì)應(yīng)的語(yǔ)意向量表示，最后通過(guò)度量語(yǔ)意信息來(lái)判斷其是否是一個(gè)項(xiàng)目的名稱。

　　小結(jié)

　　有了基于企業(yè)內(nèi)部和互聯(lián)網(wǎng)大數(shù)據(jù)構(gòu)建員工的職場(chǎng)知識(shí)圖譜EDI Graph，就能讓機(jī)器人個(gè)人助理EDI Bot擁有聰明的“大腦”，為用戶提供貼心的服務(wù)。我們將在后續(xù)的文章具體介紹EDI Graph怎么被運(yùn)用到機(jī)器人的工作場(chǎng)景中，以及怎樣通過(guò)平臺(tái)讓機(jī)器人獲得與人進(jìn)行自然語(yǔ)言對(duì)話的能力，敬請(qǐng)關(guān)注，也歡迎你就這一題目分享自己的見(jiàn)解和經(jīng)驗(yàn)。

　　【大數(shù)據(jù)挖掘組】

　　微軟亞洲研究院大數(shù)據(jù)挖掘組致力于從大數(shù)據(jù)中挖掘信息構(gòu)建海量知識(shí)圖譜，以提高人工智能應(yīng)用中的知識(shí)推理和自然語(yǔ)言理解能力。大數(shù)據(jù)挖掘組的研究方向包括數(shù)據(jù)挖掘、大數(shù)據(jù)、深度學(xué)習(xí)、自然語(yǔ)言處理、智能聊天機(jī)器人等。十多年來(lái)，該組成員的研究成果對(duì)微軟的許多重要產(chǎn)品及應(yīng)用產(chǎn)生了深刻影響，包括人立方、微軟學(xué)術(shù)搜索、讀心機(jī)器人、微軟知識(shí)圖譜(Satori)、智能聊天機(jī)器人開(kāi)發(fā)平臺(tái)等。

　　大數(shù)據(jù)挖掘組現(xiàn)招聘實(shí)習(xí)生，工作內(nèi)容涉及機(jī)器學(xué)習(xí)、大數(shù)據(jù)挖掘、自然語(yǔ)言處理等領(lǐng)域，工程和研究均可，根據(jù)個(gè)人興趣和能力確定工作內(nèi)容。要求編程能力較強(qiáng);有一定的溝通能力，有責(zé)任心;對(duì)機(jī)器學(xué)習(xí)、大數(shù)據(jù)挖掘、自然語(yǔ)言處理有熱情和興趣; 高質(zhì)量的完成工作;半年以上實(shí)習(xí)期。
猜你喜歡：

1.企業(yè)文化管理

2.企業(yè)勵(lì)志名言名句大全

3.鼓勵(lì)企業(yè)發(fā)展名言100句