1. 達觀動態

    達觀愿與業內同行分享 助力各企業在大數據浪潮來臨之際一起破浪前行

    達觀知識圖譜, 輔助企業智能運營和決策

    一、知識圖譜的含義

    每個領域都有自己的行業經驗、規則、分類、約定俗成的做法等,這些都可以視為行業的“知識”,這些知識匯總在一起,相互聯通,構成的一個知識網絡,就是“知識圖譜”。知識圖譜是結構化的語義知識庫,是一個巨大的知識網絡,網絡中的節點表示實體、節點之間的邊表示實體和實體之間的關系。節點可以是實體,如人物、企業、地點等,實體關系如投資關系、歸屬關系、關聯關系等。 

    zuixin

     

    知識圖譜為海量、異構、動態的大數據表達、組織、管理以及利用提供了更為有效的方式,使得網絡的智能化水平更高,更接近于人類的認識思維。構建領域內或者全網的知識圖譜對于很多企業或科研單位來說是一項很重要的工作,目前基于知識圖譜的研究如火如荼,很多知名的領域內信息抽取系統都已經被使用,包括Never-Ending語言學習系統以及Google在知識圖譜的工作。

     

    改1

     

    二、知識圖譜的意義

    隨著我國人紅利消失與人力成本增加,我國傳統企業面臨著智能化升級與轉型,從而對知識圖譜技術的應用產生了強烈的需求。傳統企業需要引入高新技術解放勞動力,降低成本。實現簡單知識工作(只需簡單知識即可完成的工作)的自動化、智能化處理,無疑是個有效的方案。
    大量的行業領域有豐富的應用場景和大數據基礎,為知識圖譜在各行業領域的大規模應用奠定了基礎。我國的互聯網、電信、電商、社交、出行等各行業都有著龐大的業務數據量;面向消費者、企業、政府的應用模式豐富多樣,這些都是知識圖譜技術應用成長的富饒土壤。

    1.沉淀行業知識,促進行業智能升級

    很多行業經過數十年的信息化建設,已經完成了數據的采集與管理階段,這為智能化升級與轉型奠定了良好基礎。對于企業而言,增加收入、降低成本、提質提效、保障安全都是核心業務訴求。知識圖譜技術的應用是進一步滿足這些核心訴求的手段之一。在實現智能化的過程中,需要將行業知識賦予機器,讓機器具備一定的行業認知能力,從而機器人可代替行業人員從事簡單知識工作。采用知識圖譜技術,助力企業沉淀行業知識,可實現簡單知識工作自動化。
    改1

    2.與機器智腦的建設深度融合

    隨著我國人工智能戰略的持續推進,作為人工智能重要分支的機器人產業迎來了發展的黃金期。其中,各種服務機器人如客服機器人、陪伴機器人、問診機器人、導購機器人、理財機器人等,已經走進人們的日常生活。與工業機器人相比,服務機器人對機器認知水平的要求較高,而對動作能力的要求較低。因此,具有一定認知能力的機器智腦是服務機器人產業發展中至關重要的環節,而機器智腦的重要組成部分是知識庫。機器是否具有知識并且能夠利用知識形成認知能力,進而解決問題,是服務型機器人具備更強服務能力的關鍵。以知識圖譜為代表的大數據知識工程為練就機器智腦帶來了全新機遇。未來機器智腦的演進過程也將是知識圖譜等知識庫技術不斷賦能機器人以及各類硬件終端的過程。

    3.數據治理以及大數據變現緊密結合

    多行業和企業都有大數據,但是這些大數據非但沒有創造價值,反而帶來了數據管理與治理方面的負擔。大數據價值變現遭遇阻礙的原因在于缺少智能化的手段,具體而言就是缺少一個能像人一樣理解行業數據的知識引擎。達觀數據智能知識引擎,采用知識圖譜等前沿技術,可以自動化、智能化提煉、萃取、關聯、整合數據,代替人工挖掘數據價值,強有力的支撐大數據價值變現。知識圖譜作為呈現領域知識之間的數據融合與關聯,已經成為知識圖譜領域研究的主要方向之一。

    三、達觀知識圖譜

    達觀知識圖譜,是達觀數據公司面向各行業知識圖譜應用而推出的新一代產品,其整合了知識圖譜的設計、構建、編輯、管理、應用等全生命周期實現,可以實現從業務場景出發到生成圖譜、再到實現基于圖譜的應用,顯著提高了各行業中知識圖譜的落地效率和效果。
    知識圖譜3

    1.知識建模

    知識建模,是業務專家參與圖譜schema進行設計的過程,相當于關系數據庫的表結構定義。圖譜模式設計包括實體類型和實體關系以及對應屬性的定義。實體類型實現對圖譜模式中實體類型及其屬性的設計,通過實體關系實現對圖譜模式中關系類型及其屬性的設計。

    改2

    2.知識抽

    知識抽取是從不同來源、不同數據中進行知識提取,形成知識并存入圖譜的過程。通過機器自動實現大批量非結構化文檔的抽取工作,可以由算法模型根據知識標注的訓練樣本得出適合特定文檔類型的抽取模型來抽取,也可以根據定義一些規則模型來實現抽取。

    改3

    3.知識融合

    知識融合將來自不同的數據源的知識在同一規范下進行異構數據整合,形成統一的知識標識。具有實體鏈指、屬性歸一、知識補全等能力。
    知識圖譜6

    4.知識存儲

    知識存儲就是研究采用何種方式將已有知識圖譜進行存儲。達觀數據企業研究開發的知識圖譜采用ArangoDB圖數據庫作為知識圖譜三元組信息的統一存儲與管理,在ES搜索引擎的基礎上,對圖數據庫進行了一定層面的封裝,能夠利用知識圖譜快速探索10級以上的關系鏈路,知識探索和發現響應時間達秒級。

    四、知識圖譜的應用

    隨著人工智能技術的發展,越來越多的知識工作將逐步被機器所代替,人類的腦力將被逐步解放?;谥R圖譜的認知智能的應用廣泛而多樣。各類應用(包括數據分析、智慧搜索、智能推薦和決策支持)都對知識圖譜提出了需求。

    1.數據分析

    大數據的精準與精細分析需要知識圖譜。如今,越來越多的行業或者企業積累了規??捎^的大數據,但是這些數據并未發揮應有的價值,很多大數據還需要消耗大量的運維成本。大數據非但沒有創造價值,在很多情況下還成為一筆負資產。這一現象的根本原因在于,當前的機器缺乏諸如知識圖譜這樣的背景知識,無法準確理解數據,限制了大數據的精準與精細分析,制約了大數據的價值變現。事實上,輿情分析、互聯網同察,還有軍事情報分析和商業情報分析,都需要對大數據做精準分析,而這種精準分析必須有強大的背景知識來支撐。
    除了大數據的精準分析,數據分析領域另一個重要趨勢——精細分析,對知識圖譜和認知智能提出了訴求。比如,很多汽車制造商都希望實現個性化制造,即希望從互聯網上搜集用戶對汽車的評價與反饋,并以此為依據實現汽車的按需與個性化定制。為了實現個性化定制,廠商不僅需要知道消費者對汽車的褒貶態度,還需要進一步了解消費者對汽車產品不滿意的細節,以及希望如何改進,甚至需要知道消費者提及了哪些競爭品牌。顯然,面向互聯網數據的精細化數據分析要求機器具備關于汽車評價的背景知識(比如,汽車的車型、車飾、動力、能耗等)。

    2.智慧搜索

    智慧搜索體現在很多方面,比如,在淘寶上搜索“iPad充電器”,用戶的意圖顯然是要搜索一個充電器,而不是一個iPad,這個時候淘寶應i反饋給用戶若干個充電器產品以供選擇,而不是iPad。再比如,在Google上搜索“toys kids”或者“kids toys”,不管搜索這兩個詞中的哪一個,用戶意圖都是在搜索給孩子玩的玩具,而不是玩玩具的小孩,因為一般不會有人用搜索引擎搜孩子。
    傳統搜索的對象以文本為主,未來越多的應用希望能搜索圖片和聲音,甚至還能搜代碼、視頻、設計樸素等?,F在的搜索不僅要做篇章級的搜索,還希望能做到段落級、語句級、詞匯級的搜索。

    隨著市場的變化,跨媒體的協同搜索需求日益增多。比如明星在微博上曬出一張自家小區的照片,就有好事者根據她的微博社交網絡、百度地圖、微博文本與圖片信息等多個渠道、多種媒體的信息,通過聯合檢索準確推斷出其所在小區的位置。

    為了把握當前機遇,企業應該建立基于知識圖譜的專業知識庫。比如,建立iPad與充電器之間配件關系就可以幫助平臺識別搜索核心詞,從而準確識別搜索意圖。復雜對象的搜索需要建立標簽圖譜(由標簽以及標簽之間的關聯關系構成的知識圖譜)來增強對象的表示。

    3.智能推薦

    智能推薦需要知識圖譜。各智能推薦任務均對知識圖譜提出了需求。

    第一,場景化推薦。比如,用戶在淘寶上搜“沙灘褲”“沙灘鞋”,可以推測出這個用戶很可能要去海邊度假。那么,平臺就可以推薦“泳衣”“防曬霜”之類的海邊度假常用物品。

    第二,冷啟動階段下的推薦。冷啟動階段的推薦一直是傳統基于統計行為的推薦方法難以有效解決的問題。利用來自知識圖譜的外部知識,增強用戶與物品的描述,提升匹配精度。

    第三,跨領域推薦?;ヂ摼W上存在大量的異質平臺,實現平臺之間的跨領域推薦有著越來越多的應用需求。比如一個微博用戶經常曬九寨溝、黃山、泰山的照片,那么為這位用戶推薦一些淘寶上的登山裝備十分合。這是典型的跨領域推薦,其中微博是一個媒體平臺,淘寶是一個電商平臺。它們的語言體系、用戶行為完全不同,實現這種跨領域推薦有著巨大的商業價值,但是需要跨越巨大的表達鴻溝(異質平臺的表達方式完全不同)。如果能有效利用知識圖譜這類背景知識,不同平臺之間的這種表達鴻溝是有可能被跨越的。

    第四,知識型的內容推薦。如果用戶在電商平臺上搜索“三段奶粉”,那么我們應該能為用戶推薦一些喝三段奶粉的嬰兒每天的需水量、常見疾病的預防等育兒知識。對這些知識的推薦將顯著增強用戶對于所推薦內容的信任與接受程度。消費行為背后的內容與知識需求將成為推薦的重要考慮因素。將各類知識片段與商品對象建立關聯,是實現這類知識型的內容推薦的關鍵。

    4.決策支持

    知識圖譜為決策支持提供深層關系發現與推理能力。人們越來越不滿足于“葉莉是姚明的妻子”這樣的簡單關聯的發現,而是希望發現和挖掘一些深層、潛藏的關系。比如,在王寶強離婚的時候,就有人通過人物關聯圖譜深挖過為什么王寶強找張起淮當律師。人物關聯圖譜顯示王寶強與馮小剛關系很好,而馮小剛與徐靜蕾和趙薇兩位演員經常合作,張起淮正好是這兩位演員的法律顧問。這樣的關系鏈路在一定程度上揭示了王寶強與他的之間的深層次關聯,也解釋了王寶強為何選擇這位律師。更多類似例子發生在金融領域。在金融領域,我們可能十分關注投資關系,比如,為何某個投資人投資某家公司;我們十分關注金融安全,比如,信貸風險評估需要分析一個貸款人的關聯人物和關聯公司的信用評級。因此,建立包含各種語義關聯知識圖譜,挖掘實體之間的深層關系,已經成為決策分析的重要輔助手段。