1. 達觀動態

    達觀愿與業內同行分享 助力各企業在大數據浪潮來臨之際一起破浪前行

    AI助力智能投研|廣發資管聯合達觀數據打造智能知識圖譜系統
    隨著人工智能技術的發展與應用,知識圖譜作為AI進步的階梯越來越受到學術和產業界的重視,并且已經在很多金融領域體現了應用價值。作為證券的龍頭企業,廣發資管一直走在技術創新的最前列,在廣發資管與達觀數據合作的知識圖譜系統中,通過AI賦能智能投研,有效提升投資效率。知識圖譜
    達觀知識圖譜平臺致力于以知識圖譜為中樞的知識中臺,為企業實現一整套圖譜全流程設計構建工作。從原始數據源(包括結構化數據、非結構化數據)、數據集管理到設計、構建圖譜以及圖譜的管理、應用,進行了平臺化、工具化的功能整合和優化。
    主要功能包括:達觀知識圖譜首頁、圖譜管理、圖應用、時序圖應用、機器學習建模、圖譜模式設計、實體和關系標注、數據源管理、數據集管理、知識獲取、系統管理等功能模塊。
    知識圖譜2
    在智能投研場景中,知識圖譜平臺依托數據和技術,用機器輔助研究與投資。以下介紹達觀數據與廣發資管合作的知識圖譜系統在智能投研場景的應用實踐。

    #1?智能投研圖譜建設主要需求分析

    智能投研以數據為驅動,經過NLP自然語言處理后形成直觀的可視化指標數據,最終給決策參考帶來有價值的投研情報。在這過程中,要實現最終的可視化投研情報,我們主要需要做以下幾點:??圖譜構建:在最新的圖譜技術框架上構建公司基礎圖譜、公司關系圖譜、股權結構圖、證券圖譜、地區圖譜、地區公司圖譜、產業鏈進出口圖譜、國家進出口圖譜、人物圖譜、行業圖譜等。??關系量化:通過特定數值權重和算法,將圖譜節點之間的關系量化成數值,圖譜節點根據風險程度(或者實體重要性、實體關注度等其他權重)來展示顏色、大小。??智能搜索:按照公司關注度對搜索結果進行排序,根據關系量化結果智能推薦實體重要的關聯方。

    #2 ?智能投研圖譜建設解決方案

    達觀圍繞以上三點主要訴求進行方案設計,構建起一套完整的知識圖譜系統。

    圖譜構建

    以下為一個圖譜構建完成的例子來介紹整體圖譜結構:
    知識圖譜3

    01公司基礎圖譜

    通過公司基礎信息、財務指標、關聯公司、關聯證券和屬性等數據來了解公司相關信息。
    知識圖譜4

    02公司關系圖譜

    查看公司間多重關系、公司關聯方的特征分布。
    知識圖譜5

    03股權結構圖譜

    股權結構通過股權關系,可以了解一個公司投資另一個公司及投資占比。
    知識圖譜6

    04人物圖譜

    從公司基礎信息表中將人物信息作為節點,將個人信息與公司進行關聯,將任職關系表中的公司代碼與公司節點進行關聯,構造圖數據庫中人物圖譜。
    知識圖譜7

    05證券圖譜

    展示公司發行的證券相關信息,支持查看證券的關聯公司和詳細屬性。
    知識圖譜8

    06地區圖譜

    展示所屬地區的多重關系、地區經濟財政數據等。
    知識圖譜9

    07地區宏觀圖譜

    查看該地區經濟財政數據。

    知識圖譜10

    08地區公司圖譜

    查看當地公司間的多重關系、公司關聯方的特征分布。
    知識圖譜11

    09行業圖譜

    查看公司間上下游關系及公司從屬行業
    知識圖譜12

    10產業鏈公司圖譜

    通過公司間上下游關系推導行業間上下游關系。
    知識圖譜13

    11產業鏈進出口圖譜

    根據世界投入產出表查看國內行業對外進出口關系及依存度。知識圖譜14

    12國家進出口圖譜

    根據世界投入產出表查看國家間進出口關系及密切程度。知識圖譜15

    關系量化

    此過程主要重在梳理原始數據中關系量化的規則。首先,公司與公司之間存在股東、子公司、孫公司、投資、合營、合作、擔保、訴訟、實際控股、債權、債券、上下游以及其他關系。規則可根據相應關系梳理為對應的投資占比、表決權、擔保金額、刑事訴訟、民事訴訟、行政訴訟、仲裁、發行債券等來定義權重,最后由模型算法算出綜合得分。其次,公司與人物之間存在投資、高管、實際控股等關系。當投資占比、控股比例的不同會有相應的權重得分。最后,綜合以上兩方面的權重得分,再次計算出最終的關系量化數值,圖譜節點亦根據該數值(風險程度或者實體重要性、實體關注度等其他權重)來展示顏色、大小。
    知識圖譜16
    在這個場景中,存在的挑戰如下:第一是數據的龐雜和異構。在投研場景中面對的數據類型和數據源非常豐富,且存在多個數據庫系統的集合。第二是面臨缺乏專業投研領域的人員參與。這極大的增加了梳理數據的成本。

    智能搜索

    在投研工作中,投研系統一般都會提供基礎搜索服務,但面臨數據的復雜性,基礎搜索無法有效輔助投研人員快速從海量數據中找到所需要的信息價值點。因此,在基礎搜索之上,根據項目實際搜索規則,模型算法計算出搜索推薦的排序得分,以提供精準搜索結果的服務,最終可以協助投研人員快速查詢到所需的問題答案,極大的提高了投研中在信息分析方面的工作效率。
    整個搜索優化主要使用場景為搜索聯想排序和搜索結果排序。當輸入內容(下文用query)與數據中的實體名稱完全匹配時,搜索排序按照相關度算法結果進行排序;當query與數據中的實體名稱進行模糊匹配,數據庫中有多個實體名稱與query相關時,多個實體需按一定規則進行排序。第一層:優先按照相關性排序;第二層:返回的相關多個實體,按照類型排序:

    優先返回:公司,Company

    其次:債券,Bond

    再次:行業,Indusrty

    第三層:存在多個結果都與query相關時,按照實體得分進行排序,例如輸入“招商證券”,可以匹配到“招商證券股份有限公司”、“招商證券資研究發展中心”、“招商證券股份有限公司深圳前海證券營業部”等,按照實體的得分進行排序來提供精準搜索結果。

    投研的智能圖譜通過數據結合邏輯,在有了海量數據后,結合專家邏輯,達觀數據建出了一整套系統,將投資分析的研究體系沉淀于知識圖譜系統中,為投研量化研究提供了良好的基礎設施。?目前,作為中國知識圖譜領域代表廠商,達觀數據參與IEEE知識圖譜系列標準研制工作,積極推動知識圖譜在國內的發展與規范及參與編寫《知識圖譜選型與實施指南》。達觀知識圖譜平臺可廣泛應用于金融、汽車工業、電力電網、能源、消費電子、通信、集成電路、船舶制造、材料、航空航天、制藥、醫療設備、機械裝備、礦業、鋰電等領域,賦能企業向知識驅動轉型,激活企業創新能力,助力實現十四五規劃和2035年遠景目標。