1. 達觀動態

    達觀愿與業內同行分享 助力各企業在大數據浪潮來臨之際一起破浪前行

    如何用達觀數據自然語言處理平臺構建NLP模型

     

    各個行業都存在有大量的數據分析工作,這些數據可能來源于各個渠道,格式多樣,質量參差不齊。本文將帶領大家通過一個簡單的例子,初步了解使用達觀數據NLP平臺進行NLP模型建模的全過程。

     

    以新聞分類為例。首先,建立一項“新聞分類”的NLP任務:構建一個新聞分類模型,通過分析數據,構建標簽體系,標注訓練,使之可以對新聞稿件進行分類預測,預測新聞是屬于標簽體系中哪個標簽類別。我們按照大體的建模流程進行任務分解:

    構建標簽體系→數據標注→模型訓練→模型評估與調優→模型上線

     

    1.構建標簽體系

    對樣本數據進行數據分析,并結合業務專家經驗知識,構建一個適合該任務場景的標簽體系。

    通過達觀數據NLP平臺構建分類標簽

     

    2.數據標注

    有了標簽體系,下一步就是對樣本數據進行數據標注。簡單來說,數據標注的過程就是通過人工貼標簽的方式,為模型提供可學習的樣本數據,最終使模型可以自主識別數據。例如:樣本數據是“為什么我的業務C還是無法辦理?”,可以將其標注為“業務C”。

    通過達觀數據NLP平臺輕松進行數據標注

     

    3.模型訓練

    模型訓練是將已標注的數據輸入給模型,讓模型去學習其中的數據規律。通常我們會按照一定的比例,將數據集劃分為訓練集、驗證集、測試集,

    ??訓練集(training set)用于運行學習算法,訓練模型。

    ??驗證集(development set)用于調整超參數、選擇特征等,以選擇合適模型。

    ??測試集(test set)只用于評估已選擇模型的性能,但不會據此改變學習算法或參數。

    應用達觀NLP平臺可以進行一鍵完成模型訓練。

    一鍵完成模型訓練

     

    4.模型評估與調優

    模型評估

    當模型學習了訓練集數據,完成訓練后,我們需要對其進行性能評估,看看模型對新數據(測試集)的預測能力如何。

    常用評估指標包括:準確率、精確率、召回率、F1值等。

    準確率(Accuracy):就是所有的預測正確(正類負類)的占總的比重。

    精確率(Precision):查準率,即正確預測為正的占全部預測為正的比例。

    召回率(Recall):查全率,即正確預測為正的占全部實際為正的比例。

    F1值(H-mean值):F1值為算數平均數除以幾何平均數,且越大越好。

    模型評估效果展示

    模型調優

    當模型評估完成后,需要對誤差樣本進行誤差原因分析,找到模型在某些樣本數據上分類表現不好的原因,以便做針對性調整。

    模型調優是一個漫長而復雜的過程,包含模型的重新訓練、新想法的試驗、效果評估和指標對比等。

     

    5.模型上線

    當模型調優后,達到一個比較好的評估效果,即可進行模型上線,使之投入實際生產中,幫忙我們更智能便捷地完成工作。

    自動對新的語料進行分類預測

    以上是一個常規建模流程,使用者不需要會寫代碼,應用達觀NLP平臺即可快速、便捷地享受構建NLP模型的一條龍服務。

     

    達觀數據NLP平臺,不僅包含傳統NLP領域的中文分詞、詞性分析、實體抽取等基礎功能,同時針對不同行業的業務需要,提供基于篇章級、段落級的語義分析應用。充分結合當前機器學習領域、自然語言生成領域的算法和模型,提供基于業務知識的探索與深度應用,滿足行業用戶對場景化的多元需求。

     

    達觀數據自然語言處理NLP平臺能夠滿足行業客戶多元化的文本挖掘分析、事件分析、輿情分析等多場景訴求,支持貼合行業的文本內容分析、觀點提取、敏感信息過濾、評論分析、事件發展趨勢分析等高端應用。