1. 達觀動態

    達觀愿與業內同行分享 助力各企業在大數據浪潮來臨之際一起破浪前行

    達觀OCR首創無錨點文字提取算法,攻克行業難點
    lQLPDhspQpU0cCbNAczNBDiwZp7WMcaK88sCFEYSWwCXAA_1080_460
    達觀OCR平臺基于自主研發的視覺技術,結合知識增強的跨模態語義理解關鍵技術,提供圖像矯正、圖像分割、版面標簽分類、文字識別、信息扣取、文檔比對、表格識別、文字過濾、信息審核、文字二次加工等一整套全流程OCR模型定制與應用能力。

    多語言識別

    達觀自研OCR支持包括中文、英文、繁體中文、日語、韓語、德語、法語、西班牙語在內的數十種語言識別。

    lQLPDhspQpjH94fNAd7NBDiwV1TD_5Bv0i0CFEYYkkDiAA_1080_478

    文檔理解

    文檔智能是文檔信息識別與處理最重要的環節。達觀OCR基于百萬級文檔數據預訓練跨模態理解模型,借鑒人類閱讀理解方式,綜合文本、布局和圖像信息、讓計算機像人一樣理解文檔版面布局、語義信息。

    lQLPDhspQpvC6C3NAlvNA26wpeGscw163nACFEYdZACaAA_878_603

    信息抽取

    達觀OCR采用機器學習來讀取和處理任何類型的文檔,可以精確地提取文本、手寫字、表格和其他數據,無需人工干預,快速自動處理文檔。無論是自動信貸審批單還是財務報銷發票,都可在數秒內完成關鍵信息提取,此外還可以添加人工審核,對模型提供監督,并對敏感數據執行審核。

    lQLPDhspQp691ivNAiLNBDiwGi74YOfOAIoCFEYiXoCXAA_1080_546

    表格識別

    復雜表格識別一直是行業難點。各種文檔表格樣式不一、排版極為復雜。為此,達觀OCR表格識別算法采用空間位置關系特征結合語義信息,快速定位表格位置、還原表格結構、循環抽取重要信息、輸出結構化表格數據。

    lQLPDhspQqG4x6jNAgHNBDiwSj_nKhVyW4YCFEYnSMDiAA_1080_513

    手寫文字識別

    達觀自研OCR支持對圖片中的手寫中文、手寫數字進行檢測和識別,針對不規則的手寫字體進行專項優化識別,確保識別精度。

    lQLPDhspQqQbIr3NAp_NBDiwXqPdDwFh9CQCFEYreQCaAA_1080_671

    零門檻自主建模

    達觀OCR首創無錨點文字提取算法,支持可視化拖拽建模,無需人工版式配置或代碼開發,鼠標拖拽即可訓練模型。模型可自動對圖像拍照扭曲透視、二次打印偏移等情形進行矯正識別,自適應多種變化樣式,1個模型即可覆蓋,無需考慮同種票據的多種變化。

    lQLPDhspQqcWEHLNAZ7NA36w8xBYWMd4RMQCFEYv1cCXAA_894_414

    OCR將圖像文檔上的數據轉變成可由計算機識別理解的結構化數據,有效搭建知識橋梁,構建業務應用。達觀OCR已服務于銀行、證券、保險、汽車制造、醫藥等眾多頭部客戶,每年產生數以億級有效數據,為客戶有效降本增效、防范風險、創造多元業務價值。