近日,達觀數據自研OCR平臺再升級,通過將計算機視覺和自然語言處理深度融合技術,形成了完備的包含文字識別、動態模板、結構化識別、文字理解的技術體系。為企業客戶提供速度快,精度高,應用泛、響應快、可定制的OCR平臺。
達觀OCR平臺核心模塊
強大的通用文檔識別
達觀OCR 基礎功能可為用戶提供0門檻、多場景、多語言、高精度的識別服務,支持中、英文印刷體識別,字符識別準確率超99.5%,支持泰語、法語、德語、西班牙語、意大利語、日語、韓語、俄語等多語種識別,同時支持對手寫中文、英文進行檢測和識別,支持對圓形章、橢圓章、矩形章等多種印章識別,并支持有框表、無框、半線表格識別與結構還原,可在識別過程中檢測文檔中的水印,支持去除文檔中的水印。
無框表格
對無框表格使用計算機視覺技術檢測表格區域,結合自然語言理解算法完善表格結構,精確定位跨行跨列、單元格合并、拆分等復雜情況,精準還原內容與版式。
印章識別
達觀智能OCR可對合同文件、常用票據等用印文檔進行圓形、橢圓印章檢測,快速獲取印章位置,摳取印章圖案,準確識別印章文字信息。
印章/水印遮蓋
票據、文檔上的重要信息往往被印章遮蓋,達觀智能OCR可定位印章區域,去除遮蓋印章,精準識別被遮擋文字。
文字模糊
對于圖片模糊、分辨率低等情況,通過圖像復原算法對低質量圖像進行逆向修復,從嘈雜模糊的圖像中提取清晰化文本,效果優異。
一站式結構化自學習訓練平臺
達觀OCR結構化自學習訓練平臺基于圖像識別和文字理解技術,適用于各類個性化證照、票據的結構化識別。用戶可自主訓練,高效、低成本的各類票據進行自動分類及識別。
自學習訓練模板
OCR模板抽取,幾分鐘1個模板即可實現對同板式高精度的結構化識別:
此外,達觀OCR模型抽取,可視化標注訓練結構化識別模型,用戶可少量的標注,自主構建訓練模型,訓練出準確率90%以上的高可用模型。
模型訓練結果實時查看:
近百種票據識別開箱即用
在票證的結構化識別中,達觀OCR可對財務票據、個人卡證、不動產和車輛以及機構文檔等多種結構化票證快速識別,涵蓋增值稅發票、火車票、機打發票、行程單、船票、國際發票、混貼發票、財務發票的混合類型、身份證、港澳居住證、港澳臺居民來訪內地通行證、銀行卡、中國護照、車輛等級證、不動產證、車輛合格證、銀行流水、開戶許可、紅頭文件、財報識別等近百種類型。
達觀OCR平臺技術優勢
獨有的計算機視覺和自然語言處理深度融合技術
達觀數據通過將CV與自然語言處理進行深度融合,內置圖像矯正模型、文字檢測模型、文字識別模型和語義修正模型等多種前沿技術,極大提升OCR識別準確率。
豐富的語料積累,支持復雜文檔識別與抽取
除基礎憑證、合同、常用報表外,達觀數據在處理各種復雜表格和復雜影印件、以及各種復雜文本都有成功的實施經驗,準確率均達到95%以上。
根據業務需求訓練模型,保障識別準確率
達觀OCR可精準識別各種實際應用中的復雜情況能力,具備非常高的復雜環境可用性。出色的文檔結構的版面分析和文檔圖像處理能力,將各類常見文檔圖片或文檔掃描件中的文字信息按照文檔原有的格式進行文本識別和還原,實現將文檔中的文字元素(單字、文字塊、行、表格等)和版面格式抽離并按順序輸出。