——全新OCR平臺:表格、海外發票、財務票據、機構文檔一鍵結構化



- 內置模型抽取;集成自研的標準化識別產品,包括多種小語種識別和數十種常見卡證抽取。
- 模版抽取-簡單易用的模版標注;采用多種標注方式,支持錨點和無錨點標注,快速準確抓取目標信息。
- 模型抽取;應用最新多模態和集成算法,表現出高魯棒性和良好的泛化性。
- 分類器識別;分類器作為一個平臺功能的技術定義,在實際使用中對應我們的業務流場景,實現的功能是對打包或批量上傳的單據數據完成自動分類抽取,并進一步定義審核校驗等業務屬性。通過定義分類規則或訓練專研的分類器模型,關聯對應抽取文檔,構成一個分類器識別單元。常見的業務流諸如銀行開戶業務流、企業資質審查業務流等。


基礎模型模塊包括功能豐富的標注模塊和底層OCR模型訓練評估模塊,滿足底層模型的標注和訓練需求。

- 數據標注模塊:支持文字標注和版面標簽標注,通過機器預標注-人工修改的方式極大提高了標注效率,滿足定制化場景的真實數據快速迭代。
- 數據生成模塊:能夠通過靈活定義版式、字符、內容等來實現生成數據擴展,以滿足模型訓練的數據需求。
- OCR基礎模型訓練:支持檢測、識別、版面分析等類型的模型訓練功能,能夠從標注或生成數據靈活切分,自由編排訓練策略。底層基于達觀自研算法調優,通過流程化配置完成底層模型的訓練。
權限模塊設計了一套角色、用戶、組結構的權限系統,滿足靈活的權限配置和數據管理需求。
目前達觀OCR平臺已經賦能銀行、券商、報關、制造業、電商等多個行業的頭部客戶,為其降低大規模抽取任務的定制門檻和抽取成本,節約企業人力資源,提高工作流效率,提升用戶體驗。
市場上的人工智能產品琳瑯滿目,我們希望產品的使用價值高于技術噱頭,達觀OCR平臺從積累的無數客戶場景和需求中孵化而出,以產生使用價值為驅動,助力企業搭建繁重紙質數據的數字化橋梁,走上降本增效的高速路。