達觀企業級搜索引擎功能詳解,實現對企業內各形態信息全方位、高效率統一檢索
達觀數據企業級搜索引擎,主要針對通信、能源、制造業等行業,解決企業內信息檢索的問題。通過對散落在各系統中的數據、內容進行統一管理和高效利用,實現對企業內的數據、文檔、人物、圖片、表格等各形態信息進行全方位、高效率的統一檢索。達觀數據企業級搜索引擎的核心功能包括:多源異構數據接入,數據解析,索引創建配置,搜索意圖識別,搜索召回與排序等功能。
要實現對企業內數據的統一搜索,首先需具備企業內多源異構數據的接入能力。達觀企業級搜索引擎支持兩種方式接入數據:數據上報和數據拉取。
數據解析包括各類文檔解析器、PDF解析器、OCR引擎等對接入的數據如各類文檔、圖片、表格進行解析,形成各個待檢索字段。
索引創建配置用于自定義構建索引。比如企業內的一篇知識文檔,往往包括標題、正文等內容字段,以及作者、時間、類型等元數據字段。用戶在搜索時,哪些字段可被搜索、哪些字段可以做篩選、哪些字段在搜索命中時需要高亮,這些自定義設置功能可以通過達觀企業級搜索引擎的索引配置頁面來實現。
搜索意圖識別是利用自然語言處理技術,分析用戶的搜索Query,理解用戶真正的搜索意圖。比如用戶搜索“最新的產品說明書”,“最新”一詞,用戶真實的搜索意圖是找最近更新的產品說明書,而不是內容中包含“最新”一詞。所以除了搜到產品說明書外,用戶還希望按照產品說明書的更新時間/發布時間進行排序。
搜索引擎是從海量信息中快速查詢用戶需要的內容,這個過程要求“搜的準”,“搜的全”,“搜的快”。所以會分為召回和排序兩個階段。召回是預篩選,排序是對預篩選的結果,按照用戶需要的程度進一步排序。比如即將到來的2022年足球世界杯,全世界球迷都希望找到冠軍球隊。召回相當于世界杯的預選賽,各大洲篩選出有實力的球隊,排除魚腩隊伍,形成32強;排序相當于世界杯的正賽,32支球隊角逐最終冠軍。為什么不讓全球所有有參賽資格的球隊直接踢正賽呢,因為這樣會導致賽事周期拉長,即搜的不快。達觀企業搜索引擎在召回階段,設計了索引配置功能(見圖3),用戶可以自定義設置哪些字段可以被搜索,以及這些字段如果被搜索命中以后將獲得多少積分,積分多的會進入召回名單。通過這個功能就可以滿足各種場景的需求,比如針對一些標題概括性比較強的文檔,可以設置標題字段的命中積分高于正文字段;而針對標題黨這類內容,就可以設置正文字段的命中積分高于標題,或者干脆設置標題不參與搜索。達觀企業搜索引擎在召回結果的排序階段,設計了多種排序邏輯,包括按結果與用戶搜索意圖的相關性排序,按搜索結果本身的權威性或質量進行排序,按用戶搜索行為/用戶職責崗位排序等。
相較于傳統檢索技術,達觀數據企業級搜索引擎具備以下優勢:
運用自然語言理解、OCR、知識圖譜等技術對數據進行深入的加工處理,實現更深入的內容理解含義。
支持對文檔、圖片、表格、網頁等多種格式的搜索,支持語義搜索、結構化查詢、圖譜問答等多種方式的查詢。
支持人物卡片、數據圖表、知識圖譜、系統表單的知識卡片,根據用戶行為數據自動提升搜索排序效果。
系統數據源、統計分析與搜索配置管理,實現對內容的全面管理;數據分析、配置管理與效果評估等模塊,讓系統的調試效果可見;容器化應用系統一鍵部署,自動化監控讓服務穩定可靠。
如您對我們的產品感興趣,請點擊下方官網申請免費試用。