語義識別是數據治理的第一步,在完成源端數據接入之后,需要對數據完成元數據語義的識別和備注,包括技術元數據、業務元數據、管理元數據、操作元數據及元數據血緣等信息。在傳統實施過程中,業務數據集成后需要耗費大量人工對數據進行中文語義的標注,機械且繁瑣,效率低下。



為解決這一難題,迪塔維V5解決方案采用了一體化遞進式的智能識別智能體,基于文檔結構特征和智能語義解析的自由模型,完成對各類PDF、Word字典表的結構化提取并完成自動化注釋工作,在此基礎上,結合迪塔維十余年實施經驗積累的云端知識庫進一步補全和標注未匹配到的數據語義信息,極大地提升了數據標注的效率。

圖:一鍵智能語義識別

圖:數據字典文檔特征映射

圖:在沒有任何資料支撐的情況下,可選用AI自主識別
經過不斷的測試驗證,智能化提取能夠做到數據無遺漏,且自動注釋的準確率超過95%,經人工檢測確認后完成標注過程,平均每個業務系統可以節省約1人周的工作時間!
在高校日常工作中,經常會遇到大量重復的文檔系統錄入工作,如:將Excel表格和Word表單進行填報收集后錄入數據中臺或業務系統,數據收集后需要相關人員耗費大量時間進行數據歸檔。為解決這一問題,我們把智能語義和文件特征識別的能力包裝成文檔結構化提取智能體,內置在中臺之中,智能體能夠深度理解文檔中的文本語義,包括詞匯含義、句子結構、上下文邏輯等,從而準確判斷哪些是需要提取的關鍵信息,自動化實現數據的統一提取和結構化轉換工作。
文檔識別智能體可面向各類文檔數據的結構化集成場景,支持字典文檔、表格、多行文本、表單多種文檔類型,支持word、pdf、Markdown等多種文件格式,經過不斷打磨驗證,解決了跨頁斷行、跨頁斷表、水印干擾、混合布局、父子表復雜嵌套等疑難雜癥,完美實現了文檔智能化集成的“近人化”能力躍升。

圖:隨機表格自動化提取為結構數據

圖:各類復雜表單自動提取為多表結構數據
在某客戶現場,我們基于文檔識別智能體,成功解決了各類人員情況一覽表的數據批量采集問題,系統自動針對PDF復雜報表提取人員姓名、編號、科研信息、教學信息、個人建立等各類信息,將其映射為模型表和字段,自動建表后完成批量化、自動化的數據采集過程。

圖:專技人員情況一覽表原稿

圖:數據識別采集后結果確認
AI與數據治理的結合將作為可信數據空間V5解決方案的領航燈塔,引領數據治理從“人治”向“智治”的變革式發展。作為一家面向高校提供專業數據治理與應用解決方案的公司,我們始終堅信先進的技術和優質的服務會贏得客戶的信任與支持。當下與未來,V5解決方案會疏通更多數據治理的痛點、難點、堵點,加速提升數據治理與應用落地的效率和自動化水平,更多場景,敬請期待——
