天天看點

數鍊科技基于飛槳和文心大模型打造大宗商品數字供應鍊系統

作者:光明網

大宗商品行業市場規模巨大、關系國計民生,它的三個核心類别——能源商品、基礎原材料、農副産品均在大陸經濟發展程序中起着舉足輕重的作用。這其中,大宗商品供應鍊的順暢運作和穩定發展對整個産業鍊的運作至關重要。

數鍊科技,一家緻力于用人工智能等先進科技手段實作大宗商品實時交易數字化的公司,基于飛槳文字識别開發套件PaddleOCR、自然語言處理模型庫PaddleNLP,開發了大宗商品數字供應鍊智能識别與管理系統。聚焦線下單據識别場景難題,基于PaddleNLP的通用資訊抽取模型UIE-X(以文檔智能大模型文心ERNIE-Layout為模型底座,ERNIE-Layout創新性引入布局知識增強,在多個文檔問答榜單登頂,為各類上層應用提供了SOTA模型底座),通過實作非标單據的識别及關鍵字段提取,破除大宗商品供應鍊環節資訊壁壘,完善系統資料品質的同時顯著提高了交易效率。

以非标單據數字化為切入點,破除“不透明、不标準”資訊壁壘

基于對大宗商品行業的深刻認知及對行業供應鍊的痛點洞察,數鍊科技團隊敏銳地認識到,要讓大宗商品交易實作更新提效,首先要讓所有交易資訊實作高效精準的數字化。

“傳統的大宗商品供應鍊中,比如物流票據、合同之類的交易資訊,都以實物形式存在,需要人工拍照、存檔,然後人工進行資訊錄入。一旦出現問題,也需要人工審查、回溯圖檔資訊。”數鍊科技總裁助理張越介紹,“而各個企業的單據标準常常不一樣,也就是存在大量線下非标單據,這就導緻人工錄入單據和追溯複查的難度極大。于是我們希望能夠找到一種方式,先提升非标單據數字化的效率,然後以此為切入點,推動行業的整體數字化更新。人工智能技術,就是我們的最優選。”

結合業務流程,數鍊科技技術團隊将實作非标單據數字化的目光鎖定在文字識别與資訊抽取領域。然而團隊調研後發現,雖然市場上已經存在文字識别技術供應商,但鮮少有針對于大宗商品供應鍊開發的解決方案。另一方面,采購外部供應商的産品也缺乏靈活性,系統更新改造需要花費大量時間與供應商對接調校,遇到供應商人力無法支援時,更會嚴重影響投入使用的進度。是以,自研一種高效靈活的産品,成為團隊當務之急。

飛槳技術+生态,助力非标單據識别效率提升20倍

最終,團隊選擇基于飛槳文字識别開發套件PaddleOCR和自然語言處理模型庫PaddleNLP和通用資訊抽取模型UIE-X開展自研項目。通過PaddleOCR提供的豐富實用的工具庫,訓練針對大宗供應鍊非标單據識别模型,并通過PaddleNLP調用UIE-X的基礎上,使用自己的資料集進行微調,極大降低訓練開發成本。

在文字識别過程中,傳統的光學字元識别過程為:圖像預處理(彩色圖像灰階化、二值化處理、圖像變化角度檢測、矯正處理等)、版面劃分(直線檢測、傾斜檢測)、字元定位切分、字元識别、版面恢複、後處理、校對等。使用飛槳文字識别開發套件PaddleOCR,首先降低了入門門檻,不需要最基礎的光學字元識别理論,其次PaddleOCR擁有豐富的元件和公開的文字檢測、文字識别等一系列基礎預訓練模型,大大降低了AI入門難度。對于開發者來說,隻需具備一定的python開發能力即可在開源模型基礎上進行測試、調優,最終短時間内完成部署上線。

自然語言處理模型庫PaddleNLP内的跨模态文檔通用資訊抽取模型UIE-X,以文心大模型為基礎,在沒有專業标注團隊的情況下,使用小樣本訓練,進行定制化開發,大量節省了标注成本。在此基礎上,數鍊隻需準備幾十份合同樣本,使用PaddleLabel進行标注、訓練,最終關鍵資訊抽取精度達到87.5%。

在部署過程中,PaddleOCR支援hubserving服務,PaddleNLP支援SimpleServing服務,并且支援半精度推理方式,加快推理速度,可進行一鍵部署。還支援CPU、GPU多種伺服器部署,在測試過程中降低了調試難度。部署過程使用docker一鍵安裝方式,降低了運維部署負擔。

最終,項目團隊成功自研出大宗商品數字供應鍊智能識别與管理系統,在大宗商品供應鍊線下單據的識别場景下,實作了線下非标單據的識别及關鍵字段提取,極大提高了人工補錄相關單據的效率。原本人工補錄線下合同需要5分鐘,現在隻需人工确認結果及部分糾正即可,時間提升至15秒以内,識别效率達到原先的20倍。

項目在大宗供應鍊典型的表格識别場景下表現優秀。團隊重新訓練标注表格識别模型,将單行資料提取以單元格為次元進行矯正輸出,最終使表格識别精度從87%上升到98%,大大提升合同中表格識别的準确率,對大宗商品業務場景中大量的表格式單據(如财報、鐵路大票、發票、磅單、化驗憑證等)的資訊提取有重大意義。

目前,數鍊科技大宗商品數字供應鍊智能識别與管理系統,已經實作線下合同、鐵路大票、汽運磅單等非标單據的自動識别與資訊提取,為1000餘家煤炭、糧食等大宗商品領域不同規模的供應鍊企業提供商業化服務。

引入先進AI技術,為行業帶來數字智能化轉型,飛槳和文心大模型也将攜手更多供應鍊服務企業持續助力行業轉型更新,探索人工智能在大宗商品行業的落地路徑,創造經濟與社會價值。(李京)

來源: 光明網

繼續閱讀