近期,“俄烏沖突”引發了全球局勢的重大變化。在真實硝煙背後,一場沒有硝煙的科技戰已激烈打響,衆多美歐科技巨頭先後宣布對俄“斷供”。硬體方面,英特爾、AMD、聯想、戴爾、蘋果等科技企業宣布停止對俄羅斯供貨。軟體方面,SAP、Oracle、GitHub、Elastic等軟體巨頭宣布停止在俄羅斯的産品銷售和服務。這意味使用這些巨頭産品的企業、機構業務将面臨癱瘓。“科技無國界”的口号可以随時被國家利益所影響,契約可以毀壞,規則可以打破,開源的大門可以突然緊閉。在經濟全球化的時代,科技顯然已經成為大國博弈的重要利器。
01 搜尋引擎資料庫的國産替代,任重而道遠
數字經濟時代,全球資料量激增,各行各業對資料庫的需求持續增長。作為三大基礎軟體之一,資料庫是計算機行業的基礎核心軟體,所有應用軟體的運作和資料處理都要與其進行資料互動。
據IDC統計,國外資料庫巨頭仍占據中國市場重要份額。2021年第一、二季度,甲骨文、微軟、SAP、IBM四家國外大廠在中國本地部署關系型資料庫市場中合計占據45-50%的份額,國産供應商主要包括達夢、南大通用、阿裡、人大金倉等,合計占據約30%的份額。随着國内信創改革推進,國内資料庫行業迎來多方利好。2021年國産資料庫中标量同比增長140%,中标金額同比增長166%。艾瑞咨詢預計,2025年中國資料庫市場行業規模将超過500億元。
國産資料庫浪潮已起,但市場上主流的都是關系型資料庫。大多數組織都通過關系型資料庫很好地管理與利用了結構化資料,但是很多業務的重要見解都隐藏在非結構化資料中。目前行業公認,非結構化資料占資料總量的80%以上,如管理制度、業務報告、研究和法律報告、工程/項目文檔、公文、電子郵件、教育訓練文檔、視訊、圖檔和社交媒體文章等。随着大陸數字化轉型的蓬勃發展,這一差距還将繼續擴大。這種非結構化資料的處理需要依賴基于全文檢索的搜尋引擎技術,而目前市場上開放源代碼的最好全文搜尋引擎主要是Solr 和 ElasticSearch(以下簡稱ES)。
我們或許可以思考,目前大陸信創資料庫目錄中隻有關系型資料庫是不夠的,搜尋引擎資料庫會是信創資料庫的下一個爆點嗎?
02 搜尋引擎資料庫應用廣泛,市場規模巨大
搜尋引擎資料庫經過幾十年的發展,已經能對數字、文本、地理位置、結構化資料、非結構化資料等所有類型的資料進行綜合管理。搜尋引擎和機器學習的新技術發展,正在擴充我們使用非結構化内容進行企業知識發現、搜尋、業務洞察和行動的能力。新的搜尋和人工智能驅動的用例每天都被創新出來,以提供更多的價值和更好的結果。憑借在資料查詢效率方面的優勢,搜尋引擎資料庫在資料處理方面的地位越來越高,并在應用程式搜尋、網站搜尋、企業搜尋、智能問答、圖像與語音搜尋、語義搜尋、業務分析和安全分析等方面有着廣泛的應用。搜尋引擎資料庫正成為非結構化大資料處理分析領域中重要的基礎支撐軟體。
根據IDC測算,目前全球搜尋引擎資料庫的市場規模已超過450億美元,其中搜尋系統、内容分析和認知/AI軟體平台的市場規模約80億美元;IT營運管理約90億美元;大資料和分析軟體(進階預測分析、空間和位置分析、非關系分析資料存儲、分析資料的內建和完整性)約230億美元;安全分析(安全資訊和事件管理、政策和合規、驗證和事件調查)約50億美元。
03 搜尋引擎資料庫市場ES一家獨大,諸多安全隐患令人惴惴不安
ES自釋出以來迅速占領了全文搜尋引擎市場,目前國内外很多企業已放棄自主研發,逐漸轉投ES陣營。根據ES财報顯示,公司在2021/2022财年的營業總收入達到8.62億美金,其市場規模保持30%以上的年均複合增長率。
近幾年來,ES資料洩露事件頻發給國内各行業使用者敲響了資料安全的警鐘。今年,漫畫閱讀平台 Mangatoon 遭遇資料洩露,黑客從不安全的 ES 資料庫中竊取了屬于 2300 萬使用者帳戶的資訊。根據Group-IB報告顯示,2021年網絡上暴露的 ES 執行個體超過10萬個,約占2021年暴露資料庫總數的30%。2019年底發生的一起ES資料庫洩露,包括27億個電子郵件位址,其中10億個密碼是以簡單的明文存儲,涉及國内多家網際網路公司。
開源軟體和安全工具受到國外出口法律限制,如2021年美國商務部和安全局釋出最新控制措施,禁止美國公司向中國和俄羅斯等國家出口和轉售網絡安全産品;近日,美國商務部和安全局又釋出了一項針對網絡安全領域的出口管制規定,未經審批禁止向中國分享安全漏洞,這意味着如果繼續使用國外軟體,安全問題将完全掌握在别人手裡。
開源協定變更也帶來商業風險。2021年初, Elastic公司決定将Server Side Public License 和 Elastic License兩款開源軟體的 Apache License 2.0 變更為雙授權許可。其核心條款是“如果将程式的功能或修改後的版本作為服務提供給第三方,那麼必須免費公開提供服務源代碼”。這意味着不法分子可以獲得其源代碼并研究其漏洞,給企業使用者帶來巨大的安全風險。
ES的安全能力不足,開源協定變更,加上大國科技博弈的風險加劇,國内搜尋引擎資料庫ES一家獨大的現狀令人惴惴不安。
04 搜尋引擎資料庫堅持自主研發是國産替代的必由之路
回首十幾年前,國内做搜尋引擎資料庫的廠商也曾百花齊放,如拓爾思、國信貝斯、浙江天宇、中搜等都推出了自研的全文檢索系統,廣泛應用于圖書館、檔案館等資訊化項目,但現在大部分公司很多都退出了搜尋引擎市場,甚至公司都煙消雲散了。與此同時,網際網路平台企業在業務發展中為了靈活性和短期利益,廣泛采用開源的ES作為搜尋引擎資料庫,現在他們把目标擴大到為行業客戶進行科技賦能,由于他們巨大的市場資源和影響力,這些基礎軟體在推向企業市場中存在巨大的安全隐患。目前國内堅持在搜尋引擎資料庫領域自主研發并保持技術領先的企業已鳳毛麟角。
拓爾思資訊技術股份有限公司在信創産業和國産資料庫行業始終堅持自主研發,肩負時代責任和使命。作為中文全文檢索技術的開創者和引領者,早在上世紀90年代,拓爾思就推出了第一代全文檢索系統TRS Database Server,并被數以萬計的使用者采用。30年來,拓爾思不忘初心,通過不同行業的應用牽引持續疊代,一直堅持對資料庫自研技術的長期研究。
TRS海貝大資料管理系統(以下簡稱海貝)是拓爾思自主研發的一款搜尋引擎資料庫,适用于數字、文本、地理位置、結構化資料、非結構化資料等所有資料類型,為大資料應用提供高效的資料存儲、全文檢索、分析統計等資料管理服務。
· 自主可控
國内廠商大多數都以開源的ES作為搜尋引擎資料庫,小部分廠商在開源Lucene引擎的基礎上進行封裝,而海貝是目前國内少有的從底層分詞算法到全文搜尋引擎,以及上層系統都完全自研的純國産搜尋引擎資料庫。海貝已完成與龍芯、海光、飛騰、鲲鵬等國産晶片以及中标麒麟、統信UOS等國産作業系統的适配工作,完全滿足信創要求和國産化替換需求。
· 資料安全
海貝采用多副本機制解決資料的可用性問題,通過資料校驗以及WAL技術解決資料的完整性問題,通過完善的權限管理機制、HTTPS、加密存儲(支援資料與索引完全加密)等機制解決資料通路和資料存儲的機密性問題。加密采用國産加密算法,可以配合國産加密卡達到金融級資料安全。另外,海貝還具有黑白名單、使用者隔離、删除保護等安全機制。
· 綜合能力
在搜尋能力方面,相較于以Lucene(Java語言)為引擎的ES,海貝基于一個純C核心的TRS引擎,系統資源的使用更加合理可控,複雜搜尋響應性能更優,不會出現因為資料索引、超長表達式檢索、通配符檢索等操作導緻系統進入長時間FullGC而無法響應的情況。海貝提供了更加專業的段、句、位檢索、XML檢索,支援度量衡資料的數值區間檢索等進階功能。具體功能對比如下:
· 生态相容
海貝具有高度開放性,不僅相容ES常用接口,還可對接Hadoop、Spark/SparkSQL、OpenStreetMap等。
· 平滑替代
搜尋引擎資料庫作為一款大資料重要支撐軟體,使用者在國産化替代的規劃與實施博弈中,經常出現知易行難的問題,替換成本和替換效果都是重要的考量因素。
衆所周知,“信用中國”網站是由國家發展改革委、人民銀行指導,國家公共信用資訊中心主辦的政府褒揚誠信、懲戒失信的總視窗。平台早期部署在某共有雲,由知名搜尋引擎公司基于ES架構提供搜尋技術支援。“信用中國”網站提供全國1億多家企業的信用資訊、信用代碼公開查詢服務,屬于高頻公共服務。經過一段時間運作,“信用中國”遭遇高并發瓶頸,當查詢流量突增較大時,系統經常卡頓,導緻使用者滿意度下降。2019年,大陸政府正式提出發展信創産業,各地政府也紛紛采取實際行動支援信創産業的發展。“信用中國”也在2019年初啟動了更新改造,将系統遷移到國家電子政務外網。同時,通過市場優選,拓爾思成為其新技術服務商,用海貝完成了ES的平滑替代。遷移改造後的“信用中國”,隻用了12台PC伺服器搭建,便支撐了每秒5000+次的高并發查詢,且長期運作穩定,得到了國家公共信用資訊中心的高度認可與贊賞。
從2015年開始到現在,某部科技資訊化局每年都舉辦一次全國“某部雲搜尋”技術交流比賽。成功入圍前10名的選手會被授予應用之星的榮譽稱号。在這幾年期間,全國湧現了衆多“某部雲搜尋”優秀選手,他們善用“某部雲搜尋”進行情報線索分析研判服務實戰,多人是以受益還曾多次榮立三等功。“某部雲搜尋”的幕後技術英雄正是拓爾思!這是海貝成功實施的第一個PB級大資料搜尋引擎。在該項目中,海貝對接了Oracle、ES、DB2、MySQL等多款主流資料庫,彙聚了基礎資訊、背景資訊、活動軌迹資訊等100多種資訊,涵蓋了結構化、半結構化、非結構化資料所有類型,總資料量達500億+,每日實時更新約5000萬條各類資訊。“某部雲搜尋”為全國數萬專業人士提供一鍵搜尋、軌迹分析、關系分析,支撐了系統内部核心業務,提高了工作效率。“某部雲搜尋”上線多年,運作穩定,服務實戰,已然成為大資料分析轉化為偵查破案的“倍增器”!
多年來,海貝已廣泛應用于公安大資料、政府大資料、知識産權大資料以及媒體大資料等衆多細分領域。公安部、新華社、市場監督管理局、海關總署、專利局、商标局等一系列國家級使用者都選擇了海貝作為安全可信賴的海量資料搜尋引擎。經過大量國家級基礎資料庫項目的實踐和經驗,拓爾思積累了一套成熟的、标準化的ES平滑遷移方法,全程保障資料與業務的平滑遷移。
海貝作為一款純國産自研的搜尋引擎資料庫,支援所有資料類型,功能完備,安全可靠,相容ES常用接口,對接主流生态,具備良好的産品力。拓爾思作為國内A股上市公司,技術實力雄厚,具有豐富的國家級重要資料庫項目的實施經驗,分支機構遍布全國,能為全國使用者提供專業的原廠服務,保障使用者售後無憂。綜上所述,純國産自研的海貝具備足夠媲美的産品力,拓爾思公司具有衆多國家标杆項目成功經驗以及本土化服務能力,完全可以平滑替代ES。
展望未來幾年,大陸在加快推進數字化轉型,随着将數字和實體領域融合在一起的AI、機器人、物聯網和其他技術日益發展,非結構化資料的倍增規模将進一步擴大。資料庫在雲計算、大資料、人工智能等加速發展下,也必然會有側重不同應用的分叉過程。尤其是深度學習技術崛起後,非結構化資料被神經網絡轉成向量、矩陣、張量等資料,對這些資料的搜尋、查詢、分析也将成為一個新需求。在這個新興的領域,搜尋引擎資料庫作為大資料支撐軟體的重要性越發突顯,其應用場景也越來越多,如幫助客戶輕松建立各種場景的AI應用,包括計算機視覺、圖像檢索、視訊分析、NLP、推薦引擎、定向廣告、定制搜尋、智能聊天機器人、欺詐檢測等。信創風起,未來已來,搜尋引擎資料庫堅持自主研發是國産替代的必由之路!