川觀新聞記者 王國平
“這是全球首個億級參數量的地震波大模型,今天正式釋出。”7月28日,由國家超級計算成都中心、中國地震局地球實體研究所與清華大學聯合開發的“谛聽”地震波大模型正式釋出。
出席活動的四川省地震局副局長杜斌表示,四川作為經濟和能源大省,地質構造複雜,是中國地震活動水準最高、強度最大的地區之一。此次“谛聽”地震波大模型的釋出不僅是地震科學技術的重大突破,也是對國家重大戰略需求的積極回應。
谛聽地震波大模型釋出現場。
如何練出聽震“神獸”?
“‘谛聽’原本是中國神話傳說中的神獸,可以通過聽音來辨認世間萬物。”中國地震局地球實體研究所副所長陳石說,“我們研發的‘谛聽’,是一種大型地震學資料集以及在此基礎上訓練的人工智能大模型。”
釋出會上,陳石如此解釋“谛聽”的來曆:它們都是通過“聽”去認識、分析自然界中的資訊。
陳石說,随着大陸地震監測體系的持續優化更新以及近年來人工智能技術的迅猛發展,地震學研究和防震減災工作也進入了地震波大資料時代,“谛聽”地震波大模型應運而生。
那如何訓練這隻可以辨識地震的“神獸”?
首先要有數量足夠的資料,這就是“谛聽”資料集。最初,科研團隊将2013年至2020年間的震相觀測報告和國家測震台網資料備份中心的資料,經過清洗和脫敏處理後,建立了1.0版本的“谛聽”資料集。随着資料規模的擴大,2023年9月,成都産業集團營運的國家超算成都中心與中國地震局地球實體研究所達成戰略合作,雙方合作共建“地震大模型創新應用聯合實驗室”,新一代“谛聽”資料集正式落戶成都。
資料集是大模型訓練的基礎,資料集的規模和品質直接決定了模型的訓練效果。目前,“谛聽”資料集不僅是國内首個,同時也是目前國内外最大規模、樣本類型和标注最為全面的地震學專業AI訓練資料集之一。
陳石介紹,第一版“谛聽”地震波大模型基于2300萬條地震事件波形進行了預訓練,而大陸中國地震台網每年産生的标注事件波形約為50萬條。以此計算,剛“出生”不久的“谛聽”地震波大模型已相當于擁有約40年地震信号識别經驗的“老專家”。
其次,是算法、模型的設計和調優。來自清華大學自動化系的助理研究員劉暢博士介紹,作為全球範圍内地震波大模型的首次探索,需要進行大量基礎性研究,否則模型訓練不充分,實際應用效果不及預期。
簡單來說,算法的選擇和設計直接決定了模型的學習能力和表達能力,算法的優化和改進可以提高模型的性能和效果。參數則是大模型訓練的調節器,可直接影響模型的準确性和穩定性。在“谛聽”大模型中,參數的數量非常龐大,也給最優參數的确認造成極大的挑戰。
“人工智能算法的關鍵在于兩個因素,訓練資料量和模型參數量。”陳石用比喻來解釋:訓練資料量可以看作是算法的“閱曆”,而參數量則是算法的“腦容量”。要想有效地記憶和了解海量的地震資料,并充分挖掘和利用其中的資訊,就必須發展與之相比對的大“腦容量”的大模型。
“谛聽”都能幹什麼?
據悉,目前“谛聽”地震波大模型已可投入使用。陳石談到,“谛聽”地震波大模型依托中國地震台網的海量資料,通過先進的人工智能技術,在測試中發現,可以顯著提升地震信号的識别準确率和速度。
是以,從短期看,“谛聽”地震波大模型可直接應用于地震信号識别、地震活動監測、大地震快速響應等領域,有望減輕地震局一線業務人員的工作壓力。
從長期看,地震學是一門觀測科學,重大的突破往往來自對觀測資料的深刻了解。對觀測的了解越全面,對觀測的整合能力越強,離地震學科學問題的突破就越近。目前,傳統方法和中小模型均無法充分利用百TB、PB級别的地震觀測資料,而這些資料中蘊含着許多重要的地震學科學問題,隻有大模型才能深入挖掘這些“寶藏”。是以,“谛聽”地震波大模型有望為地震科學研究帶來重大突破。
從應用領域看,“谛聽”地震波大模型的前景也十分令人期待。
“未來,該模型的應用場景還可用于礦震監測、頁岩氣開采、城市地下空間結構探測、海底地震監測等多個領域。”國家超算成都中心常務副主任王建波說。
以尋找油氣為例。目前全球95%以上的油氣田發現主要是依靠地震勘探。王建波說,地震波在不同媒體中傳播時,強度、形态等特征都不同,“谛聽”地震波大模型通過學習儲存石油區域的波形特點,就可以推導出地下是否含有油氣。
陳石表示,第一版“谛聽”地震波大模型完成了從預訓練到微調完整流程的從無到有的探索,初步展示了優于中小模型的性能,為後續充分挖掘和發揮地震波大模型的優勢探索了道路,積累了經驗。
“谛聽”之外,超算還能做什麼?
“發展地震波大模型不僅是人工智能地震學領域的必然趨勢,也是該領域的科技制高點。”陳石說,“在具備了足夠的資料和算力基礎後,我們迅速組織團隊第一時間開展相關研究工作,力求填補這一重要空白,為地震科學研究和防震減災事業貢獻一份力量。”
成都資料集團黨委副書記、成都超算中心營運管理有限公司董事長郭黎表示,“谛聽”地震波大模型的研發,不僅極大地推動了人工智能算法在地震學領域的開發、測試和應用,更為地震監測預報業務的智能化發展提供了堅實的技術支撐。
作為長期在超算領域工作的資深從業者,王建波認為,“谛聽”地震學資料集正式落戶國家超級計算成都中心地震大模型創新應用聯合實驗室,這是垂直領域專業資料和大規模算力深度融合、軟硬一體的一次新嘗試。
“‘谛聽’地震波大模型的釋出對于突破中小地震波模型性能瓶頸,提高地震大資料智能處理能力和資訊挖掘水準具有重要意義。”王建波說,國家超算成都中心強大算力和技術服務能力,不僅可以滿足中國地震局地球實體研究所等科研機關定制化的軟硬一體的服務需求,更是為人工智能和機器人等未來産業發展提供了堅實的平台保障。
目前國家超算成都中心已在多個領域形成特色算力應用。其中:在人工智能大模型領域,國家超算成都中心與成都曉多科技合作,研發了基于大語言模型技術開發的垂類電商客服行業的大型語言模型,可為電商企業提供智能化的服務和營銷一體化解決方案。今年5月,該模型成功通過國家生成式人工智能服務備案。
國家超算成都中心。
在防災減災領域,中國科學院成都山地災害與環境研究所就聯合國家超算成都中心,開展了“氣候變化條件下山地緻災風險綠色調控關鍵技術與示範”項目研究,搭建山地災害風險模拟與險情預報平台,突破精細化、精準化災害預警預報瓶頸。此外,國家超算成都中心還與四川氣象部門合作,提供精準氣象預報服務。
“國家超算成都中心還将不斷加速人工智能技術在防災減災、城市治理等領域的應用與發展,充分發揮我們作為大國重器的戰略支撐作用。”王建波說。
國家超算成都中心供圖