天天看點

服務量化投資,基于知識圖譜的事件表征架構研究入選SIGIR

研究表明金融市場對于新聞事件的反應具有滞後性,并且相同僚件對不同股票在不同時間段内的影響程度都是有差異的。如何将富含資訊量的新聞事件融合進量化投資模型中是工業界與學術界面臨的共同挑戰。針對上述問題,瞰點科技與上海交大研究團隊共同研發了基于知識圖譜的事件表征架構來服務于量化投資模型政策。該成果發表于 ACM SIGIR 中,由于在表征中嵌入了金融領域知識圖譜,是以使用上述表征建構的投資政策在真實股票市場中獲得了良好的收益表現。

服務量化投資,基于知識圖譜的事件表征架構研究入選SIGIR

簡介

金融市場的價格波動是對新聞和事件的一種反應。通常來說,從海量新聞中擷取有效的事件表征能輔助投資者采取更合理的決策。近年來,一些研究開始應用自然語言處理(NLP)技術來學習新聞事件的分布式表征并基于此建構事件驅動的交易政策。

經典方法(例如 bags-of-words、命名實體)可以捕獲事件元組中的基礎特征,但是這些特征并沒有反應事件之間的内在關系。随着表征學習和 NLP 技術的發展,研究者開始利用深度學習等技術來表征結構化事件,這樣相似的事件即可以在特征空間中更加接近。然而股票的價格波動不僅取決于其自身的情況,與其關聯的企業所涉及的事件也高度相關。是以,如何從這種彼此關聯的事件資訊中學習有效表征是量化投資領域的重要課題。

服務量化投資,基于知識圖譜的事件表征架構研究入選SIGIR

論文位址:

https://dl.acm.org/doi/abs/10.1145/3397271.3401427

在本文中,瞰點科技和上海交大的研究團隊提出了一種服務于量化投資的基于知識圖譜的事件表征架構,我們稱之為 Knowledge Graph-based Event Embedding Framework(KGEEF)。該架構首先從原始新聞文本中提取結構關系和事件元組,将關系知識和屬性知識存儲在金融知識圖譜(FinKG)中,其中節點表示實體,邊對應實體之間的關系。随後,KGEEF 将知識圖譜與事件一起學習聯合表征,用于後續量化投資預測模型。最後,通過在真實股票市場上進行的大規模實驗表明,本文提出的方法顯著有助于量化投資的政策提升。

模型和方法

服務量化投資,基于知識圖譜的事件表征架構研究入選SIGIR

圖 KGEEF 架構

本文提出的方法主要包含三層:

1)多源輸入層:将原始文本轉換為事件元組(Event Tuple)、關系元組(Relation Tuple)和知識圖譜(FinKG)。本文使用序列學習模型來檢測新聞文本中的實體關系,然後将檢測出的實體關系存儲在知識圖譜中。

2)事件表征學習層:将預訓練的事件元組、關系元組和節點在知識圖譜中的表征作為輸入,得到事件層(Event Layer)、圖譜層(Graph Layer)、關系層(Relation Layer)的中間特征。随後使用 Multi-source Attention 網絡學習多個來源的共同特征作為輸出。

3)檢測與優化層:以實體、事件和圖譜特征為輸入,學習其是一個真實事件或關系的可能性,并且采用事件損失和關系損失聯合優化的方法對模型進行訓練。

服務量化投資,基于知識圖譜的事件表征架構研究入選SIGIR

圖 量化投資事件表征工作流

上圖展示了量化投資事件表征的工作流程,主要包含四個子產品:

  • 曆史語料庫圖譜建設子產品(KG Construction):通過關系檢測模型從原始新聞語料庫生成實體關系。如果檢測到關系,則在知識圖譜中儲存下來。
  • 事件表征學習子產品(Event Presentation Learning):該子產品以事件和知識圖譜作為輸入,生成訓練好的模型以及相應的表征詞典。
  • 新事件處理子產品(New Event Process):從新聞資料中提取事件元組,然後利用建構的知識圖譜和表征詞典獲得相應事件和實體的特征。
  • 量化投資子產品(Quantitative Investment):以事件和圖譜的聯合特征作為輸入,輸出用于量化投資的預測推斷。

實驗

最後,該研究通過實驗來評估 KGEEF 的有效性,下表中展示了事件相似度評價和量化投資任務中事件表征的有效性實驗結果。

服務量化投資,基于知識圖譜的事件表征架構研究入選SIGIR

表 事件表征相似度任務結果

KGEEF 架構同時也部署到了新聞資訊平台的微信小程式中,下圖展示了其運作的效果。

服務量化投資,基于知識圖譜的事件表征架構研究入選SIGIR

圖 模型在移動程式的部署

圖 (a) 顯示了聚合之後的熱點新聞事件。圖 (b) 展示了中國石油天然氣集團公司 (CBPC: 601857) 的價格以及模型抽取出的相應事件。在相關事件視圖(c)中,該研究的模型同時抽取出了關于塔裡木油田 (上遊工廠)、中國海洋石油總公司(競争對手) 和熔噴布 (石化工業下遊産品) 需求增加的消息。該例子展示了本文提出的模型在事件自動抽取和表征方面的有效性。

結論

金融事件的高品質表征對于事件驅動的量化投資具有重要價值。在本文中,瞰點科技研究團隊提出了基于知識圖譜的事件表征架構,用于學習金融領域中的事件和實體間的内在關系,例如産業鍊上下遊關系。并且通過實驗驗證了所提出的方法在金融事件檢測、量化投資政策建構等方面的有效性。

服務量化投資,基于知識圖譜的事件表征架構研究入選SIGIR

參考文獻[1]. Yao, Liang, Chengsheng Mao, and Yuan Luo. "Graph convolutional networks for text classification." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. 2019.[2]. Kewei Hou. 2007. Industry information diffusion and the lead-lag effect in stock returns. The Review of Financial Studies 20, 4 (2007), 1113–1138.[3]. Swarnadeep Saha et al. 2018. Open information extraction from conjunctive sentences. In Proceedings of the 27th International Conference on Computational Linguistics. 2288–2299.[4]. Yankai Lin, Shiqi Shen, Zhiyuan Liu, Huanbo Luan, and Maosong Sun. 2016. Neural relation extraction with selective attention over instances. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2124–2133.[5]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 4171–4186.[6]. Shirui Pan, Jia Wu, Xingquan Zhu, Chengqi Zhang, and Yang Wang. 2016. Triparty deep network representation. Network 11, 9 (2016), 12.[7]. Aditya Grover and Jure Leskovec. 2016. node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 855–864.

繼續閱讀