天天看點

【數學資料集彙總】天才博士陶哲軒力薦資料集!

作者:HyperAI超神經

上周,著名數學家陶哲軒在個人部落格中釋出了「AI for Math Resourses」的資源清單,旨在為那些有意進入人工智能數學領域的人提供幫助,這份清單由「人工智能輔助數學推理」研讨會整理。該研讨會由美國國家科學院、工程院和醫學院共同組織,陶哲軒擔任該研讨會的主持人。

這份清單文檔尚未最終定稿,陶哲軒及其他研究者仍在不斷完善中。HyperAI超神經從中篩選出了部分資料集供大家下載下傳使用,除此之外,還為大家補充彙總了其他數學方面的資料集,助力 AI for Math。

1.OpenWebMath 網絡數學資料集(OpenWebMath 開放網絡數學訓練資料集 / 資料集 / 超神經)

釋出機構:多倫多大學、劍橋大學等

釋出時間:2023 年

預估大小:44.21 GB

OpenWebMath 包含了來自網際網路的大部分高品質數學文本。它是從 Common Crawl 上超過 200B 個 HTML 檔案中過濾和提取的,最終形成一組 630 萬個文檔,總共包含 14.7B 個 tokens。

2.Ape210K 中國國小水準數學問題(Ape210K 中國國小水準數學問題 / 資料集 / 超神經)

釋出機構:猿輔導 AI Lab、西北大學

釋出時間:2020 年

預估大小:78.43 MB

Ape210K 是一個大規模且模闆豐富的數學單詞問題資料集,包含 210K 個中國國小水準的數學問題,每個問題都包含最佳答案和得出答案所需的方程式。

3.Proof-Pile-2數學資料集(Proof-Pile-2 數學資料集 / 資料集 / 超神經)

釋出機構:普林斯頓大學

釋出時間:2023 年

預估大小:47.57 GB

Proof-Pile-2 是一個包含 550 億個數學和科學文檔的 token 資料集,融合了科學論文、數學相關的網絡内容和數學代碼,其知識截止于 2023 年 4 月。

4.Orca-Math-200K 數學問題資料集(Orca-Math-200K 微軟數學單詞問題資料集 / 資料集 / 超神經)

釋出機構:微軟

釋出時間:2024 年

預估大小:70.88 MB

Orca-Math-200K 是微軟建立的高品質數學問題資料集,包含約 20 萬國小數學題目,此資料集中的所有答案都是使用 Azure GPT4-Turbo 生成的。

5.Mizar 數學資料集(「連結」)

釋出機構:Mizar

釋出時間:2018 年

Mizar 是一個基于 Mizar 語言的數學形式化庫,它是由許多作者和維護者多年建立修改而成的。目前為止,Mizar 語言系統已形成一個龐大的 Mizar Mathematical Library,它為今後讨論數學及其相關問題奠定了良好的基礎。

6.Math23K 數學單詞問題解決資料集(Math23K 數學單詞問題資料集 / 資料集 / 超神經)

釋出機構:Tencent AI Lab

釋出時間:2017 年

預估大小:8.36 MB

Math23K 是為解決數學單詞問題而建立的資料集,包含從網際網路上爬取的 23,162 個中文問題。

7.MathVista 數學推理資料集(MathVista 數學推理資料集 / 資料集 / 超神經)

釋出機構:微軟、華盛頓大學

釋出時間:2023 年

預估大小:1.61 GB

MathVista 是視覺環境中的綜合數學推理基準。它由三個新建立的資料集 IQTest 、 FunctionQA 和 PaperQA 組成,它們可以分别用于評估拼圖測試圖的邏輯推理、功能圖的代數推理以及學術論文圖的科學推理。

8.MetaMathQA 數學推理資料集(MetaMathQA 數學推理資料集 / 資料集 / 超神經)

釋出機構:華為、劍橋大學

釋出時間:2023 年

預估大小:84.34 MB

MetaMathQA 是一個覆寫面廣、品質高的數學推理資料集,由 395K 個大語言模型生成的正向逆向數學問答對組成。

9.AlgoPuzzleVQA 多模态算法謎題資料集(「連結」)

釋出機構:新加坡科技設計大學

釋出時間:2024 年

預估大小:157.85 MB

該資料集包含 18 種不同的謎題,涵蓋了諸如布爾邏輯、組合學、圖論、優化、搜尋等多樣化的數學和算法主題。該資料集通過自動化的方式從人類編寫的代碼生成謎題,確定了資料集可以任意擴充推理複雜性和資料集大小。

10.TAL-SCQ5K 中文數學競賽資料集(TAL-SCQ5K 好未來中文數學競賽資料集 / 資料集 / 超神經)

釋出機構:好未來

釋出時間:2023 年

預估大小:11.4 MB

TAL-SCQ5K 是一組高品質中文數學競賽資料集,包含 5K 道中文數學競賽題目(3K 道用于訓練,2K 道用于測試),提供中文和英文兩種語言。

以上就是 HyperAI超神經為大家彙總的 10 個數學分類資料集,如果你有想要收錄 hyper.ai 官方網站的資源,也歡迎留言或投稿告訴我們哦!

關于 HyperAI超神經 (hyper.ai)

HyperAI超神經 (hyper.ai) 是國内領先的人工智能及高性能計算社群,緻力于成為國内資料科學領域的基礎設施,為國内開發者提供豐富、優質的公共資源,截至目前已經:

* 為 1200+ 公開資料集提供國内加速下載下傳節點

* 收錄 300+ 經典及流行線上教程

* 解讀 100+ AI4Science 論文案例

* 支援 500+ 相關詞條查詢

* 托管國内首個完整的 Apache TVM 中文文檔

通路官網開啟學習之旅:超神經