每周編輯精選｜老鄉雞開源「菜品溯源報告」

号外！号外！老鄉雞的「機密檔案」竟然被公開了！

近日，老鄉雞将 20 萬字的《老鄉雞菜品溯源報告》向社會全面公開，從食材的源頭到烹饪的細節，全都清清楚楚。現已在超神經提供下載下傳，快來看看有沒有你愛吃的！

PS：小編隻想問，按照報告做翻車了能提 issue 嗎？

4 月 15 日-4 月 19 日，hyper.ai 官網更新速覽：

* 優質公共資料集：10 個

* 優質教程精選：2 個

* 社群文章精選：3 篇

* 熱門百科詞條：5 條

通路官網：hyper.ai

公共資料集精選

1. 老鄉雞菜品溯源報告

該資料集覆寫老鄉雞目前 1,218 家餐廳共計 226 個 SKU 、873 種原料以及 305 家供應商。老鄉雞将 677 頁共 20 萬字的《老鄉雞菜品溯源報告》向社會全面公開。

直接使用：https://go.hyper.ai/nbESl

2. Open Sora Dataset 項目視訊資料集

Open-Sora-Plan 是一個開源項目，旨在複現 OpenAI 的 Sora（T2V 模型）。該資料集為其項目視訊資料集。研究團隊在 CC0 許可下從開源網站抓取了 40,258 個視訊。所有視訊均為高品質無水印，其中約 60% 為風景資料。

直接使用：https://go.hyper.ai/75Ftc

3. MMVP 多模态運動捕捉資料集

該資料集包含了諸多大範圍且迅速的人體運動，如跑步、跳繩、立定跳遠等，總計采集了 16 位受試者的逾 44k 幀同步 RGBD 幀以及壓力資料。

直接使用：https://go.hyper.ai/4edeR

4. OpenWebMath 開放網絡數學訓練資料集

OpenWebMath 是一個包含來自網際網路的大部分高品質數學文本的資料集。它是從 Common Crawl 上超過 200B 個 HTML 檔案中過濾和提取的，最終形成一組 630 萬個文檔，總共包含 14.7B 個 tokens 。OpenWebMath 旨在用于預訓練和微調大型語言模型。

直接使用：https://go.hyper.ai/zjytq

5. Proof-Pile-2 數學資料集

Proof-Pile-2 是一個包含 550 億個數學和科學文檔的 token 資料集。融合了科學論文、數學相關的網絡内容和數學代碼，其知識截止于2023年4月（不包括特定的 Lean 證明步驟子集）。建立此資料集是為了訓練 Llemma 7B 和 Llemma 34B 模型。

直接使用：https://go.hyper.ai/aant8

6. Mizar 數學資料集

Mizar 數學庫包含了經過形式化的數學定理和證明，涵蓋了廣泛的數學領域，包括邏輯、代數、分析、幾何等。這個庫的目标是提供一個可靠的數學基礎，以便進行自動化的定理證明和形式化推理。

直接使用：https://go.hyper.ai/IJeHa

7. Isabelle 平行語料庫

Isabelle 平行語料庫 (IPC) 是一個由社群驅動的倡議，旨在建立 Isabelle 文檔的平行語料庫。IPC 将 Isabelle 中的形式化文檔（如定理、引理、定義等）與它們的自然語言對應文本配對。

直接使用：https://go.hyper.ai/BEADY

8. Fruits Dataset 水果新鮮程度分類資料集

該資料集包含三種水果的圖像：蘋果、橙子和香蕉。每張圖像都根據其水果類型和新鮮度狀态進行标記，進而實作分類或對象檢測等監督學習任務。

直接使用：https://go.hyper.ai/b7TNx

9. DeepFruit 水果圖像分類資料集

DeepFruit 是穆罕默德·本·法赫德親王大學等研究機構聯合釋出的水果圖像分類資料集。該資料集包含基于 8 種不同水果集組合的 21,122 張水果圖像。可以用于水果檢測、識别和分類領域的研究，以及卡路裡估算等其他創新應用。

直接使用：https://go.hyper.ai/ut4BA

10. 15 個動物圖像分類資料集

該資料集包含 15 個動物的圖像檔案夾，所有圖像大小均為 224X224，适合圖像分類。圖像從網絡下載下傳并使用 OpenCV 庫進行了預處理（調整大小和增強）。是以，該資料集可以直接用于訓練，無需進一步的資料增強。

直接使用：https://go.hyper.ai/tgMtH

更多公共資料集，請通路：

https://hyper.ai/datasets

公共教程精選

1. 線上教程｜低門檻部署！SUPIR 專治各種圖檔模糊，還能了解文本描述進行精修

圖像修複工具 SUPIR 利用 StableDiffusion-XL (SDXL) 和模型擴充技術，通過機器學習和多模态方法，能夠顯著提升圖像的修複品質。該教程為大家搭建好了環境，無需任何複雜的前期準備，點選即可一鍵修複圖檔。

線上運作：https://go.hyper.ai/3RBMH

2. 用 Ollama 和 Open WebUI 部署大模型

該教程為 Ollama + Open WebUI 一鍵運作包，隻需按步驟輸入指令即可運作大模型。目前包含的模型有：qwen 1.5 14b、qwen 1.5 32b、llava 1.6 34b，支援自行上傳使用新的模型。

線上運作：https://go.hyper.ai/FwREK

社群文章精選

1. 加速催化劑設計，上海交大賀玉蓮課題組基于 AutoML 進行知識自動提取

上海交通大學密西根學院助理教授賀玉蓮課題組，針對确定決定 Eads 的關鍵實體量提出了一種新方法，即基于自動機器學習的特征删除實驗，從高通量密度泛函理論資料庫中實作了知識的自動提取。本文是對該研究的詳細解讀和分享。

檢視完整報道：https://go.hyper.ai/LEVS1

2. 擊敗全球 No.1 系統、覆寫 80+ 國家，谷歌洪水預測模型再登 Nature

谷歌團隊開發了一個基于機器學習的河流預報模型，該模型的預測能力優于目前全球最先進洪水預報系統 GloFAS，能夠提前 5 天實作對洪水的可靠預測，可覆寫 80 多個國家。本文是對該研究的分享和解讀。

檢視完整文章：https://go.hyper.ai/V4r4i

3. 锂電池壽命預測精度提升 20%！上海交大團隊釋出半監督學習方法 PBCT，提取無标簽資料中的隐藏資訊

上海交通大學研究團隊提出了一個半監督學習方法 PBCT，充分利用锂電池全生命周期中産生的低成本且豐富的無标簽資料，通過提取其中的隐藏資訊，深化對底層資料模式的認識，锂電池壽命預測精度提升 20%。本文是對該研究的分享和解讀。

檢視完整報道：https://go.hyper.ai/2EQGa

熱門百科詞條精選

1. Epoch

2. 學習率 Learning Rate

3. 配對 t 檢驗 Paired t-Test

4. 擴散模型 Diffusion Model

5. 大語言模型 Large Language Model

這裡彙編了數百條 AI 相關詞條，讓你在這裡讀懂「人工智能」：

https://hyper.ai/wiki

B 站直播預告

Google 日前宣布将于 5 月 14 日舉辦 2024 年度 I/O 開發者大會，為了幫助大家深入了解 Google ，超神經直播間将從下周一開始 7x24 小時不間斷直播「Google 專題」視訊，涉及：Google I/O 曆年釋出會、高管訪談、相關紀錄片等豐富内容。

下表為小編為大家精選的内容預告↓↓↓

日期	時間	内容
4 月 15 日星期一	18:00	Google 曆年 I/O 釋出會
4 月 16 日星期二	18:00	Google Cloud NEXT 曆年大會
4 月 17 日星期三	18:00	TIME100 訪談 Sundar Pichai
4 月 18 日星期四	18:00	Google 首席執行官談中美人工智能競賽
4 月 19 日星期五	18:00	AlphaGo 紀錄片
4 月 20 日星期六	18:00	Google 紀錄片背後創始人的故事
4 月 21 日星期日	18:00	BBC 紀錄片沒有 Google 的世界

超神經電視台 7×24h 不間斷直播，點選即可收獲 AI 領域的「電子榨菜」：

http://live.bilibili.com/26483094

以上就是本周編輯精選的全部内容，如果你有想要收錄 hyper.ai 官方網站的資源，也歡迎留言或投稿告訴我們哦！

下周再見！

關于 HyperAI超神經 (hyper.ai)

HyperAI超神經 (hyper.ai) 是國内領先的人工智能及高性能計算社群，緻力于成為國内資料科學領域的基礎設施，為國内開發者提供豐富、優質的公共資源，截至目前已經：

* 為 1200+ 公開資料集提供國内加速下載下傳節點

* 收錄 300+ 經典及流行線上教程

* 解讀 100+ AI4Science 論文案例

* 支援 500+ 相關詞條查詢

* 托管國内首個完整的 Apache TVM 中文文檔

通路官網開啟學習之旅：

https://hyper.ai/