天天看點

每周編輯精選|老鄉雞開源「菜品溯源報告」

作者:HyperAI超神經

号外!号外!老鄉雞的「機密檔案」竟然被公開了!

近日,老鄉雞将 20 萬字的《老鄉雞菜品溯源報告》向社會全面公開,從食材的源頭到烹饪的細節,全都清清楚楚。現已在超神經提供下載下傳,快來看看有沒有你愛吃的!

PS:小編隻想問,按照報告做翻車了能提 issue 嗎?

4 月 15 日-4 月 19 日,hyper.ai 官網更新速覽:

* 優質公共資料集:10 個

* 優質教程精選:2 個

* 社群文章精選:3 篇

* 熱門百科詞條:5 條

通路官網:hyper.ai

公共資料集精選

1. 老鄉雞菜品溯源報告

該資料集覆寫老鄉雞目前 1,218 家餐廳共計 226 個 SKU 、873 種原料以及 305 家供應商。老鄉雞将 677 頁共 20 萬字的《老鄉雞菜品溯源報告》向社會全面公開。

直接使用:https://go.hyper.ai/nbESl

2. Open Sora Dataset 項目視訊資料集

Open-Sora-Plan 是一個開源項目,旨在複現 OpenAI 的 Sora(T2V 模型)。該資料集為其項目視訊資料集。研究團隊在 CC0 許可下從開源網站抓取了 40,258 個視訊。所有視訊均為高品質無水印,其中約 60% 為風景資料。

直接使用:https://go.hyper.ai/75Ftc

3. MMVP 多模态運動捕捉資料集

該資料集包含了諸多大範圍且迅速的人體運動,如跑步、跳繩、立定跳遠等,總計采集了 16 位受試者的逾 44k 幀同步 RGBD 幀以及壓力資料。

直接使用:https://go.hyper.ai/4edeR

4. OpenWebMath 開放網絡數學訓練資料集

OpenWebMath 是一個包含來自網際網路的大部分高品質數學文本的資料集。它是從 Common Crawl 上超過 200B 個 HTML 檔案中過濾和提取的,最終形成一組 630 萬個文檔,總共包含 14.7B 個 tokens 。OpenWebMath 旨在用于預訓練和微調大型語言模型。

直接使用:https://go.hyper.ai/zjytq

5. Proof-Pile-2 數學資料集

Proof-Pile-2 是一個包含 550 億個數學和科學文檔的 token 資料集。融合了科學論文、數學相關的網絡内容和數學代碼,其知識截止于2023年4月(不包括特定的 Lean 證明步驟子集)。建立此資料集是為了訓練 Llemma 7B 和 Llemma 34B 模型。

直接使用:https://go.hyper.ai/aant8

6. Mizar 數學資料集

Mizar 數學庫包含了經過形式化的數學定理和證明,涵蓋了廣泛的數學領域,包括邏輯、代數、分析、幾何等。這個庫的目标是提供一個可靠的數學基礎,以便進行自動化的定理證明和形式化推理。

直接使用:https://go.hyper.ai/IJeHa

7. Isabelle 平行語料庫

Isabelle 平行語料庫 (IPC) 是一個由社群驅動的倡議,旨在建立 Isabelle 文檔的平行語料庫。IPC 将 Isabelle 中的形式化文檔(如定理、引理、定義等)與它們的自然語言對應文本配對。

直接使用:https://go.hyper.ai/BEADY

8. Fruits Dataset 水果新鮮程度分類資料集

該資料集包含三種水果的圖像:蘋果、橙子和香蕉。每張圖像都根據其水果類型和新鮮度狀态進行标記,進而實作分類或對象檢測等監督學習任務。

直接使用:https://go.hyper.ai/b7TNx

9. DeepFruit 水果圖像分類資料集

DeepFruit 是穆罕默德·本·法赫德親王大學等研究機構聯合釋出的水果圖像分類資料集。該資料集包含基于 8 種不同水果集組合的 21,122 張水果圖像。可以用于水果檢測、識别和分類領域的研究,以及卡路裡估算等其他創新應用。

直接使用:https://go.hyper.ai/ut4BA

10. 15 個動物圖像分類資料集

該資料集包含 15 個動物的圖像檔案夾,所有圖像大小均為 224X224,适合圖像分類。圖像從網絡下載下傳并使用 OpenCV 庫進行了預處理(調整大小和增強)。是以,該資料集可以直接用于訓練,無需進一步的資料增強。

直接使用:https://go.hyper.ai/tgMtH

更多公共資料集,請通路:

https://hyper.ai/datasets

公共教程精選

1. 線上教程|低門檻部署!SUPIR 專治各種圖檔模糊,還能了解文本描述進行精修

圖像修複工具 SUPIR 利用 StableDiffusion-XL (SDXL) 和模型擴充技術,通過機器學習和多模态方法,能夠顯著提升圖像的修複品質。該教程為大家搭建好了環境,無需任何複雜的前期準備,點選即可一鍵修複圖檔。

線上運作:https://go.hyper.ai/3RBMH

2. 用 Ollama 和 Open WebUI 部署大模型

該教程為 Ollama + Open WebUI 一鍵運作包,隻需按步驟輸入指令即可運作大模型。目前包含的模型有:qwen 1.5 14b、qwen 1.5 32b、llava 1.6 34b,支援自行上傳使用新的模型。

線上運作:https://go.hyper.ai/FwREK

社群文章精選

1. 加速催化劑設計,上海交大賀玉蓮課題組基于 AutoML 進行知識自動提取

上海交通大學密西根學院助理教授賀玉蓮課題組,針對确定決定 Eads 的關鍵實體量提出了一種新方法,即基于自動機器學習的特征删除實驗,從高通量密度泛函理論資料庫中實作了知識的自動提取。本文是對該研究的詳細解讀和分享。

檢視完整報道:https://go.hyper.ai/LEVS1

2. 擊敗全球 No.1 系統、覆寫 80+ 國家,谷歌洪水預測模型再登 Nature

谷歌團隊開發了一個基于機器學習的河流預報模型,該模型的預測能力優于目前全球最先進洪水預報系統 GloFAS,能夠提前 5 天實作對洪水的可靠預測,可覆寫 80 多個國家。本文是對該研究的分享和解讀。

檢視完整文章:https://go.hyper.ai/V4r4i

3. 锂電池壽命預測精度提升 20%!上海交大團隊釋出半監督學習方法 PBCT,提取無标簽資料中的隐藏資訊

上海交通大學研究團隊提出了一個半監督學習方法 PBCT,充分利用锂電池全生命周期中産生的低成本且豐富的無标簽資料,通過提取其中的隐藏資訊,深化對底層資料模式的認識,锂電池壽命預測精度提升 20%。本文是對該研究的分享和解讀。

檢視完整報道:https://go.hyper.ai/2EQGa

熱門百科詞條精選

1. Epoch

2. 學習率 Learning Rate

3. 配對 t 檢驗 Paired t-Test

4. 擴散模型 Diffusion Model

5. 大語言模型 Large Language Model

這裡彙編了數百條 AI 相關詞條,讓你在這裡讀懂「人工智能」:

https://hyper.ai/wiki

B 站直播預告

Google 日前宣布将于 5 月 14 日舉辦 2024 年度 I/O 開發者大會,為了幫助大家深入了解 Google ,超神經直播間将從下周一開始 7x24 小時不間斷直播「Google 專題」視訊,涉及:Google I/O 曆年釋出會、高管訪談、相關紀錄片等豐富内容。

下表為小編為大家精選的内容預告↓↓↓

日期 時間 内容

4 月 15 日

星期一

18:00 Google 曆年 I/O 釋出會

4 月 16 日

星期二

18:00

Google Cloud NEXT

曆年大會

4 月 17 日

星期三

18:00

TIME100 訪談

Sundar Pichai

4 月 18 日

星期四

18:00

Google 首席執行官

談中美人工智能競賽

4 月 19 日

星期五

18:00 AlphaGo 紀錄片

4 月 20 日

星期六

18:00

Google 紀錄片

背後創始人的故事

4 月 21 日

星期日

18:00

BBC 紀錄片

沒有 Google 的世界

超神經電視台 7×24h 不間斷直播,點選即可收獲 AI 領域的「電子榨菜」:

http://live.bilibili.com/26483094

以上就是本周編輯精選的全部内容,如果你有想要收錄 hyper.ai 官方網站的資源,也歡迎留言或投稿告訴我們哦!

下周再見!

關于 HyperAI超神經 (hyper.ai)

HyperAI超神經 (hyper.ai) 是國内領先的人工智能及高性能計算社群,緻力于成為國内資料科學領域的基礎設施,為國内開發者提供豐富、優質的公共資源,截至目前已經:

* 為 1200+ 公開資料集提供國内加速下載下傳節點

* 收錄 300+ 經典及流行線上教程

* 解讀 100+ AI4Science 論文案例

* 支援 500+ 相關詞條查詢

* 托管國内首個完整的 Apache TVM 中文文檔

通路官網開啟學習之旅:

https://hyper.ai/