天天看點

糾錯資料标注,隻需一行代碼:開源項目Cleanlab釋出了2.0版本

機器之心報道

編輯:蛋醬

隻需要幾行代碼,Cleanlab 就能幫你糾正資料集中的錯誤。

從事 AI 研究工作的人都知道,資料準備幾乎占據了資料科學和機器學習研究工作的 80%。它被認為是最耗時和最不愉快的資料科學任務。

你以為的研究工作是「花時間從資料、訓練模型、進階模組化技術中探索出很棒的見解」,實際上經常是「把大量時間花在清理資料上」,因為現實世界的資料是雜亂無章的,而且充滿錯誤……

糾錯資料标注,隻需一行代碼:開源項目Cleanlab釋出了2.0版本

資料錯誤(例如訓練集中的錯誤标記示例)會降低模型性能,資料集級别的問題(如重疊類)也會降低模型性能。即使在 gold-standard 基準資料集中,測試集錯誤也很常見,這可能會誤導資料科學家選擇劣質模型進行部署。雖然探索複雜的模組化技術聽起來比手動檢查和清理單個資料點更有吸引力,但往往是後者提供了更大的收益。

為了幫助資料集糾錯效率的提升,來自 MIT、亞馬遜的研究者創造了資料标注糾錯工具 Cleanlab。Cleanlab 通過僅自動标記真正需要注意的一小部分資料來減少此過程中的痛苦。

糾錯資料标注,隻需一行代碼:開源項目Cleanlab釋出了2.0版本

這個工具在三人合著的 NeurIPS 2021 論文《Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks》(ImageNet 驗證集 6% 的标簽都是錯的,MIT:十大常用資料集沒那麼靠譜)也有提到。

糾錯資料标注,隻需一行代碼:開源項目Cleanlab釋出了2.0版本

論文連結:https://arxiv.org/abs/2103.14749

在這篇文章中,三人對 10 個主流機器學習資料集的測試集展開了研究,發現它們的平均錯誤率竟高達 3.4%。其中,最有名的 ImageNet 資料集的驗證集中至少存在 2916 個錯誤,錯誤率為 6%;QuickDraw 資料集中至少存在 500 萬個錯誤,錯誤率為 10%。

既然資料标注錯誤如此普遍,但又十分重要,那 cleanlab 是怎麼解決這個問題的呢?

實作 80% 的自動化

Cleanlab 通過提供一個架構來簡化以資料為中心的 AI ,幫助資料科學家和 ML 工程師完成 80% 的工作。Cleanlab 通過查找和修複示例級、類級和資料集級問題,支援機器學習和分析工作流,處理混亂的現實世界資料;測量和跟蹤整體資料集品質;并為機器學習管道提供清潔資料。

「Cleanlab 背後的算法理論受到了量子資訊理論的啟發,當時我們的 CEO 正在麻省理工學院進行博士研究。我們的一些使用者認為 Cleanlab 是黑魔法,但它大部分是發表在頂級 ML/AI 會議和期刊上的數學和科學研究。」

2021 年底,Cleanlab 公司成立。在過去的一年裡,數十家科技、醫療保健、金融和資料相關的公司(例如特斯拉、摩根大通、Chase、富國銀行、微軟等)已經開始使用 cleanlab。迄今,這個項目已經累積了 3k Star:

糾錯資料标注,隻需一行代碼:開源項目Cleanlab釋出了2.0版本

近日,Cleanlab 正式釋出了 2.0 版本,以适用于所有資料科學家、ML 資料集和模型。

糾錯資料标注,隻需一行代碼:開源項目Cleanlab釋出了2.0版本

cleanlab 2.0

cleanlab 2.0 是一個開源架構,用于機器學習和分析雜亂的真實資料。基于 MIT 的研究,cleanlab 可以識别資料集中的錯誤,測量資料集品質,用噪聲資料訓練可靠模型,并幫助管理高品質的資料集,每一個都隻需要幾行代碼。

項目位址:https://github.com/cleanlab/cleanlab

糾錯資料标注,隻需一行代碼:開源項目Cleanlab釋出了2.0版本

Cleanlab 2.0 版本中開源的新特性示例(大部分是一行代碼)包括:

在資料集中查找問題并按品質對資料點進行排名

在有标簽問題的任何資料集上訓練任何分類器

在資料集級别查找要合并和 / 或删除的重疊類

衡量資料集的整體标簽健康狀況

基本隻需要一行代碼,即可找出資料集中的哪些示例存在問題:

一行代碼,就能衡量和跟蹤資料集的整體健康狀況:

此外,cleanlab 的所有功能都适用于任何資料集和任何模型,包括 scikit-learn、PyTorch、Tensorflow、Keras、JAX、HuggingFace、MXNet、XGBoost 等。如果你使用與 sklearn 相容的分類器,cleanlab 可以開箱即用。

更多細節可參考項目文檔。

繼續閱讀