糾錯資料标注，隻需一行代碼：開源項目Cleanlab釋出了2.0版本

機器之心報道

編輯：蛋醬

隻需要幾行代碼，Cleanlab 就能幫你糾正資料集中的錯誤。

從事 AI 研究工作的人都知道，資料準備幾乎占據了資料科學和機器學習研究工作的 80%。它被認為是最耗時和最不愉快的資料科學任務。

你以為的研究工作是「花時間從資料、訓練模型、進階模組化技術中探索出很棒的見解」，實際上經常是「把大量時間花在清理資料上」，因為現實世界的資料是雜亂無章的，而且充滿錯誤……

資料錯誤（例如訓練集中的錯誤标記示例）會降低模型性能，資料集級别的問題（如重疊類）也會降低模型性能。即使在 gold-standard 基準資料集中，測試集錯誤也很常見，這可能會誤導資料科學家選擇劣質模型進行部署。雖然探索複雜的模組化技術聽起來比手動檢查和清理單個資料點更有吸引力，但往往是後者提供了更大的收益。

為了幫助資料集糾錯效率的提升，來自 MIT、亞馬遜的研究者創造了資料标注糾錯工具 Cleanlab。Cleanlab 通過僅自動标記真正需要注意的一小部分資料來減少此過程中的痛苦。

這個工具在三人合著的 NeurIPS 2021 論文《Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks》（ImageNet 驗證集 6% 的标簽都是錯的，MIT：十大常用資料集沒那麼靠譜）也有提到。

論文連結：https://arxiv.org/abs/2103.14749

在這篇文章中，三人對 10 個主流機器學習資料集的測試集展開了研究，發現它們的平均錯誤率竟高達 3.4%。其中，最有名的 ImageNet 資料集的驗證集中至少存在 2916 個錯誤，錯誤率為 6%；QuickDraw 資料集中至少存在 500 萬個錯誤，錯誤率為 10%。

既然資料标注錯誤如此普遍，但又十分重要，那 cleanlab 是怎麼解決這個問題的呢？

實作 80% 的自動化

Cleanlab 通過提供一個架構來簡化以資料為中心的 AI ，幫助資料科學家和 ML 工程師完成 80% 的工作。Cleanlab 通過查找和修複示例級、類級和資料集級問題，支援機器學習和分析工作流，處理混亂的現實世界資料；測量和跟蹤整體資料集品質；并為機器學習管道提供清潔資料。

「Cleanlab 背後的算法理論受到了量子資訊理論的啟發，當時我們的 CEO 正在麻省理工學院進行博士研究。我們的一些使用者認為 Cleanlab 是黑魔法，但它大部分是發表在頂級 ML/AI 會議和期刊上的數學和科學研究。」

2021 年底，Cleanlab 公司成立。在過去的一年裡，數十家科技、醫療保健、金融和資料相關的公司（例如特斯拉、摩根大通、Chase、富國銀行、微軟等）已經開始使用 cleanlab。迄今，這個項目已經累積了 3k Star：

近日，Cleanlab 正式釋出了 2.0 版本，以适用于所有資料科學家、ML 資料集和模型。

cleanlab 2.0

cleanlab 2.0 是一個開源架構，用于機器學習和分析雜亂的真實資料。基于 MIT 的研究，cleanlab 可以識别資料集中的錯誤，測量資料集品質，用噪聲資料訓練可靠模型，并幫助管理高品質的資料集，每一個都隻需要幾行代碼。

項目位址：https://github.com/cleanlab/cleanlab

Cleanlab 2.0 版本中開源的新特性示例（大部分是一行代碼）包括：

在資料集中查找問題并按品質對資料點進行排名

在有标簽問題的任何資料集上訓練任何分類器

在資料集級别查找要合并和 / 或删除的重疊類

衡量資料集的整體标簽健康狀況

基本隻需要一行代碼，即可找出資料集中的哪些示例存在問題：

一行代碼，就能衡量和跟蹤資料集的整體健康狀況：

此外，cleanlab 的所有功能都适用于任何資料集和任何模型，包括 scikit-learn、PyTorch、Tensorflow、Keras、JAX、HuggingFace、MXNet、XGBoost 等。如果你使用與 sklearn 相容的分類器，cleanlab 可以開箱即用。

更多細節可參考項目文檔。

糾錯資料标注，隻需一行代碼：開源項目Cleanlab釋出了2.0版本

繼續閱讀

【機器學習實踐】人臉活體檢測

在做語義相似度查詢的時候，如何配置相似度的門檻值？在進行語義相似度查詢時，配置相似度的門檻值是一個重要的步驟，它決定了哪些文

#人工智能發展最重要的要素是什麼?#人工智能（AI）的發展涉及多個重要要素，以下是其中的一些關鍵要素：1.資料資料是AI

計算機畢業設計吊打導師PySpark+Hadoop航班延誤預測航班可視化機票可視化機票爬蟲航班大資料機器學習深度學習人工

幹貨分享｜CPU、GPU、TPU、NPU大揭秘‼️CPU、GPU、TPU和NPU是幾種不同類型的處理器，它們各有優劣，适

MotorNerve：一種使用機器學習的角色動畫系統【GDC 2024】

用Python預測黃金期貨價格走勢,原來機器學習這麼簡單!(内含代碼)

利用機器學習模型，建構量化擇時政策（附全流程代碼）

盤點量化交易領域10大常用高效機器學習算法（附執行個體源碼）

重整化群遇見機器學習：多尺度視角探索複雜系統内在的統一性

中金 | 機器學習系列（1）：使用深度強化學習模型探索因子建構範式

AI幻覺：機器學習中的視覺錯覺與認知挑戰，對創新的協同中作用

大資料、人工智能和機器學習：競選活動的範式轉變

瑞士生物科技公司Bionomous創新結合微工程設計與機器學習，開發全自動微型生物實體篩選分類和配置設定裝置 | 瑞士創新署中國營

2024中國網際網路發展創新與投資大賽（開源）登陸2024全球機器學習技術大會

機器學習與人力資源管理碰撞