天天看點

聯邦學習常用資料集

聯邦學習常用資料集

今天開始跑聯邦學習論文實驗了,這裡介紹一下論文的常用資料集(因為我的研究領域是聯邦/分布式學習,是以下面列出的資料集可能偏向這方面,做其他方向的童鞋參考下就好)。

任務:手寫字元識别

參數說明: 62種不同的字元類别 (10種數字, 26種小寫, 26種大寫)的像素圖檔, 圖檔全為28乘28像素大小 (可以選擇将其轉為128×128), 樣本數805263。

介紹: FEMNIST資料集全名Federated-MNIST, 屬于專門給聯邦學習用的基準資料集leaf的成員之一。

官網:https://leaf.cmu.edu/

引用方式:S Caldas, LEAF: A Benchmark for Federated Settings, 2018.

擷取方式:采用腳本擷取

參數說明: 按照byclass方式split的話是62種不同的字元類别(各類别數量不均衡) (10種數字, 26種小寫, 26種大寫)的像素圖檔, 圖檔全為28乘28像素大小, 樣本數814255。

介紹: EMNIST資料集全名extension of MNIST,是MINIST資料集的擴充版。

官網:https://www.nist.gov/itl/products-and-services/emnist-dataset

引用方式:Cohen G, EMNIST: an extension of MNIST to handwritten letters, 2017

擷取方式:可以采用腳本擷取

也可以直接從torchvision中開箱即用

任務:圖像分類

參數說明: 10種32x32的彩色圖檔(包括人、動物、花、昆蟲等), 每種類别都有6000張圖檔. 50000張訓練圖檔10000張測試圖檔.

介紹: CIFAR-10 是所謂的8千萬張微型圖檔資料集的有标簽子集。

官網:https://www.cs.toronto.edu/~kriz/cifar.html

引用方式:Alex Krizhevsky, Learning Multiple Layers of Features from Tiny Images, 2009.

擷取方式:

直接從torchvision中開箱即用

參數說明: 100種32x32的彩色圖檔(包括人、動物、花、昆蟲等), 每種類别都有600張圖檔. 500張訓練圖檔100張測試圖檔.

介紹: CIFAR-10的兄弟,也是所謂的8千萬張微型圖檔資料集的有标簽子集。

任務:下一個字元預測

參數說明:總共4,226,15條樣本

介紹: 和FEMNST一樣,屬于專門給聯邦學習用的基準資料集leaf的成員之一。

引用方式:LEAF: A Benchmark for Federated Settings

用腳本擷取

任務:二分類

參數說明:使用者能夠自定義分布式節點數量, 類别數量以及次元

介紹: 這個資料集提供了一個生成人工的、但是有挑戰性的聯邦學習資料集方法, 我們要求的目标是分布式節點上的模型能夠盡量有獨立性。論文中詳細地給出了資料集的生成過程。和FEMNST一樣,屬于專門給聯邦學習用的基準資料集leaf的成員之一。

需按照下列python代碼對資料集進行人工生成

數學是符号的藝術,音樂是上界的語言。

繼續閱讀