資料準備
google的flower資料集http://download.tensorflow.org/example_images/flower_photos.tgz
從上述連結下載下傳的圖檔資料集放在本地,這裡我的存放目錄是:/home/tf/source/my_flowers_5/mydata。
該資料集有5個分類,共有3670張圖檔。
daisy(鄒菊)類有633張圖檔,dandelion(蒲公英)類有898張圖檔,roses(玫瑰)類有641張圖檔,sunflowers(向日葵)類有699張圖檔,tulips(郁金香)類有799張圖檔,格式都為jpg。
腳本檔案準備
用到腳本檔案隻有兩個:
- download_and_convert_data.py
- convert_quiz.py
這兩個腳本都在我們提供的參考代碼中,convert_quiz.py在datasets檔案夾裡。
download_and_convert_data.py存放的本地目錄是:/home/tf/source/my_flowers_5
convert_quiz.py存放的本地目錄是:/home/tf/source/my_flowers_5/datasets
修改腳本
download_and_convert_data.py需要修改的内容:
代碼第69行,FLAGS.dataset_name == 'quiz' 改成 FLAGS.dataset_name == 'mydata'
‘mydata’ 是随便起的,你也可以用自己喜歡的名字,但是資料集儲存的檔案夾名稱、convert_quiz.py以及後續的作業訓練代碼都要做相應的修改
convert_quiz.py腳本修改的内容包括:
代碼第39行,_NUM_VALIDATION = 734,即設定驗證集的資料量,這裡采用20%*3670
代碼第80行,flower_root = os.path.join(dataset_dir, 'quiz') ,'quiz' 改成 'mydata'
代碼第99行,output_filename = 'quiz_%s_%05d-of-%05d.tfrecord',quiz 改成 mydata
運作腳本
修改好後在目前目錄/home/tf/source/my_flowers_5打開shell,然後輸入以下指令行:
python3 download_and_convert_data.py --dataset_name=mydata --dataset_dir=./
參數說明:
dataset_name = mydata # 資料集的名稱
dataset_dir = ./ # 資料集mydata儲存的位置,用的是download_and_convert_data.py的相對位置
如果資料打包成功,會有以下的資訊提示,
最後生成的TFRecord資料如下圖所示,