天天看點

圖檔資料集打包成TFRecord格式的方法資料準備腳本檔案準備修改腳本運作腳本

資料準備

google的flower資料集http://download.tensorflow.org/example_images/flower_photos.tgz

從上述連結下載下傳的圖檔資料集放在本地,這裡我的存放目錄是:/home/tf/source/my_flowers_5/mydata。

該資料集有5個分類,共有3670張圖檔。

daisy(鄒菊)類有633張圖檔,dandelion(蒲公英)類有898張圖檔,roses(玫瑰)類有641張圖檔,sunflowers(向日葵)類有699張圖檔,tulips(郁金香)類有799張圖檔,格式都為jpg。

圖檔資料集打包成TFRecord格式的方法資料準備腳本檔案準備修改腳本運作腳本
圖檔資料集打包成TFRecord格式的方法資料準備腳本檔案準備修改腳本運作腳本

腳本檔案準備

用到腳本檔案隻有兩個:

  1. download_and_convert_data.py
  2. convert_quiz.py

這兩個腳本都在我們提供的參考代碼中,convert_quiz.py在datasets檔案夾裡。

download_and_convert_data.py存放的本地目錄是:/home/tf/source/my_flowers_5

convert_quiz.py存放的本地目錄是:/home/tf/source/my_flowers_5/datasets

修改腳本

download_and_convert_data.py需要修改的内容:

代碼第69行,FLAGS.dataset_name == 'quiz' 改成 FLAGS.dataset_name == 'mydata'

‘mydata’ 是随便起的,你也可以用自己喜歡的名字,但是資料集儲存的檔案夾名稱、convert_quiz.py以及後續的作業訓練代碼都要做相應的修改

convert_quiz.py腳本修改的内容包括:

代碼第39行,_NUM_VALIDATION = 734,即設定驗證集的資料量,這裡采用20%*3670

代碼第80行,flower_root = os.path.join(dataset_dir, 'quiz') ,'quiz' 改成 'mydata'

代碼第99行,output_filename = 'quiz_%s_%05d-of-%05d.tfrecord',quiz 改成 mydata

運作腳本

修改好後在目前目錄/home/tf/source/my_flowers_5打開shell,然後輸入以下指令行:

python3 download_and_convert_data.py --dataset_name=mydata --dataset_dir=./
           

參數說明:

dataset_name = mydata    # 資料集的名稱

dataset_dir = ./    # 資料集mydata儲存的位置,用的是download_and_convert_data.py的相對位置

如果資料打包成功,會有以下的資訊提示,

圖檔資料集打包成TFRecord格式的方法資料準備腳本檔案準備修改腳本運作腳本

最後生成的TFRecord資料如下圖所示,

圖檔資料集打包成TFRecord格式的方法資料準備腳本檔案準備修改腳本運作腳本

繼續閱讀