本文從頭開始實踐如何利用RNN建構一個電影評價的正負面分類器。
1. IMDB資料集的下載下傳
2. 資料預處理
# 資料準備
from keras.datasets import imdb
# 可以直接使用 imdb.load_data() 下載下傳資料
from keras.preprocessing import sequence
from keras.preprocessing.text import Tokenizer
import re
import os
# 用來去掉文本中的标簽,例如<p>,</p>
re_tag = re.compile(r'<[^>]+>')
def rm_tags(text):
return re_tag.sub('', text)
# 讀取檔案
def read_files(filetype):
path = "data/aclImdb/"
file_list = []
positive_path = path + filetype + "/pos/"
for f in os.listdir(positive_path):
file_list += [positive_path + f]
negative_path = path + filetype + "/neg/"
for f in os.listdir(negative_path):
file_list += [negative_path + f]
print('read', filetype, 'files:', len(fi