天天看點

RNN分類IMDB電影評分

本文從頭開始實踐如何利用RNN建構一個電影評價的正負面分類器。

1.  IMDB資料集的下載下傳

2.  資料預處理

# 資料準備
from keras.datasets import imdb
# 可以直接使用 imdb.load_data() 下載下傳資料
from keras.preprocessing import sequence
from keras.preprocessing.text import Tokenizer
import re
import os

# 用來去掉文本中的标簽,例如<p>,</p>
re_tag = re.compile(r'<[^>]+>')
def rm_tags(text):
    return re_tag.sub('', text)

# 讀取檔案
def read_files(filetype):
    path = "data/aclImdb/"
    file_list = []
    positive_path = path + filetype + "/pos/"
    for f in os.listdir(positive_path):
        file_list += [positive_path + f]
    negative_path = path + filetype + "/neg/"
    for f in os.listdir(negative_path):
        file_list += [negative_path + f]
    print('read', filetype, 'files:', len(fi