萬能的0和1 之字典特征抽取

2017-12-20 23:50:00

機器是無法識别自然語言的,機器隻能識别0和1,經典的案例就是字典特征抽取

0表示不存在

1表示存在

以國漫人物資訊,做示例

原始資料

字典特征抽取後, 終端列印結果

特征抽取後的資料

關于one-hot編碼

機器會将所有樣本中, 出現過的特征統統列舉出來,然後每個樣本挨個比對所有特征,如果存在對應的特征則取1, 不存在則取0

# 字典特征抽取
from sklearn.feature_extraction import DictVectorizer

# 字典特征抽取
def dic_f_extra():
    # 人物資訊
    shao_jin = [{"name":"袁小棠", "age": 19, "gender":"男"},
              {"name":"小亭子", "age": 19, "gender":"女"},
              {"name":"白衣段雲", "age": 22, "gender": "男"},
              {"name":"阿九", "age": 18, "gender":"女"}]

    # 執行個體化字典特征抽取對象(為了便于觀察,不使用sparse格式顯示)
    dict_v = DictVectorizer(sparse=False)

    # 填充數值并轉換
    data = dict_v.fit_transform(shao_jin)

    # 列印抽取後的,字典特征名稱資訊
    print(dict_v.get_feature_names())

    print("\n","\n","\n")
    # 列印字典特征資料資訊
    print(data)

if __name__ == '__main__':
    dic_f_extra()

萬能的0和1 之字典特征抽取

以國漫人物資訊,做示例

原始資料

字典特征抽取後, 終端列印結果

關于one-hot編碼

繼續閱讀

傳統的seq2seq模型與seq2seq with attention的模型原理細節解析

torch.nn.Embedding的使用torch.nn.Embedding

nn.Embedding()參數的了解nn.Embedding()

pytorch中nn.RNN()總結

聯考志願填報：人工智能專業怎麼樣？人工智能行業發展前景如何？

【Python學習筆記】- Day6

Windows版本的Google word2vec和Stanford GloVe工具

seq2sqe與attenton實作聊天機器人

奮戰聊天機器人（四）自然語言進行中的文本分類nltk中的貝葉斯分類器

從詞向量衡量标準到全局向量的詞嵌入模型GloVe再到一詞多義的解決方式衡量标準Evaluation引子全局向量的詞嵌入應用對一詞多義的思考Reference

GloVe與word2vec的差別，及GloVe的缺陷

統計學習大作業-BERT模型1 文本處理-BERT模型2 參考資料：

anaconda中科大鏡像

NLP從入門到放棄_IBM Model1IBM Model1

K-近鄰算法以及圖像分類應用

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

萬能的0和1 之 字典特征抽取

以國漫人物資訊,做示例

原始資料

字典特征抽取後, 終端列印結果

關于one-hot編碼

繼續閱讀

萬能的0和1 之字典特征抽取