天天看點

⚡自組織映射(SOM)神經網絡⚡Python實作 |Python技能樹征題Minisom

❤九月❤份了,車神哥又回歸了校園

❉冬天❉還會遠嗎

♪推薦一首最近很⚡喜歡⚡的歌♪

❀No Fear In My Heart -樸樹❀

⚡自組織映射(SOM)神經網絡⚡Python實作 |Python技能樹征題Minisom
由于最近在寫一篇相關的論文,就說說其中遇到的一些問題吧~

Minisom

之前做過一個對minisom的第三方開源庫的介紹,可以點選看

這裡

對相應的代碼添加了注釋:

導入各種庫吧

# 導入庫
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.patches import Patch
import pandas as pd
from minisom import MiniSom
import math
import xlrd
from icecream import ic
from tqdm import tqdm
from openpyxl import load_workbook
import openpyxl
from time import time      

第一步是導入資料的Function,這很簡單就不解釋了

# 傳入資料成DataFrame的矩陣格式
def loaddata(datafile, num_name):
    df = pd.read_excel(datafile, sheet_name=num_name, index_col=0)   # 導入資料

    return df  # 傳回值      

由于代碼不是很長,就沒有按照子產品來寫了

⚡自組織映射(SOM)神經網絡⚡Python實作 |Python技能樹征題Minisom

然後是導入源檔案及其标簽。

說實話,在現實項目中,想要找到不同特征的标簽是真的真的真的太難了!!!

不要問為什麼,當你實踐你就知道了~

# 導入原始資料
# 1.導入訓練和測試資料集
datafile = "*********.xls"  # 原始資料檔案名
# 2.導入标簽資料
y = pd.DataFrame(pd.read_csv('label****.csv'))    # 讀取你的标簽資料或者原有的标簽是最好的

yy = []   # 設定空矩陣

# 循環将标簽導入yy矩陣中
for iy in range(y.shape[0]):
    Uy = y.iloc[iy, 0]
    yy.append(int(Uy))

y = yy   # 指派給y      

再讀取每個sheet中的不同特征名稱,我的資料集是這樣,如果你沒有特征名稱,最好對其進行标記,這樣會更加有效。

# 3.讀取特征标簽
feature_names = pd.DataFrame(pd.read_excel(datafile, index_col=0)).columns   # 取資料的列:特征标簽
class_names = [0, 1]  # 标簽名稱

feat = []   # 設定空矩陣
# 循環将特征名稱添加到feat矩陣中
for tz in range(feature_names.shape[0]):
    tezh = feature_names[tz]

    feat.append(tezh)  # 逐漸添加進feat

feature_names = feat   # 指派給feature_names

print('特征名稱:', feature_names)      

由于我的源檔案會有很多個sheet,是以需要對每一個sheet進行訓練及測試,再進行儲存操作,如果你隻要一個資料表的話,可以對此進行相應的改進。

# 按照每一個資料Sheet讀取每一層的資料
# 讀取檔案資料集
workbook = xlrd.open_workbook(datafile)  # 打開資料檔案
sheets = workbook.sheet_names()   # 讀取原始資料的資料表sheet名
SheetNames = []   # 設定空矩陣
# 循環輸出
for sheetname in tqdm(sheets):
    print("表格的名稱是:", sheetname)
    SheetNames.append(sheetname)   # 循環添加進空矩陣SheetNames中

print('原始資料表的表單名稱為:', SheetNames)
num_n = pd.DataFrame(SheetNames).shape[0]  # 擷取表單的個數
print('表單的個數為:', num_n)

# 設定空資料表1
dff = pd.DataFrame(columns=["title", "content"])    # 添加列名
dff.to_excel('SOM_Result.xlsx')   # 儲存到'SOM_Result.xlsx'

## 設定空資料表2
dff2 = pd.DataFrame(columns=["title1", "content1"])   # 添加列名
dff2.to_excel('SOM_label_result.xlsx')  # 儲存到'SOM_label_result.xlsx'

start_time = time()    # 記錄設定開始的時間      

接下來也是對我的每一個表單進行循環周遊訓練及其測試的過程,如果隻需要進行一次,那麼隻需要取消循環過程,更改其中的一些變量即可。

其中包含SOM的訓練及測試,權值矩陣、map、聚類結果的可視化,精确度等操作。

for i_c in range(num_n):
    if i_c < num_n:
        print('程式目前處在第%r層數.' % SheetNames[i_c])
        XMat = loaddata(datafile, num_name=SheetNames[i_c])  # 傳回得到浮點型矩陣

        # 設定空資料表1
        dff = pd.DataFrame(columns=["title", "content"])  # 添加列名
        dff.to_excel('SOM_Result_'+ SheetNames[i_c] +'.xlsx')  # 儲存到'SOM_Result.xlsx'

        ## 設定空資料表2
        dff2 = pd.DataFrame(columns=["title1", "content1"])  # 添加列名
        dff2.to_excel('SOM_label_result_'+ SheetNames[i_c] +'.xlsx')  # 儲存到'SOM_label_result.xlsx'


        X =  XMat.values    # 将DataFrame格式改為np.array矩陣


        # 劃分訓練集、測試集  7:3
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)  # X為原始資料,y為标簽資料,test_size為訓練集和測試集劃分比例,random_state為選擇随機打亂的方式,可設定為0或1方式


        N = X_train.shape[0]  #樣本數量
        M = X_train.shape[1]  #次元/特征數量

        '''
        設定超參數
        '''
        size = math.ceil(np.sqrt(5 * np.sqrt(N)))  # 經驗公式:決定輸出層尺寸
        print("訓練樣本個數:{}  測試樣本個數:{}".format(N, X_test.shape[0]))
        print("輸出網格最佳邊長為:", size)

        max_iter = 1000  # 疊代次數

        # Initialization and training(初始化及其訓練) size為神經元數,M為輸入次元/特征數量, learning——rate為學習率
        som = MiniSom(size, size, M, sigma=3, learning_rate=0.5,
                      neighborhood_function='bubble')    # Neighborhood_function’近鄰函數‘可選的設定有'gaussian'、'mexican_hat'、'bubble'. 調參的時候可以都試一遍,看效果

        '''
        初始化權值,有2個API
        '''

        som.pca_weights_init(X_train)   # PCA降維初始化

        som.train_batch(X_train, max_iter, verbose=False)  # train_batch 每次按順序取一個樣本,用過最後一個樣本後跳回第一個樣本,循環直到疊代次數滿足max_iter


        winmap = som.labels_map(X_train, y_train)   # 求取獲勝神經元

        # 判斷樣本的類别
        def classify(som,data,winmap):
            from numpy import sum as npsum   # 導入庫
            default_class = npsum(list(winmap.values())).most_common()[0][0]   # 擷取獲勝神經元的值
            result = []   # 設定空矩陣
            for d in data:   # 循環疊代
                win_position = som.winner(d)   # 獲勝神經元的權值位置
                if win_position in winmap:    # 判斷是否屬于獲勝神經元
                    result.append(winmap[win_position].most_common()[0][0])  # 将其添加進空矩陣result中
                else:
                    result.append(default_class)   # 若不滿足上面的條件則将default_class添加進result中

            print('輸出result結果:', result)
            return result   # 傳回值

        # 輸出混淆矩陣
        y_pred = classify(som, X_test, winmap)   # 調用classify函數
        print(classification_report(y_test, np.array(y_pred)))   # 輸出混淆矩陣

        # 繪制各種圖
        # U-Matrix
        heatmap = som.distance_map()  #生成U-Matrix
        plt.imshow(heatmap, cmap='bone_r')      #miniSom案例中用的pcolor函數,需要調整坐标
        plt.colorbar()   # 顔色卡

        plt.figure(figsize=(9, 9))   # 設定圖像大小
        # 背景上畫U-Matrix
        heatmap = som.distance_map()  # 熱力圖
        plt.pcolor(heatmap, cmap='bone_r')  # plotting the distance map as background 設定樣式

        # 定義不同标簽的圖案标記
        markers = ['o', 's']   # 設定圖案樣式
        colors = ['C0', 'C1']   # 定義不同标簽圖案的顔色
        category_color = {'Normal': 'C0',
                          'fault': 'C1',
                          }   # 設定對應字典

        for cnt, xx in enumerate(X_train):  # 疊代擷取X_train訓練資料
            w = som.winner(xx)  # getting the winner
            # 在樣本Heat的地方畫上标記
            plt.plot(w[0]+.5, w[1]+.5, markers[y_train[cnt]], markerfacecolor='None',
                     markeredgecolor=colors[y_train[cnt]], markersize=12, markeredgewidth=2) # plot繪制圖像,markerfacecolor:标記顔色,markersize:标記尺寸,markeredgewidth:标記寬度
        plt.axis([0, size, 0, size])  # 設定坐标系
        ax = plt.gca()    # 進行坐标軸的移動,gca就是get current axes
        ax.invert_yaxis() #颠倒y軸方向
        legend_elements = [Patch(facecolor=clr,
                                 edgecolor='w',
                                 label=l) for l, clr in category_color.items()]
        plt.legend(handles=legend_elements, loc='center left', bbox_to_anchor=(1, .95))  # 設定圖像界面細節
        # plt.show()  # 顯示圖


        label_name_map_number = {"Normal":0,"Fault":1}

        # 神經元占比餅圖
        from matplotlib.gridspec import GridSpec
        plt.figure(figsize=(9, 9))    # 設定圖像界面大小
        the_grid = GridSpec(size, size)   # 神經元個數
        for position in winmap.keys():   # 疊代擷取獲勝神經元位置
            label_fracs = [winmap[position][label] for label in [0,1]]  # 擷取标簽
            plt.subplot(the_grid[position[1], position[0]], aspect=1)    # 表示把顯示界面分割成the_grid[position[1]*position[0]的網格
            patches, texts = plt.pie(label_fracs)    # 用于繪制餅圖
            plt.text(position[0]/100, position[1]/100,  str(len(list(winmap[position].elements()))),
                      color='black', fontdict={'weight': 'bold',  'size': 15},
                      va='center', ha='center')  # 給圖中加标簽
        plt.legend(patches, class_names, loc='center right', bbox_to_anchor=(-1, 9), ncol=3)  # 顯示圖中的各種标簽
        # plt.show()   # 輸出顯示圖像

        # 權重熱力圖
        plt.figure(figsize=(10, 10))   # 設定圖像大小
        for i, f in enumerate(feature_names):  # 疊代循環擷取feature_names特征
            plt.subplot(4, 4, i+1)    # 表示把顯示界面分割成 4*4 的網格
            plt.title(f)   # 設定标題
            W = som.get_weights()  # 獲得權重資料
            plt.imshow(W[:,:,i], cmap='coolwarm')   # 輸出熱力圖,W[:,:,i]變量存儲圖像,可以是浮點型數組、unit8數組以及PIL圖像,參數cmap用于設定熱圖的Colormap,代表熱力塊的樣式顔色
            plt.colorbar()   # colorbar,顔色卡尺
            plt.xticks(np.arange(size+1))   # 設定主圖的橫坐标的刻度字型大小
            plt.yticks(np.arange(size+1))   # 設定主圖的縱坐标的刻度字型大小

        # plt.show()  # 輸出顯示圖像

        # 儲存result——label
        print('開始SOM标簽Result儲存!')
        df_winmap = pd.DataFrame.from_dict(winmap, orient='index')  # 讀取轉換winmap
        ic(df_winmap)  # 輸出顯示df_winmap
        writer1 = pd.ExcelWriter('SOM_label_result_'+ SheetNames[i_c] +'.xlsx', engine='openpyxl')   # 讀取'SOM_label_result.xlsx'
        book1 = load_workbook(writer1.path)  # 擷取檔案路徑
        writer1.book = book1  # 指派
        df_winmap.to_excel(excel_writer=writer1, sheet_name=str(SheetNames[i_c]))  # 建立為資料表
        writer1.save()   # 儲存資料表
        writer1.close()  # 關閉資料表
        print('SOM标簽Result儲存結束!')


        # 儲存result_data
        print('開始SOM最終Result坐标儲存!')
        winner = som.win_map(X_train, return_indices=True)   # 擷取SOM的獲勝神經元結果

        my_df = pd.DataFrame.from_dict(winner, orient='index')  # 轉換輸出指派給my_df
        ic(my_df)   # 顯示輸出
        writer = pd.ExcelWriter('SOM_Result_'+ SheetNames[i_c] +'.xlsx', engine='openpyxl')   # 建立資料表'SOM_Result.xlsx'
        book = load_workbook(writer.path)   # 擷取檔案路徑
        writer.book = book   # 指派
        my_df.to_excel(excel_writer=writer, sheet_name=str(SheetNames[i_c]))   # 儲存資料表

        writer.save()   # 儲存操作
        writer.close()  # 關閉操作
        print('SOM最終Result坐标儲存結束!')      

大體的流程就是這樣了,minisom的庫訓練起來比Matlab快了不知道多少倍,⚡yyds⚡!!!