天天看點

BP神經網絡語音訓練

下面來介紹一下BP神經網絡及其關于語音訓練學習的知識:

BP神經網絡:BP(back propagation)神經網絡是1986年由Rumelhart和McClelland為首的科學家提出的概念,是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡,是目前應用最廣泛的神經網絡。基本BP算法包括信号的前向傳播和誤差的反向傳播兩個過程。即計算誤差輸出時按從輸入到輸出的方向進行,而調整權值和門檻值則從輸出到輸入的方向進行。正向傳播時,輸入信号通過隐含層作用于輸出節點,經過非線性變換,産生輸出信号,若實際輸出與期望輸出不相符,則轉入誤差的反向傳播過程。誤差反傳是将輸出誤差通過隐含層向輸入層逐層反傳,并将誤差分攤給各層所有單元,以從各層獲得的誤差信号作為調整各單元權值的依據。通過調整輸入節點與隐層節點的聯接強度和隐層節點與輸出節點的聯接強度以及門檻值,使誤差沿梯度方向下降,經過反複學習訓練,确定與最小誤差相對應的網絡參數(權值和門檻值),訓練即告停止。此時經過訓練的神經網絡即能對類似樣本的輸入資訊,自行處理輸出誤差最小的經過非線形轉換的資訊。BP神經網絡的計算過程由正向計算過程和反向計算過程組成。正向傳播過程,輸入模式從輸入層經隐單元層逐層處理,并轉向輸出層,每~層神經元的狀态隻影響下一層神經元的狀态。如果在輸出層不能得到期望的輸出,則轉入反向傳播,将誤差信号沿原來的連接配接通路傳回,通過修改各神經元的權值,使得誤差信号最小。

BP神經網絡無論在網絡理論還是在性能方面已比較成熟。其突出優點就是具有很強的非線性映射能力和柔性的網絡結構。網絡的中間層數、各層的神經元個數可根據具體情況任意設定,并且随着結構的差異其性能也有所不同。但是BP神經網絡也存在以下的一些主要缺陷。

①學習速度慢,即使是一個簡單的問題,一般也需要幾百次甚至上千次的學習才能收斂。

②容易陷入局部極小值。

③網絡層數、神經元個數的選擇沒有相應的理論指導。

④網絡推廣能力有限。

BP網絡主要用于以下四個方面。

1)函數逼近:用輸入向量和相應的輸出向量訓練一個網絡逼近一個函數。

2)模式識别:用一個待定的輸出向量将它與輸入向量聯系起來。

3)分類:把輸入向量所定義的合适方式進行分類。

4)資料壓縮:減少輸出向量維數以便于傳輸或存儲。

 接下來是在MATLAB中的實作方法:

1、首先打開MATLAB軟體,在其主界面的編輯器中寫入下列代碼:

%% 清空環境變量
clc
clear

%% 訓練資料預測資料提取及歸一化

%下載下傳四類語音信号
load data1 c1
load data2 c2
load data3 c3
load data4 c4

%四個特征信号矩陣合成一個矩陣
data(1:500,:)=c1(1:500,:);
data(501:1000,:)=c2(1:500,:);
data(1001:1500,:)=c3(1:500,:);
data(1501:2000,:)=c4(1:500,:);

%從1到2000間随機排序
k=rand(1,2000);
[m,n]=sort(k);

%輸入輸出資料
input=data(:,2:25);
output1 =data(:,1);

%把輸出從1維變成4維
for i=1:2000
    switch output1(i)
        case 1
            output(i,:)=[1 0 0 0];
        case 2
            output(i,:)=[0 1 0 0];
        case 3
            output(i,:)=[0 0 1 0];
        case 4
            output(i,:)=[0 0 0 1];
    end
end

%随機提取1500個樣本為訓練樣本,500個樣本為預測樣本
input_train=input(n(1:1500),:)';
output_train=output(n(1:1500),:)';
input_test=input(n(1501:2000),:)';
output_test=output(n(1501:2000),:)';

%輸入資料歸一化
[inputn,inputps]=mapminmax(input_train);

%% 網絡結構初始化
innum=24;
midnum=25;
outnum=4;
 

%權值初始化
w1=rands(midnum,innum);
b1=rands(midnum,1);
w2=rands(midnum,outnum);
b2=rands(outnum,1);

w2_1=w2;w2_2=w2_1;
w1_1=w1;w1_2=w1_1;
b1_1=b1;b1_2=b1_1;
b2_1=b2;b2_2=b2_1;

%學習率
xite=0.1
alfa=0.01;

%% 網絡訓練
for ii=1:10
    E(ii)=0;
    for i=1:1:1500
       %% 網絡預測輸出 
        x=inputn(:,i);
        % 隐含層輸出
        for j=1:1:midnum
            I(j)=inputn(:,i)'*w1(j,:)'+b1(j);
            Iout(j)=1/(1+exp(-I(j)));
        end
        % 輸出層輸出
        yn=w2'*Iout'+b2;
        
       %% 權值閥值修正
        %計算誤差
        e=output_train(:,i)-yn;     
        E(ii)=E(ii)+sum(abs(e));
        
        %計算權值變化率
        dw2=e*Iout;
        db2=e';
        
        for j=1:1:midnum
            S=1/(1+exp(-I(j)));
            FI(j)=S*(1-S);
        end      
        for k=1:1:innum
            for j=1:1:midnum
                dw1(k,j)=FI(j)*x(k)*(e(1)*w2(j,1)+e(2)*w2(j,2)+e(3)*w2(j,3)+e(4)*w2(j,4));
                db1(j)=FI(j)*(e(1)*w2(j,1)+e(2)*w2(j,2)+e(3)*w2(j,3)+e(4)*w2(j,4));
            end
        end
           
        w1=w1_1+xite*dw1';
        b1=b1_1+xite*db1';
        w2=w2_1+xite*dw2';
        b2=b2_1+xite*db2';
        
        w1_2=w1_1;w1_1=w1;
        w2_2=w2_1;w2_1=w2;
        b1_2=b1_1;b1_1=b1;
        b2_2=b2_1;b2_1=b2;
    end
end
 

%% 語音特征信号分類
inputn_test=mapminmax('apply',input_test,inputps);

for ii=1:1
    for i=1:500%1500
        %隐含層輸出
        for j=1:1:midnum
            I(j)=inputn_test(:,i)'*w1(j,:)'+b1(j);
            Iout(j)=1/(1+exp(-I(j)));
        end
        
        fore(:,i)=w2'*Iout'+b2;
    end
end



%% 結果分析
%根據網絡輸出找出資料屬于哪類
for i=1:500
    output_fore(i)=find(fore(:,i)==max(fore(:,i)));
end

%BP網絡預測誤差
error=output_fore-output1(n(1501:2000))';



%畫出預測語音種類和實際語音種類的分類圖
figure(1)
plot(output_fore,'r')
hold on
plot(output1(n(1501:2000))','b')
legend('預測語音類别','實際語音類别')

%畫出誤差圖
figure(2)
plot(error)
title('BP網絡分類誤差','fontsize',12)
xlabel('語音信号','fontsize',12)
ylabel('分類誤差','fontsize',12)

%print -dtiff -r600 1-4

k=zeros(1,4);  
%找出判斷錯誤的分類屬于哪一類
for i=1:500
    if error(i)~=0
        [b,c]=max(output_test(:,i));
        switch c
            case 1 
                k(1)=k(1)+1;
            case 2 
                k(2)=k(2)+1;
            case 3 
                k(3)=k(3)+1;
            case 4 
                k(4)=k(4)+1;
        end
    end
end

%找出每類的個體和
kk=zeros(1,4);
for i=1:500
    [b,c]=max(output_test(:,i));
    switch c
        case 1
            kk(1)=kk(1)+1;
        case 2
            kk(2)=kk(2)+1;
        case 3
            kk(3)=kk(3)+1;
        case 4
            kk(4)=kk(4)+1;
    end
end

%正确率
rightridio=(kk-k)./kk
web browser http://www.ilovematlab.cn/thread-60056-1-1.html
           

2、點選運作按鈕,結果如下所示:

BP神經網絡語音訓練
BP神經網絡語音訓練

如圖所示:可以看出預測語音類别和實際語音類别的的分布相對還是比較集中的,比例還是比較大的,另外BP神經網絡對于各類語音信号的識别和分類還是存在一定誤差的,但是基本可以滿足需求。至此,關于語音分類的BP網絡基本介紹完畢,請大家繼續關注!!!

繼續閱讀