天天看点

Attention Model for Massive MIMO CSI Compression Feedback and Recovery阅读笔记

Abstract

本文旨在提高恢复性能,降低时间复杂度。首先在编码器网络中,引入LSTM网络;解码器中增加了注意力机制;第三,在训练过程中使用了early stopping。

1 Introduction

在CsiNet的基础上,做了以下几点改进:

  • 在编码器部分,引入LSTM网络来代替原来的全连接网络。当压缩比CR很高时,LSTM网络可以充分利用信道矩阵之间的相关性并保留重要信息。
  • 受SEnet的启发,在CNN中引入注意力机制。模型可以充分利用CNN的特征图。我们的model称为Attention-CsiNet
  • 采用early stopping来阻止过拟合。可以更快收敛节省大量时间。

2 System Model

单小区FDD下行链路大规模MIMO-OFDM系统中,考虑 N c N_c Nc​个子载波。在BS端采用 N t > > 1 N_t >> 1 Nt​>>1的ULA天线,UE端单个天线。UE端第 i t h i_{th} ith​子载波表示为:

y i = h i v i x i + n i y_i = \textbf{h}_i \textbf{v}_i x_i + n_i yi​=hi​vi​xi​+ni​

用 H D = [ h 1 , h 2 , . . . , h N c ] \textbf {H}_D = [\textbf{h}_1, \textbf{h}_2,...,\textbf{h}_{N_c}] HD​=[h1​,h2​,...,hNc​​]表示空频域的CSI矩阵。在FDD链路中,UE需要估计 H d \textbf{H}_d Hd​然后将CSI通过反馈链路送回BS端来追踪时变信道特征。一旦BS接收到CSI反馈,他就可以设计预编码向量,调制方式和码率。

通过2D-DFT将 H d \textbf {H}_d Hd​变换到角延迟域来观察。得到近似稀疏矩阵 H s \textbf{H}_s Hs​

H s = F d H d F a \textbf {H}_s = \textbf{F}_d\textbf{H}_d\textbf{F}_a Hs​=Fd​Hd​Fa​

因为有限的多径延迟,所以可以系数化。只有 H s \textbf{H}_s Hs​的前 N ~ c ( < < N c ) \tilde N_c(<< N_c) N~c​(<<Nc​)包含非零元素,然后移除其余 ( N c − N ~ c ) (N_c-\tilde N_c) (Nc​−N~c​)行。

编码器网络 H e n = f L S T M ( H ) \textbf{H}_{en}=f_{LSTM}(\textbf{H}) Hen​=fLSTM​(H),解码器网络 H ^ = f C N N ( H e n ) \hat {\textbf{H}} = f_{CNN}(\textbf{H}_{en}) H^=fCNN​(Hen​)

3 The proposed Attention Model

尽管CsiNet在感知和重建方面表现了出色的性能,但发现仍有改进的余地。

A. LSTM encoder

CsiNet忽略了子载波之间的相关性。受RNN在NLP领域的启发的启发,能够从序列任务中提取信息。所以使用LSTM网络来代替全连接来提高恢复质量。

Attention Model for Massive MIMO CSI Compression Feedback and Recovery阅读笔记

我们使用双向LSTM(bi-LSTM)获得M维向量结果,并找到两个向量的平均值作为反馈的编码向量。LSTM网络共享相同的参数。

如图上图所示,我们reshape H \textbf H H to [ h 1 , h 2 , . . . , h s ] [\textbf h_1, \textbf h_2,...,\textbf h_s] [h1​,h2​,...,hs​]同时将 s s s vectors送入bi-LSTM network。 s s s也是LSTM网络的时间步长。最终得到一个 M M M维的向量作为最终的编码CSI向量进行反馈。

B. Attention Mechanism

在CNN中加入SEblock。

Attention Model for Massive MIMO CSI Compression Feedback and Recovery阅读笔记

C. THE Structure of Attention Csi-Net

Attention Model for Massive MIMO CSI Compression Feedback and Recovery阅读笔记

整体架构如图所示:

将CSI矩阵H的实部和虚部作为网络输入的两个通道。第一层是卷积层,其尺寸为3×3个核,批量标准化[15]层可以加速训练并防止过度拟合。该层将生成两个feature maps。然后将特征 reshape成 s s s vectors,送入到bi-LSTM神经网络中来生成code H e n \textbf H_{en} Hen​,一个 M M M维向量。

一旦在BS中获得了码字,我们使用LSTM解码器网络来重建最初的信息。我们重复 H e n \textbf H_{en} Hen​s次,然后将这些向量送入到LSTM网络去基本恢复 H \textbf H H 。将LSTM的输出reshape成$2\times N_t\times N_t的矩阵。然后该矩阵被送入两个RefineNet模块,以便完全重构CSI矩阵。

最后的输出层通过sigmoid函数激活,该函数可以将值缩放为[0,1]。

输入数据被标准化为[0,1]范围,整个网络被定义为:

H ^ = f ( H ; Θ ) ≜ f C N N ( f L S T M ( H ; Θ e n ) ; Θ d e ) \hat{\textbf H} = f(\textbf H; \Theta)\triangleq f_{CNN}(f_{LSTM}(\textbf H;\Theta_{en});\Theta_{de}) H^=f(H;Θ)≜fCNN​(fLSTM​(H;Θen​);Θde​)

神经网络的所有参数表示为 Θ = { Θ e n , Θ d e } \Theta = \{\Theta_{en},\Theta_{de}\} Θ={Θen​,Θde​}

损失函数为均方误差(MSE)定义为

L ( Θ ) = 1 T ∑ i = 1 T ∣ ∣ H ^ − H ∣ ∣ 2 2 L(\Theta)=\frac 1 T \sum^T_{i=1}||\hat{\textbf H }-\textbf H||^2_2 L(Θ)=T1​i=1∑T​∣∣H^−H∣∣22​

T T T是batch size。 ∣ ∣ ⋅ ∣ ∣ 2 ||\cdot||_2 ∣∣⋅∣∣2​为欧几里得范数。

使用ADAM梯度下降优化器来完成参数更新。

4 Simulation Results and Analysis

采用和CsiNet一样的方式使用COST2100模型来产生MIMO信道数据。

为了避免过度拟合,我们使用了提前停止,以便每个训练步骤中的历次从700到1000不等。

Attention Model for Massive MIMO CSI Compression Feedback and Recovery阅读笔记

为了比较不同方法的性能,我们使用归一化MSE(NMSE)来明确恢复性能,其定义如下:

N M S E = E 1 N ∑ n = 1 1 ∣ ∣ H n − H ^ n ∣ ∣ 2 2 / ∣ ∣ H n ∣ ∣ 2 2 NMSE=E{\frac 1 N \sum^1_{n=1}||\textbf H_n - \hat{\textbf H}_n||^2_2/||\textbf H _n||^2_2} NMSE=EN1​n=1∑1​∣∣Hn​−H^n​∣∣22​/∣∣Hn​∣∣22​

我们还使用余弦相似性来比较不同的方法,如下所示:

ρ = E { 1 N c ∑ i = 1 N c ∣ h ^ i H h ~ i ∣ ∣ ∣ h ^ i ∣ ∣ 2 ∣ ∣ h i ∣ ∣ 2 } \rho = E\{\frac 1 {N_c} \sum^{ N_c}_{i=1}\frac {|\hat{\textbf h}^H_i \tilde{h}_i|}{||\hat {\textbf h}_i||_2|| {\textbf h}_i||_2}\} ρ=E{Nc​1​i=1∑Nc​​∣∣h^i​∣∣2​∣∣hi​∣∣2​∣h^iH​h~i​∣​}

some pseudo-gray plots of reconstruction samples

Attention Model for Massive MIMO CSI Compression Feedback and Recovery阅读笔记

5 Conclusion

继续阅读