在開發算法程式時經常遇到需要優化程式性能的需求,在x86晶片平台上提供了一些專用指令可以用來對程式進行優化。假如計算時兩個數組相同位置元素的加法計算時傳統的C語言指令在循環中完成依次計算,C語言代碼如下圖所示:
void sum(double *aSum, double *aLeft, double *aRight, int num)
{
int i;
for (i = 0; i < num; i++)
{
aSum[i] = aLeft[i] + aRight[i];
}
}
AVX指令原理簡介
使用AVX指令則可以一次性處理4個double類型的數組元素,相當于原先需要循環四次所做的操作隻需要一次指令周期就可以同時完成四個元素的相加。AVX指令寄存器長度有256bit、512bit、128bit等,可以按照位址順序一次加載如此長度的資料進行一個指令周期的計算。
下面以執行個體說明一個最簡單的AVX指令使用方法作為參考類似于抛磚引玉的作用,想繼續深入學習的可以查找Intel官方文檔資料進行學習。
#include <stdio.h>
#include <immintrin.h>
/* 向量長度 */
#define VEC_LEN (8)
int main()
{
int i;
float a[VEC_LEN]; /* 存儲向量數值 */
float b[VEC_LEN];
float c[VEC_LEN]; /* 存儲向量計算的結果 */
float d[VEC_LEN];
float *pOut;
__m256 msseD;
__m256 msseC;
__m256 msseB;
__m256 msseA;
__m256 *pmsseC;
__m256 *pmsseB;
__m256 *pmsseA;
/* a、b向量初始化 */
for (i = 0; i < VEC_LEN; i++)
{
a[i] = i + 1;
b[i] = VEC_LEN - i + 1;
}
/* 列印出a、b向量的數值 */
for (i = 0; i < VEC_LEN; i++)
{
printf("a[%d]: %f\n", i, a[i]);
}
for (i = 0; i < VEC_LEN; i++)
{
printf("b[%d]: %f\n", i, b[i]);
}
msseA = _mm256_loadu_ps(&a[0]); /* 裝載資料(不對齊的方式裝載資料) */
msseB = _mm256_loadu_ps(&b[0]);
msseC = _mm256_add_ps(msseA, msseB); /* a、b向量相加 */
msseD = _mm256_mul_ps(msseA, msseB); /* a、b向量相乘 */
/* 将結果重新存儲到結果位址單元中 */
_mm256_storeu_ps(c, msseC);
_mm256_storeu_ps(d, msseD);
pOut = (float *)(&msseC); /* 提供一種向量到标量的資料讀取方式 */
printf("===================================計算結果===================================\n");
/* 列印出a、b數組數值 */
for (i = 0; i < VEC_LEN; i++)
{
printf("c[%d]: %f\n", i, *(c + i));
}
for (i = 0; i < VEC_LEN; i++)
{
printf("d[%d]: %3f, pOut[%d]: %3f\n", i, *(d + i), i, pOut[i]);
}
return 0;
}
系統類型:Linux
晶片:x86晶片
編譯指令:gcc -g test.c -fopenmp -march=native -o demo
運作結果如下:
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiYTMfhHLlN3XnxCM38FdsYkRGZkRG9lcvx2bjxCMy8VZ6l2csc3TiVTRxVTNV1yN1U2ThZTQClGVF5UMR9Fd4VGdsATNfd3bkFGazxycykFaKdkYzZUbapXNXlleSdVY2pESa9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zROBlLzIzN3UDO0UTM4IDOwEjMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
總結:avx指令挺豐富要熟悉每一條指令的具體應用隻要到Intel官網上查找相關avx、sse指令即可找到相應的詳細說明。
由于技術水準有限,文章可能存在一定的問題歡迎及時指出問題所在,多多交流提高技術水準!