高级语言内的单指令多数据流计算(SIMD)

[email protected] 2011.04.14

tag:单指令多数据流计算,SIMD

摘要:

很多年来,x86体系的CPU增加的新指令集大多都是SIMD指令(和相应的寄存器);

然而很容易忽视的是,我们在高级语言内也能进行很多SIMD类计算!

正文:

单指令多数据流,Single Instruction Multiple Data,简写为SIMD,就是说用

一个指令同一时间处理多个数据;

很多年来,x86体系的CPU增加的新指令集大多都是SIMD指令(和相应的寄存器);

比如MMX,3DNow!,MMX2,SSE,SSE2,SSE3,SSSE3,SSE4,AVX等等;

不用借助这些高级指令集和其特殊寄存器,我们在高级语言范围内,也能进行

很多SIMD类似的计算;

问题一 : 对一个字节流的每一个数据进行右移1位

一般的代码: (当然,输出数组也可以是另外一个数组,下同)

uint8 a[10000];

for (int i=0;i<10000;++i)

a[i]=a[i]>>1;

使用SIMD思路的代码(4路数据流同时计算):

uint8 a[10000];

uint32* a32=(uint32*)a; //实际代码可能需要考虑内存访问对齐和边界处理问题,下同

for (int i=0;i<2500;++i){

uint32 c=a32[i]&0xFEFEFEFE;

a32[i]=c>>1;

}

明白了这里的实现原理,那么对于其他右移位数/左移/双字节数据也能同理处理了;

其他几个问题也一样可以举一反三;

提示: 如果软件运行在64位模式,那我们就能一次处理更多的数据!

问题二 : 对一个字节流的每一个数据x,计算255-x

一般的代码:

uint8 a[10000];

for (int i=0;i<10000;++i)

a[i]=255-a[i]; //我见过的一个处理图像颜色取反的代码

使用SIMD思路的代码(4路数据流同时计算):

uint8 a[10000];

uint32* c=(uint32*)a;

for (int i=0;i<2500;++i){

a32[i]=~a32[i];

}

问题三 : 求两个字节流的平均字节流

一般的代码:

uint8 a[10000];

uint8 b[10000];

for (int i=0;i<10000;++i)

a[i]=(a[i]+b[i])>>1;//我见过的一个处理图像颜色50%混合的代码

使用SIMD思路的代码(2路数据流同时计算):

uint8 a[10000];

uint8 b[10000];

uint32* a32=(uint32*)a;

uint32* b32=(uint32*)b;

for (int i=0;i<2500;++i){

uint32 c=a32[i];

uint32 d=b32[i];

uint32 e_1_3 =(c & 0xFF00FF00)>>1;

uint32 e_0_2 =(c & 0x00FF00FF);

e_1_3+=(d & 0xFF00FF00)>>1;

e_0_2+=(d & 0x00FF00FF);

a32[i]=((e_1_3 & 0xFF00FF00)) | ((e_0_2>>1) & 0x00FF00FF);

}

如果允许结果有点小误差,也可以这样写(4路数据流同时计算):

uint8 a[10000];

uint8 b[10000];

uint32* a32=(uint32*)a;

uint32* b32=(uint32*)b;

for (int i=0;i<2500;++i){

a32[i]=(a32[i]&0xFEFEFEFE>>1)+(b32[i]&0xFEFEFEFE>>1);

}

一个来源于ffmpeg的算法 (4路数据流同时计算): (相当精彩啊)

uint8 b[10000];

uint32* a32=(uint32*)a;

uint32* b32=(uint32*)b;

for (int i=0;i<2500;++i){

uint32 c=a32[i];

uint32 d=b32[i];

a32[i]=(c&d) + (((c^d) & 0xFEFEFEFE) >> 1);

}

//(还可以试试,注意最后一个bit位 (c|d)- (((c^d)&0xFEFEFEFE)>>1); )

问题四 : 按指定比例混合两个字节流 (alphaBlend混合,线性插值缩放等常用的算法)

一般的代码:

//算法为 dst=(a*(255-s)+b*s)/255;

//如果允许误差,可以改为 dst=((a<<8)+((int)b-a)*s)>>8;(甚至dst=a+(((int)b-a)*s>>8));

uint8 a[10000];

uint8 b[10000];

int s=13; //s 可能属于[0..255];

for (int i=0;i<10000;++i){

int c=a[i];

a[i]=((c<<8)+(b[i]-c)*s)>>8;

}

//如果不能有误差,这里可以用公式(x/255)==(x*32897>>23)==(x+(x>>8)+1)>>8;

使用SIMD思路的代码(2路数据流同时计算):

uint8 a[10000];

uint8 b[10000];

int s=13; //s 可能属于[0..255];

uint32* a32=(uint32*)a;

uint32* b32=(uint32*)b;

int rs=256-s;

for (int i=0;i<2500;++i){

uint32 c=a32[i];

uint32 d=b32[i];

uint32 e_0_2=(c & 0x00FF00FF)*rs + (d & 0x00FF00FF)*s;

uint32 e_1_3=((c & 0xFF00FF00)>>8)*rs + ((d & 0xFF00FF00)>>8)*s;

a32[i]=((e_0_2 & 0xFF00FF00)>>8) | (e_1_3 & 0xFF00FF00);

}

问题四: 在字节流中查找第一个出现0值位置 (字节流的值域[0..128]) (字符串结束位置查找?)

一般的代码:

uint8 a[10000];

for (int i=0;i<10000;++i){

if (a[i]==0)

return i;

}

return -1;

使用SIMD思路的代码(4路数据流同时计算):

uint8 a[10000];

uint32* a32=(uint32*)a;

uint32 test=0;

int i=0;

for (;i<2500;++i){

test=(a32[i]-0x01010101)&0x80808080;

if (test!=0)

break;

}

if (test==0)

return -1;

i*=4;

while ((test&0x80)==0){

++i;

test>>=8;

}

return i;

问题扩展: 字节流的值域[0..255]时的0查找;

一般的代码同上,不用修改;

使用SIMD思路的代码(4路数据流同时计算):

uint8 a[10000];

uint32* a32=(uint32*)a;

uint32 test=0;

int i=0;

for (;i<2500;++i){

uint32 c=a32[i];

c=((c&0xF0F0F0F0)>>4)|(c&0x0F0F0F0F);

test=(c-0x01010101)&0x80808080;

if (test!=0)

break;

}

if (test==0)

return -1;

i*=4;

while ((test&0x80)==0){

++i;

test>>=8;

}

return i;

当然,在有SIMD对应指令可以使用的环境下,直接用其指令一般还是比这里的模拟实现有优势的;

如果没有或者不好动用这些指令的情况下,模拟SIMD的实现还是很有速度优势的;

当你能在高级语言内熟练编写SIMD类算法,那么在真的使用SIMD指令的时候就更能得心应手了;

高级语言内的单指令多数据流计算(SIMD)

继续阅读

浮点数计算精度控制

CQ V1.0分词bates(基于双数组tire树)—应该是目前最快的中文分词算法

Command Network(POJ 3164)---定根最小树形图模板题题目描述输入格式输出格式输入样例输出样例分析源程序

开源低带宽语音编解码器

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

C++ 第十五周报告1--《冒泡法排序》

[转]九大排序算法——C语言实现及详解

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

QR码编码原理三（日本汉字和中文编码）

hdu7108哈希