javascript、ruby和C性能一瞥(3) :上汇编

2021-11-06 13:57:20

在博文(1)和(2)里分别用了4中方式写一个素数筛选的算法，分别是javascript in browser、node.js、ruby和c；最终的结果是c最快，node.js其次,js in b虽然也不慢，但极不稳定，所以排在第三，ruby最慢。

现在我们在linux64中用汇编语言重写sieve算法，看看动用最终的武器：汇编语言，我们能不能进一步优化素数筛选算法。

如果忘了算法逻辑，不要紧，下面分别再次贴出node.js、ruby以及c的sieve代码：

首先是node.js：

然后是ruby:

最后是c的代码：

下面尝试用汇编重写sieve函数，需要注意的几点是：

可以不调用c库中的sqrtx标准函数，直接使用浮点fsqrt指令；

可以将绝大部分内存变量放到寄存器中以加速存取；

只关心sieve函数的算法，而用c代码调用汇编的sieve，这样可以发挥各自的长处；否则我还得写个读取输入参数的前导代码，不值当的；

注意汇编和c的调用接口：在linux64中，参数并不压栈传递；因为sieve只有一个参数，所以放在rdi中传递，返回值还是放在rax中。

需要调用mmap申请足够的内存以便做筛表。注意这里没有写足够详细的错误处理，更详细的操作请参考本猫的【linux下64位汇编的系统调用】系列博文。

最后要注意的是，代码优化和代码编写一定不要同时进行！这在所有编程语言中都适用，汇编中尤为重要！否则必成一锅粥鸟！因为谁都不可能上来就写优化后的代码，一定是先功能逻辑正常后在着手考虑优化的问题。本猫第一遍写的是最保守代码，全部变量放在内存中，随用随取，用完保存。在代码逻辑正确后（这时计算sieve 100000000所花时间为4xxx ms）,在逐步将内存变量转放到寄存器中。

要说明的是该段代码肯定还可以进一步优化，但本猫就到这里为止了，希望能够抛砖引玉。先把结果说一下吧：用汇编写的sieve版本是最快的，超过了c代码，在本猫 intel(r) core(tm)2 duo cpu t7100 @ 1.80ghz上跑出了最快的37xx毫秒，比c版的平均要快100-200毫秒，而且非常稳定。

最后贴出c的main.c和汇编的sieve.s代码:

main.c:

汇编的sieve.s:

javascript、ruby和C性能一瞥(3) :上汇编

继续阅读

tab鼠标经过菜单切换

vue （vue2.0）使用总结(从大体结构总结)

vue搭建过程及出现问题

无人机--飞控科普

/\B(?=(?:\d{3})+$)/g 一条令人费解的正则表达式

Dijkstra--简易版（最短路径）

适用于JavaScript的ECMAScript 2020规范向前发展

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

Cloud Studio初体验

JS生成uuid的四种方法

samba服务器的功能

【Linux】UDP广播报文接收速率问题

layui多任务上传添加进度条

Linux设备模型（中）之上层容器

PowerPC平台 Linux移植三

hdu7108哈希