多重 for 循环，应该如何提高效率？

道阻且长，行则将至。埋头苦干，不鸣则已，一鸣惊人！加油，骚年！

前言

我在《华为 c 语言编程规范》中看到了这个：当使用多重循环时，应该将最忙的循环放在最内层。如下图：

由上述很简单的伪代码可以看到，推荐使用的方式是：外小内大的方式。也就是内层循环是最忙的。

然后我又在另外一份编程规范手册中，看到了类似的要求，如下图：

看到了这个小技巧之后，我迫不及待的分享给我的小伙伴，后来闲下来的时候，就想自己做个测试，验证一下是否真的是这样。

ubuntu 测试

使用 ubuntu 14.04 的系统进行测试，基本信息如下：

系统版本：ubuntu14.04

gcc 版本：4.8.2

我使用了两份不同的代码文件进行测试，第一份是外大内小的代码，如下：

执行上述代码，运行结果如下，耗时：165280us

接着，我又准备了另外一份外小内大的代码，对比只是调换了 for 循环内外层的循环次数而已，如下：

上述代码的执行结果如下，耗时：155960us

对比上述两份代码的运行结果，可以很明显的看到，外小内大效率更高一点！

不过，你以为这就结束了吗？

树莓派测试

手边刚好有一台树莓派，前段时间刚安装了最新的官方系统，就想着拿来做一下测试，基本信息如下：

树莓派系统版本：buster

g++ 版本：8.3.0

测试代码与在 ubuntu 上运行的代码保持一致，这里就不重复贴代码了，只看一下运行结果。

下边这个是外大内小的，运行结果如下，耗时：1214569us

这个是外小内大的，运行结果如下，耗时：1345193us

完了，可以很明显的看到，外大内小的运行效率要更高一点。

问题分析

我也是有点蒙逼的，不知道为啥会出现截然相反的情况，对比两个系统版本，硬件设备来看，推测原因有如下几种可能：

处理器架构不同

ubuntu 是安装在 win10 台式机上的虚拟机中，所使用的硬件应该为台式机的硬件（处理器等）；而台式机的硬件是英特尔的 x86 架构的处理器。

树莓派使用的硬件平台，是一个 arm 架构的芯片，具体可以参考图片：

gcc 版本不同，在刚开始操作的时候，也详细的列出了当前程序使用的环境

ubuntu14.04 中 gcc 版本为：4.8.2

树莓派中 gcc 版本为：8.3.0

目前能想到的差异就这么多，其他的暂时还不知道，难道这个就是运行在 x86 平台和 arm 平台的区别之一？更多的更深入的研究还有待后续学习研究才能知道。今天的讨论就到这里为止吧！

总结

在 x86 架构平台下，外小内大效率较高；

由于参考的规范手册，可能是用于服务器开发，而服务器仍然是 x86 架构的处理器居多，因此 for 循环的多重循环规则较适用；

需要考虑在嵌入式等 arm 平台下，此规则是否同样适用，是否还有其他应用场景限制等？

多重 for 循环，应该如何提高效率？

继续阅读

Apache (You don't have permission to access / on this server.）

debian9升级4.9.0内核到4.19.2内核过程

centOS7 配置 vsftpd 虚拟用户及权限Vsftpd配置虚拟用户及权限

linux-svn卸载与安装

vsftp虚拟多用户多权限一键部署脚本

Ubuntu14.04 LTS下安装mongodb

Nginx服务优化（1）——隐藏版本号、修改用户与组、网页缓存时间、日志切割、连接超时一、隐藏版本号二、修改用户与组三、配置Nginx网页缓存时间四、实现Nginx日志分割五、配置Nginx实现连接超时六、补充关于时间日期的命令

httpd服务的部署、启动、配置和简单优化一、部署二、启动三、配置文件

配置网页内容访问

手动安装Intel network I217-LM网卡的Linux驱动

禁止ubuntu系统弹出报错界面

Ubuntu Linux下Apache的配置文件

samba服务器的功能

【Linux】UDP广播报文接收速率问题

Linux设备模型（中）之上层容器

PowerPC平台 Linux移植三