本节书摘来自华章计算机《区块链开发指南》一书中的第1章,第1.2节,作者:申屠青春 主编 宋 波 张 鹏 汪晓明 季宙栋 左川民 编著更多章节内容可以访问云栖社区“华章计算机”公众号查看。
比特币网络中,数据会以文件的形式被永久记录,我们称这些文件为区块。一个区块是一些或所有最新比特币交易的记录集,且未被其他先前的区块记录。可以将区块想象为一个城市记录者其记录本上单独的一页纸(对房地产产权的变更记录),或者是股票交易所的总账本。在绝大多数情况下,新区块会被加入到记录的最后(在比特币中的名称为区块链),一旦写上,就再也不能改变或删除。每个区块记录了它被创建之前发生的所有事件。
1.2.1 区块结构
一个区块的结构如表1-2所示。

每个区块都包括了一个被称为“魔法数”的常数0xd9b4bef9、区块的大小、区块头、区块所包含的交易数量及部分或所有的近期新交易。在每个区块中,对整个区块链起决定作用的是区块头,如表1-3所示,接下来本章将会对每一个字段都做出比较详细的解释。
这里的hashprevblock就是区块之所以能够连成区块链的关键字段,该字段使得各个区块之间可以连接起来,形成一个巨大的“链条”。每个区块都必须要指向前一个区块,否则无法通过验证。这个区块链条会一直追溯到源头,也就是指向创世区块。很显然,创世区块的hashprevblock的值为零或为空。在区块头中,最关键的一个数据项是一个随机数nonce,这串数字是一个答案,而这个答案对于每一个区块来说都是唯一的,它的特点具体如下。
这个答案很难获得。
有效答案有多个,不过我们只需要找到一个答案就可以了。
其他节点对有效答案的验证很容易。
正是因为问题很难解答,没有固定的算法可以求出答案,所以唯一的做法就是不断尝试,找寻这个答案的做法就是“挖矿”,可以想象,会有很多人同时都在“挖矿”,他们之间是相互竞争的关系。
区块内包含许多交易,它们通过merkle根节点间接被散列,以保证矿工能及时追踪一个正在打包的区块内交易的变化情况。一旦生成merkle根节点,那么对包含一个交易的区块做散列所花的时间,与对包含1万个交易的区块做散列所花的时间是一样的。
目标hash值的压缩格式是一个特殊的浮点编码类型,首字节是指数(仅使用了5个最低位),后3个字节是尾数,它能表示256位的数值。一个区块头的sha-256(一种单向函数的算法,可形成长度为256位的串)值必定要小于或等于目标hash值,该区块才能被网络所接受。目标hash值越低,产生一个新区块的难度就越大。
merkle树是hash的二叉树。在比特币中会两次使用sha-256算法来生成merkle树,如果叶子个数为奇数,则要重复计算最后一个叶子的两次sha-256值,以达到偶数叶子节点的要求。
计算过程:首先按照区块中交易的两次sha-256进行散列,然后按照hash值的大小进行排序,生成最底层。第二层的每个元素则是相连续的两个hash值的两次sha-256的hash值。之后,会重复这个过程,直到某一层只有一个hash值为止,这就是merkle根。举例来说,想象有3个交易,a、b、c,那么merkle根的生成过程如下所示:
这里的d7就是以上三个交易的merkle根。需要注意的是,merkle树的hash值是小头位序(即高位在后,是数字在计算机中的一种表示形式)。对于某些实现和计算来说,在散列计算前应该先按位反转,之后在散列计算后再反转一次。
1.2.2 创世块
创世块(genesis block)是指区块链的第一个区块,现在的比特币客户端版本把创世区块号定为0,以前的版本把该区块号定为1。以下是创世块的一种表示形式,它出现在以前的比特币代码的注释中,第一个代码段定义了创建该块所需要的所有变量,第二个代码段是标准的区块类格式,还包含了第一个代码段中缩短版本的数据。
coinbase参数(看上面的十六进制)中包含了“the times 03/jan/2009 chancellor on brink
of second bailout for banks.”这句话。
这句话翻译过来就是“2009年1月3日,首相第二次对处于崩溃边缘的银行进行紧急救助”,这句话正是泰晤士报当天的头版文章标题(如图1-5所示)。这应该是一个该区块在2009年1月3日或之后创建的一个证据,同时也是对银行系统采用部分准备金制度导致不稳定性的一个说明。
图1-5 2009年1月3日的泰晤士报
创世块50btc的收益被发送到如下地址:1a1zp1ep5qgef?i2dmptftl5slmv7divfna,我们称该交易为创世交易。
创世块的收益花不掉,原因如下:比特币客户端把区块和交易分别存储在两个数据库中,当客户端发现区块数据库为空时,就会用代码直接生成一个创世块,但是没有把创世交易存储到客户端的交易数据库中,比特币网络一旦收到要花掉创世交易输出的交易时,因为在交易数据库中找不到创世交易,因而都会拒绝,也就是说花不掉这50个币了。出现这种情况很可能是中本聪为了纪念创世交易,故意而为的。
创世块的数据结构如下所示。
01000000:指版本号。
0000000000000000000000000000000000000000000000000000000000000000:为prev block。
3ba3edfd7a7b12b27ac72c3e67768f617fc81bc3888a51323a9fb8aa4b1e5e4a:为merkle根。
29ab5f49:时间戳。
ffff001d:目标hash值。
1dac2b7c:随机数。
01:交易个数。
01000000:版本。
01:输入个数。
0000000000000000000000000000000000000000000000000000000000000000ffffffff:前一个输出。
4d:脚本长度。
04ffff001d0104455468652054696d65732030332f4a616e2f32303039204368616e63656c6c6f72206f6e206272696e6b206f66207365636f6e64206261696c6f757420666f722062616e6b73:scriptsig脚本。
ffffffff:序列号。
01:输出个数。
00f2052a01000000:50 btc的收益。
43:指脚本scriptpubkey的长度。
4104678afdb0fe5548271967f1a67130b7105cd6a828e03909a67962e0ea1f61deb649f6bc3f4cef38c4f35504e51ec112de5c384df7ba0b8d578a4c702b6bf11d5fac:脚本scriptpubkey。
00000000:锁定时间。
json版本的创世块如下所示:
1.2.3 区块链原理
区块链是所有比特币节点共享的交易数据库,这些节点基于比特币协议参与到比特币网络中来。区块链包含每一个曾在比特币系统执行过的交易,根据这个信息,人们可以找到任何时候任一个地址中的币数量。
由于每个区块包含前一个区块的hash值,这就使得从创世块到当前块形成了一条块链,每个区块必定按时间顺序跟随在前一个区块之后,区块链结构如图1-6所示。因为不知道前一块区块的hash值,因此没法生成当前区块,所以要改变一个已经在块链中存在了一段时间的区块,从计算上来说是不可行的,如果它被改变,那么它之后的每个区块都必须随之改变。这些特性使得双花比特币非常困难,区块链是比特币的最大创新。
图1-6 区块链示意图
如果一个区块是最长块链的最后一个区块,那么诚实的矿工只会在这个区块的基础上生成后续块(创建新区块时通过引用该区块来实现)。“长度”是指被计算成区块链的所有联合难度,而不是区块的数量,尽管这个区别仅仅在防御几个潜在攻击时有用。如果一个区块链中的所有区块和交易均有效,则该区块链有效,并且要以创世块开头。
对于区块链中的任何区块来说,只有一条通向创世块的路径。然而,从创世块出发,却可能有分叉。当两个区块产生的时间仅相差几秒时,可能会产生包含一个区块的分叉。当出现以上现象时,矿工节点会根据收到区块的时间,在先收到的区块的基础上继续挖矿。哪个区块的后续区块先出现,那么这个区块就会被包括进主链,因为这条块链更长。
短区块链(或有效区块链)中的区块没有作用,当比特币客户端转向另一个长区块链时,短区块链中所有有效的交易都将被重新加入到交易队列池中,并被包括到另一个区块中。短区块链中的区块收益不会在长链中出现,因而这些收益实际上是丢失了,这就是比特币网络设定100个区块成熟时间的原因。
短区块链中的区块经常被称为“孤立”区块,事实上这些区块都有父区块,并且可能还有子区块,只不过这些区块链未被包含进比特币主链,就好像被孤立了一样。