[转载]CRC从原理到实现

ofourme · 发表于 2015-5-25 12:25:46

from:http://blog.gkong.com/forger_20389.ashx
http://blog.csdn.net/hqw/article/details/208925
============================================================

CRC从原理到实现
===============
作者：Spark Huang(hcpp@263.net)
日期：2004/12/8

摘要：CRC(Cyclic Redundancy Check)被广泛用于数据通信过程中的差错检测，具有很强的检错能力。本文详细介绍了CRC的基本原理，并且按照解释通行的查表算法的由来的思路介绍了各种具体的实现方法。

1.差错检测
----------
数据通信中，接收端需要检测在传输过程中是否发生差错，常用的技术有奇偶校验(Parity Check)，校验和(Checksum)和CRC(Cyclic Redundancy Check)。它们都是发送端对消息按照某种算法计算出校验码，然后将校验码和消息一起发送到接收端。接收端对接收到的消息按照相同算法得出校验码，再与接收到的校验码比较，以判断接收到消息是否正确。

奇偶校验只需要1位校验码，其计算方法也很简单。以奇检验为例，发送端只需要对所有消息位进行异或运算，得出的值如果是0，则校验码为1，否则为0。接收端可以对消息进行相同计算，然后比较校验码。也可以对消息连同校验码一起计算，若值是0则有差错，否则校验通过。通常说奇偶校验可以检测出1位差错，实际上它可以检测出任何奇数位差错。

校验和的思想也很简单，将传输的消息当成8位(或16/32位)整数的序列，将这些整数加起来而得出校验码，该校验码也叫校验和。校验和被用在IP协议中，按照16位整数运算，而且其MSB(Most Significant Bit)的进位被加到结果中。

显然，奇偶校验和校验和都有明显的不足。奇偶校验不能检测出偶数位差错。对于校验和，如果整数序列中有两个整数出错，一个增加了一定的值，另一个减小了相同的值，这种差错就检测不出来。

2.CRC算法的基本原理
-------------------
CRC算法的是以GF(2)(2元素伽罗瓦域)多项式算术为数学基础的，听起来很恐怖，但实际上它
的主要特点和运算规则是很好理解的。

GF(2)多项式中只有一个变量x，其系数也只有0和1，如：
1*x^7 + 0*x^6 + 1*x^5 + 0*x^4 + 0*x^3 + 1*x^2 +1*x^1 + 1*x^0
即：
x^7 + x^5 + x^2 + x + 1
(x^n表示x的n次幂)

GF(2)多项式中的加减用模2算术执行对应项上系数的加减，模2就是加减时不考虑进位和借位，
即：
0 + 0 = 0 0 - 0 = 0
0 + 1 = 1 0 - 1 = 1
1 + 0 = 1 1 - 0 = 1
1 + 1 = 0 1 - 1 = 0

显然，加和减是一样的效果(故在GF(2)多项式中一般不出现"-"号)，都等同于异或运算。例如
P1 = x^3 + x^2 + 1，P2 = x^3 + x^1 + 1，P1 + P2为：

x^3 + x^2 　　+ 1
+ x^3 + x + 1
------------------
x^2 + x

GF(2)多项式乘法和一般多项式乘法基本一样，只是在各项相加的时候按模2算术进行，例如
P1 * P2为：

(x^3 + x^2 + 1)(x^3 + x^1 + 1)
= (x^6 + x^4 + x^3
+ x^5 + x^3 + x^2
+ x^3 + x + 1)
= x^6 + x^5 + x^4 + x^3 + x^2 + x + 1

GF(2)多项式除法也和一般多项式除法基本一样，只是在各项相减的时候按模2算术进行，例如
P3 = x^7 + x^6 + x^5 + x^2 + x，P3 / P2为：

x^4 + x^3 + 1
------------------------------------------
x^3 + x + 1 )x^7 + x^6 + x^5 + x^2 + x
x^7 + x^5 + x^4
---------------------
x^6 + x^4
x^6 + x^4 + x^3
---------------------
x^3 + x^2 + x
x^3 + x + 1
-----------------
x^2 + 1

CRC算法将长度为m位的消息对应一个GF(2)多项式M，比如对于8位消息11100110，如果先传输MSB，则它对应的多项式为x^7 + x^6 + x^5 + x^2 + x。发送端和接收端约定一个次数为r的GF(2)多项式G，称为生成多项式，比如x^3 + x + 1，r = 3。在消息后面加上r个0对应的多项式为M'，显然有M' = Mx^r。用M'除以G将得到一个次数等于或小于r - 1的余数多项式R，其对应的r位数值则为校验码。如下所示：

11001100
-------------
1011 )11100110000
1011.......
----.......
1010......
1011......
----......
1110...
1011...
----...
1010..
1011..
----
100 <---校验码

发送端将m位消息连同r位校验码(也就是M' + R)一起发送出去，接收端按同样的方法算出收到的m位消息的校验码，再与收到的校验码比较。接收端也可以用收到的全部m + r位除以生成多项式，再判断余数是否为0。这是因为，M' + R = (QG + R) + R = QG，这里Q是商。显然，它也可以像发送端一样，在全部m + r后再增加r个0，再除以生成多项式，如果没有差错
发生，余数仍然为0。

3.生成多项式的选择
------------------
很明显，不同的生成多项式，其检错能力是不同的。如何选择一个好的生成多项式需要一定的数学理论，这里只从一些侧面作些分析。显然，要使用r位校验码，生成多项式的次数应为r。生成多项式应该包含项"1"，否则校验码的LSB(Least Significant Bit)将始终为0。如果消息(包括校验码)T在传输过程中产生了差错，则接收端收到的消息可以表示为T + E。若E不能被生成多项式G除尽，则该差错可以被检测出。考虑以下几种情况：

1)1位差错，即E = x^n = 100...00，n >= 0。只要G至少有2位1，E就不能被G除尽。这是因为Gx^k相当于将G左移k位，对任意多项式Q，QG相当于将多个不同的G的左移相加。如果G至少有两位1，它的多个不同的左移相加结果至少有两位1。

2)奇数位差错，只要G含有因子F = x + 1，E就不能被G除尽。这是因为QG = Q'F，由1)的分析，F的多个不同的左移相加结果1的位数必然是偶数。

3)爆炸性差错，即E = (x^n + ... + 1)x^m = 1...100...00，n >= 1，m >= 0，显然只要G包含项"1"，且次数大于n，就不能除尽E。

4)2位差错，即E = (x^n + 1)x^m = 100...00100...00，n >= 0。设x^n + 1 = QG + R，则E = QGx^m + Rx^m，由3)可知E能被G除尽当且仅当R为0。因此只需分析x^n + 1，根据[3]，对于次数r，总存在一个生成多项式G，使得n最小为2^r - 1时，才能除尽x^n + 1。称该生成多项式是原始的(primitive)，它提供了在该次数上检测2位差错的最高能力，因为当n = 2^r - 1时，x^n + 1能被任何r次多项式除尽。[3]同时指出，原始生成多项式是不可约分的，但不可约分的的多项式并不一定是原始的，因此对于某些奇数位差错，原始生成多项式是检测不出来的。

以下是一些标准的CRC算法的生成多项式：

标准多项式 16进制表示
---------------------------------------------------------------------------
CRC12 x^12 + x^11 + x^3 + x^2 + x + 1 80F
CRC16 x^16 + x^15 + x^2 + 1 8005
CRC16-CCITT x^16 + x^12 + x^5 + 1 1021
CRC32 x^32 + x^26 + x^23 + x^22 + x^16 + x^12 + x^11 04C11DB7
+ x^10 + x^8 + x^7 + x^5 + x^4 + x^2 + x + 1

16进制表示去掉了最高次项，CCITT在1993年改名为ITU-T。CRC12用于6位字节，其它用于8位字节。CRC16在IBM的BISYNCH通信标准。CRC16-CCITT被广泛用于XMODEM, X.25和SDLC等通信协议。而以太网和FDDI则使用CRC32，它也被用在ZIP，RAR等文件压缩中。在这些生成多项式中，CRC32是原始的，而其它3个都含有因子x + 1。

4.CRC算法的实现
---------------
要用程序实现CRC算法，考虑对第2节的长除法做一下变换，依然是M = 11100110，G = 1011，其系数r为3。

11001100 11100110000
------------- 1011
1011 )11100110000 -----------
1011....... 1010110000
----....... 1010110000
1010...... 1011
1011...... ===> -----------
----...... 001110000
1110... 1110000
1011... 1011
----... -----------
1010.. 101000
1011.. 101000
---- 1011
100 <---校验码 -----------
00100
100 <---校验码

程序可以如下实现：
1)将Mx^r的前r位放入一个长度为r的寄存器；
2)如果寄存器的首位为1，将寄存器左移1位(将Mx^r剩下部分的MSB移入寄存器的LSB)，
再与G的后r位异或，否则仅将寄存器左移1位(将Mx^r剩下部分的MSB移入寄存器的LSB)；
3)重复第2步，直到M全部Mx^r移入寄存器；
4)寄存器中的值则为校验码。

用CRC16-CCITT的生成多项式0x1021，其C代码(本文所有代码假定系统为32位，且都在VC6上编译通过)如下：

[mw_shl_code=c,true]unsigned short do_crc(unsigned char *message, unsigned int len) { int i, j; unsigned short crc_reg; crc_reg = (message[0] << 8) + message[1]; for (i = 0; i < len; i++) { if (i < len - 2) for (j = 0; j <= 7; j++) { if ((short)crc_reg < 0) crc_reg = ((crc_reg << 1) + (message[i + 2] >> (7 - i))) ^ 0x1021; else crc_reg = (crc_reg << 1) + (message[i + 2] >> (7 - i)); } else for (j = 0; j <= 7; j++) { if ((short)crc_reg < 0) crc_reg = (crc_reg << 1) ^ 0x1021; else crc_reg <<= 1; } } return crc_reg; }[/mw_shl_code]

显然，每次内循环的行为取决于寄存器首位。由于异或运算满足交换率和结合律，以及与0异或无影响，消息可以不移入寄存器，而在每次内循环的时候，寄存器首位再与对应的消息位异或。改进的代码如下：

[mw_shl_code=c,true]unsigned short do_crc(unsigned char *message, unsigned int len) { int i, j; unsigned short crc_reg = 0; unsigned short current; for (i = 0; i < len; i++) { current = message << 8; for (j = 0; j < 8; j++) { if ((short)(crc_reg ^ current) < 0) crc_reg = (crc_reg << 1) ^ 0x1021; else crc_reg <<= 1; current <<= 1; } } return crc_reg; }[/mw_shl_code]

以上的讨论中，消息的每个字节都是先传输MSB，CRC16-CCITT标准却是按照先传输LSB，消息右移进寄存器来计算的。只需将代码改成判断寄存器的LSB，将0x1021按位颠倒后(0x8408)与寄存器异或即可，如下所示：

[mw_shl_code=c,true]unsigned short do_crc(unsigned char *message, unsigned int len) { int i, j; unsigned short crc_reg = 0; unsigned short current; for (i = 0; i < len; i++) { current = message; for (j = 0; j < 8; j++) { if ((crc_reg ^ current) & 0x0001) crc_reg = (crc_reg >> 1) ^ 0x8408; else crc_reg >>= 1; current >>= 1; } } return crc_reg; } [/mw_shl_code]

该算法使用了两层循环，对消息逐位进行处理，这样效率是很低的。为了提高时间效率，通常的思想是以空间换时间。考虑到内循环只与当前的消息字节和crc_reg的低字节有关，对该算法做以下等效转换：

[mw_shl_code=c,true]unsigned short do_crc(unsigned char *message, unsigned int len) { int i, j; unsigned short crc_reg = 0; unsigned char index; unsigned short to_xor; for (i = 0; i < len; i++) { index = (crc_reg ^ message) & 0xff; to_xor = index; for (j = 0; j < 8; j++) { if (to_xor & 0x0001) to_xor = (to_xor >> 1) ^ 0x8408; else to_xor >>= 1; } crc_reg = (crc_reg >> 8) ^ to_xor; } return crc_reg; } [/mw_shl_code]

现在内循环只与index相关了，可以事先以数组形式生成一个表crc16_ccitt_table，使得to_xor = crc16_ccitt_table[index]，于是可以简化为：

[mw_shl_code=c,true]unsigned short do_crc(unsigned char *message, unsigned int len) { unsigned short crc_reg = 0; while (len--) crc_reg = (crc_reg >> 8) ^ crc16_ccitt_table[(crc_reg ^ *message++) & 0xff]; return crc_reg; } [/mw_shl_code]

crc16_ccitt_table通过以下代码生成：

[mw_shl_code=c,true]int main() { unsigned char index = 0; unsigned short to_xor; int i; printf("unsigned short crc16_ccitt_table[256] =\n{"); while (1) { if (!(index % 8)) printf("\n"); to_xor = index; for (i = 0; i < 8; i++) { if (to_xor & 0x0001) to_xor = (to_xor >> 1) ^ 0x8408; else to_xor >>= 1; } printf("0x%04x", to_xor); if (index == 255) { printf("\n"); break; } else { printf(", "); index++; } } printf("};"); return 0; } [/mw_shl_code]

生成的表如下：

[mw_shl_code=c,true]unsigned short crc16_ccitt_table[256] = { 0x0000, 0x1189, 0x2312, 0x329b, 0x4624, 0x57ad, 0x6536, 0x74bf, 0x8c48, 0x9dc1, 0xaf5a, 0xbed3, 0xca6c, 0xdbe5, 0xe97e, 0xf8f7, 0x1081, 0x0108, 0x3393, 0x221a, 0x56a5, 0x472c, 0x75b7, 0x643e, 0x9cc9, 0x8d40, 0xbfdb, 0xae52, 0xdaed, 0xcb64, 0xf9ff, 0xe876, 0x2102, 0x308b, 0x0210, 0x1399, 0x6726, 0x76af, 0x4434, 0x55bd, 0xad4a, 0xbcc3, 0x8e58, 0x9fd1, 0xeb6e, 0xfae7, 0xc87c, 0xd9f5, 0x3183, 0x200a, 0x1291, 0x0318, 0x77a7, 0x662e, 0x54b5, 0x453c, 0xbdcb, 0xac42, 0x9ed9, 0x8f50, 0xfbef, 0xea66, 0xd8fd, 0xc974, 0x4204, 0x538d, 0x6116, 0x709f, 0x0420, 0x15a9, 0x2732, 0x36bb, 0xce4c, 0xdfc5, 0xed5e, 0xfcd7, 0x8868, 0x99e1, 0xab7a, 0xbaf3, 0x5285, 0x430c, 0x7197, 0x601e, 0x14a1, 0x0528, 0x37b3, 0x263a, 0xdecd, 0xcf44, 0xfddf, 0xec56, 0x98e9, 0x8960, 0xbbfb, 0xaa72, 0x6306, 0x728f, 0x4014, 0x519d, 0x2522, 0x34ab, 0x0630, 0x17b9, 0xef4e, 0xfec7, 0xcc5c, 0xddd5, 0xa96a, 0xb8e3, 0x8a78, 0x9bf1, 0x7387, 0x620e, 0x5095, 0x411c, 0x35a3, 0x242a, 0x16b1, 0x0738, 0xffcf, 0xee46, 0xdcdd, 0xcd54, 0xb9eb, 0xa862, 0x9af9, 0x8b70, 0x8408, 0x9581, 0xa71a, 0xb693, 0xc22c, 0xd3a5, 0xe13e, 0xf0b7, 0x0840, 0x19c9, 0x2b52, 0x3adb, 0x4e64, 0x5fed, 0x6d76, 0x7cff, 0x9489, 0x8500, 0xb79b, 0xa612, 0xd2ad, 0xc324, 0xf1bf, 0xe036, 0x18c1, 0x0948, 0x3bd3, 0x2a5a, 0x5ee5, 0x4f6c, 0x7df7, 0x6c7e, 0xa50a, 0xb483, 0x8618, 0x9791, 0xe32e, 0xf2a7, 0xc03c, 0xd1b5, 0x2942, 0x38cb, 0x0a50, 0x1bd9, 0x6f66, 0x7eef, 0x4c74, 0x5dfd, 0xb58b, 0xa402, 0x9699, 0x8710, 0xf3af, 0xe226, 0xd0bd, 0xc134, 0x39c3, 0x284a, 0x1ad1, 0x0b58, 0x7fe7, 0x6e6e, 0x5cf5, 0x4d7c, 0xc60c, 0xd785, 0xe51e, 0xf497, 0x8028, 0x91a1, 0xa33a, 0xb2b3, 0x4a44, 0x5bcd, 0x6956, 0x78df, 0x0c60, 0x1de9, 0x2f72, 0x3efb, 0xd68d, 0xc704, 0xf59f, 0xe416, 0x90a9, 0x8120, 0xb3bb, 0xa232, 0x5ac5, 0x4b4c, 0x79d7, 0x685e, 0x1ce1, 0x0d68, 0x3ff3, 0x2e7a, 0xe70e, 0xf687, 0xc41c, 0xd595, 0xa12a, 0xb0a3, 0x8238, 0x93b1, 0x6b46, 0x7acf, 0x4854, 0x59dd, 0x2d62, 0x3ceb, 0x0e70, 0x1ff9, 0xf78f, 0xe606, 0xd49d, 0xc514, 0xb1ab, 0xa022, 0x92b9, 0x8330, 0x7bc7, 0x6a4e, 0x58d5, 0x495c, 0x3de3, 0x2c6a, 0x1ef1, 0x0f78 };[/mw_shl_code]

这样对于消息unsigned char message[len]，校验码为：

[mw_shl_code=c,true] unsigned short code = do_crc(message, len);[/mw_shl_code]

并且按以下方式发送出去：

[mw_shl_code=c,true] message[len] = code & 0x00ff; message[len + 1] = (code >> 8) & 0x00ff; [/mw_shl_code]

接收端对收到的len + 2字节执行do_crc，如果没有差错发生则结果应为0。

在一些传输协议中，发送端并不指出消息长度，而是采用结束标志，考虑以下几种差错：
1)在消息之前，增加1个或多个0字节；
2)消息以1个或多个连续的0字节开始，丢掉1个或多个0；
3)在消息(包括校验码)之后，增加1个或多个0字节；
4)消息(包括校验码)以1个或多个连续的0字节结尾，丢掉1个或多个0；

显然，这几种差错都检测不出来，其原因就是如果寄存器值为0，处理0消息字节(或位)，寄存器值不变。为了解决前2个问题，只需寄存器的初值非0即可，对do_crc作以下改进：

[mw_shl_code=c,true]unsigned short do_crc(unsigned short reg_init, unsigned char *message, unsigned int len) { unsigned short crc_reg = reg_init; while (len--) crc_reg = (crc_reg >> 8) ^ crc16_ccitt_table[(crc_reg ^ *message++) & 0xff]; return crc_reg; } [/mw_shl_code]

在CRC16-CCITT标准中reg_init = 0xffff，为了解决后2个问题，在CRC16-CCITT标准中将计
算出的校验码与0xffff进行异或，即：

[mw_shl_code=c,true] unsigned short code = do_crc(0xffff, message, len); code ^= 0xffff; message[len] = code & 0x00ff; message[len + 1] = (code >> 8) & 0x00ff; [/mw_shl_code]
显然，现在接收端对收到的所有字节执行do_crc，如果没有差错发生则结果应为某一常值
GOOD_CRC。其满足以下关系：

[mw_shl_code=c,true] unsigned char p[]= {0xff, 0xff}; GOOD_CRC = do_crc(0, p, 2); [/mw_shl_code]

其结果为GOOD_CRC = 0xf0b8。

参考文献
--------
[1] Ross N. Williams，"A PAINLESS GUIDE TO CRC ERROR DETECTION ALGORITHMS"，Version 3，
http://www.ross.net/crc/crcpaper.html，August 1993
[2] Simpson, W., Editor, "PPP in HDLC Framing"，RFC 1549, December 1993
[3] P. E. Boudreau，W. C. Bergman and D. R. lrvin，"Performance of a cyclic redundancy
check and its interaction with a data scrambler"，IBM J. RES. DEVELOP.，VOL.38
NO.6，November 1994

版权声明
--------
版权所有 (C) 2004 Spark Huang。最初发表在Spark Huang's Blog(http://blog.csdn.net/hqw)，
可以转载，但是必须包含此版权声明，并且禁止除排版外的一切改动。

ofourme · 发表于 2015-5-25 13:10:42

个人觉得这是我看过的解释CRC数学原理最好的文章了，其数学基础是GF(2)(2元素伽罗瓦域)多项式算术，而我之前看过的文章里都是含糊其词的说用到了多项式除法，让人感觉不对劲。对于程序，在原文评论中有些人指出程序可能有错，这个我还没有去研究过，有兴趣的人可以到原链接里了解：http://blog.csdn.net/hqw/article/details/208925

正点原子 · 发表于 2015-5-25 17:20:38

不错，谢谢分享。。。

mslzt · 发表于 2016-1-9 14:27:14

正在学习CRC

帐号		自动登录	找回密码
密码			立即注册

[转载]CRC从原理到实现

原子哥极力推荐 /1