Files
knowledge-kit/Chapter5 - Network/5.3.md
2020-11-19 20:13:52 +08:00

254 lines
11 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 字节序
最近在调一个自定义报文的接口时,本来以为挺简单的,发现踩了好几个坑,其中一个比较“刻骨铭心”的问题就是数据的字节序问题。
## 背景
自定义报文,调用接口,服务端报文解析失败
![代码截图](https://raw.githubusercontent.com/FantasticLBP/knowledge-kit/master/assets/2019-09-15-BigEndian.png)
## iOS 小端序
查看 iOS 设备使用的端序
```Objective-C
if (NSHostByteOrder() == NS_LittleEndian) {
NSLog(@"NS_LittleEndian");
} if (NSHostByteOrder() == NS_BigEndian) {
NSLog(@"NS_BigEndian");
} else {
NSLog(@"Unknown");
}
```
## 概念
字节序字节顺序又称端序或尾序Endianness在计算机科学领域中指「存储器」中或者「数字通信链路」中组成多字节的字的**字节排列顺序**。
在几乎所有的机器上,**多字节对象都被存储为连续的字节序列**。例如在 C 语言中,一个 `int` 类型的变量 x 地址为 0x100那么其对应的地址表达式 `&x` 的值为 `0x100`,且 x 的4个字节将被存储在存储器的 `0x100`,`0x101`,`0x102`,`0x103` 位置。
字节的排列方式有2个通用规则。例如一个多位整数按照存储地址从低到高排序的字节中如果该整数的最低有效字节类似于最低有效位排在最高有效字节前面则称为“**小端序**“;反之成为”**大端序**“。在计算机网络中,字节序是一个必须要考虑的因素,因为不同类型的机器可能采用不同标准的字节序,所以均需要按照网络标准进行转化。
假设一个类型为 int 的变量 x位于地址 0x100 处,它的值为 0x01234567地址范围为 0x1000x103字节其内部的排列顺序由机器决定也就是和 CPU 有关,和操作系统无关。
- 大端序Big Endian也叫大尾序。高字节存储在内存的低地址
| 地址增长方向 |内存地址序号|16进制|
|:- |:-|:-|
|↓ |0x100| 01|
|↓ |0x101| 23|
|↓ |0x102| 45|
|↓|0x103| 67|
- 小端序Little Endian也叫小尾序。低字节存储在内存的低地址
| 地址增长方向 |内存地址序号|16进制|
|:- |:-|:-|
|↓ |0x100| 67|
|↓ |0x101| 45|
|↓ |0x102| 23 |
|↓ |0x103| 01 |
## 缘起
“endian”一词来源于十八世紀愛爾蘭作家乔纳森·斯威夫特Jonathan Swift的小说《格列佛游记》Gulliver's Travels。小说中小人国为水煮蛋该从大的一端Big-End剥开还是小的一端Little-End剥开而争论争论的双方分别被称为“大端派”和“小端派”。以下是1726年关于大小端之争历史的描述
> “我下面要告诉你的是Lilliput和Blefuscu这两大强国在过去36个月里一直在苦战。战争开始是由于以下的原因我们大家都认为吃鸡蛋前原始的方法是打破鸡蛋较大的一端可是当今皇帝的祖父小时候吃鸡蛋一次按古法打鸡蛋时碰巧将一个手指弄破了。因此他的父亲当时的皇帝就下了一道敕令命令全体臣民吃鸡蛋时打破鸡蛋较小的一端违令者重罚。老百姓们对这项命令极其反感。历史告诉我们由此曾经发生过6次叛乱其中一个皇帝送了命另一个丢了王位。这些叛乱大多都是由Blefuscu的国王大臣们煽动起来的。叛乱平息后流亡的人总是逃到那个帝国去寻求避难。据估计先后几次有11000人情愿受死也不肯去打破鸡蛋较小的一端。关于这一争端曾出版过几百本大部著作不过大端派的书一直是受禁的法律也规定该派任何人不得做官。”
—— 《格列夫游记》 第一卷第4章 蒋剑锋(译)
1980年丹尼·科恩Danny Cohen一位网络协议的早期开发者在其著名的论文"On Holy Wars and a Plea for Peace"中,为平息一场关于字节该以什么样的顺序传送的争论,而第一次引用了该词。
## 字节顺序
对于单一的字节a byte大部分处理器以相同的顺序处理位元bit因此单字节的存放方法和传输方式一般相同。
对于多字节数据如整数32位机中一般占4字节在不同的处理器的存放方式主要有两种大、小端序。
## 拓展
以内存中0x0A0B0C0D的存放方式为例分别有以下几种方式
0x 前缀代表十六进制。
1. 大端序
- 数据以8bit为单位:
地址增长方向 →
... 0x0A 0x0B 0x0C 0x0D ...
示例中最高位字节是0x0A 存储在最低的内存地址处。下一个字节0x0B存在后面的地址处。正类似于十六进制字节从左到右的阅读顺序。
- 数据以16bit为单位:
地址增长方向 →
... 0x0A0B 0x0C0D ...
最高的16bit单元0x0A0B存储在低位。
2. 小端序
- 数据以8bit为单位:
地址增长方向 →
... 0x0D 0x0C 0x0B 0x0A ...
最低位字节是0x0D 存储在最低的内存地址处。后面字节依次存在后面的地址处。
- 数据以16bit为单位:
地址增长方向 →
... 0x0C0D 0x0A0B ...
最低的16bit单元0x0C0D存储在低位。
- 更改地址的增长方向:
当更改地址的增长方向,使之由右至左时,表格更具有可阅读性。
← 地址增长方向
... 0x0A 0x0B 0x0C 0x0D ...
最低有效位LSB是0x0D 存储在最低的内存地址处。后面字节依次存在后面的地址处。
← 地址增长方向
... 0x0A0B 0x0C0D ...
最低的16bit单元0x0C0D存储在低位。
3. 混合序middle-endian具有更复杂的顺序。以 PDP-11 为例0x0A0B0C0D 被存储为:
32bit在PDP-11的存储方式
地址增长方向 →
... 0x0B 0x0A 0x0D 0x0C ...
可以看作高16bit和低16bit以大端序存储但16bit内部以小端存储。
## 处理器体系
- x86、MOS Technology 6502、Z80、VAX、PDP-11等处理器为小端序
- Motorola 6800、Motorola 68000、PowerPC 970、System/370、SPARC除V9外等处理器为大端序
- ARM、PowerPC除PowerPC 970外、DEC Alpha、SPARC V9、MIPS、PA-RISC及IA64的字节序是可配置的。
## 网络字节顺序NBO
通常我们认为,在网络传输的字节顺序即为网络字节序为标准顺序,考虑到与协议的一致以及与其他平台产品的互通,在程序发送数据包的时候,将主机字节序转换为网络字节序,收数据包处将网络字节序转换为主机字节序。
NBO(Network Byte Order)按照从高到低的顺序存储在网络上使用统一的网络字节顺序可以避免兼容性问题。TCP/IP中规定好的一种数据表示格式与具体的 CPU 类型、操作系统等无关。从而保证数据在不同主机之间传输时能够被正确解释。网络字节序采用大端序。
## 主机字节顺序 HBO
主机字节顺序HBOHost Byte Order不同机器 HBO 不相同,与 CPU 有关。计算机存储数据有两种字节优先顺序Big Endian 和 Little Endian。Internet 以 Big Endian 顺序在网络上传输,所以对于在内部是以 Little Endian 方式存储数据的机器,在网络通信时就需要进行转换。
Big-Endian: PowerPC、IBM、Sun
Little-Endian:x86、DEC
ARM 既可以工作在大端模式,也可以工作在小端模式。
## 如何转换
由于 Internet 和 Intel 处理器的字节顺序不同,所以开发者需要使用 Sockets API 提供的标准转换函数。
BSD Socket 提供了转换函数
- htons() : unsigned short 从主机序转换到网络序
- htonl() unsigned long 从主机序转换到网络序
- ntohs()unsigned short 从网络序转换到主机序
- ntohl()unsigned long 从网络序转换到主机序
之前的代码采用端序转换
```objective-c
- (NSData *)handlePayloadData:(NSArray *)rawArray
{
if (rawArray.count == 0) {
return 0;
}
// 2. 加密压缩处理meta 整体先加密再压缩payload一条条先加密再压缩
__block NSMutableString *metaStrings = [NSMutableString string];
__block NSMutableArray<NSData *> *payloads = [NSMutableArray array];
// 2.1. 遍历拼接model取出 meta用 \n 拼接
[rawArray enumerateObjectsUsingBlock:^(id _Nonnull obj, NSUInteger idx, BOOL * _Nonnull stop) {
if (HCT_IS_CLASS(obj, HCTLogPayloadModel)) {
HCTLogPayloadModel *payloadModel = (HCTLogPayloadModel *)obj;
BOOL shouldAppendLineBreakSymbol = idx < (rawArray.count - 1);
[metaStrings appendString:[NSString stringWithFormat:@"%@%@", payloadModel.meta, shouldAppendLineBreakSymbol ? @"\n" : @""]];
// 2.2 判断是否需要上传 payload 信息。如果需要则将 payload 取出。(Payload 可能为空)
if ([self needUploadPayload:payloadModel]) {
if (payloadModel.payload) {
NSData *payloadData = [HCTDataSerializer compressAndEncryptWithData:payloadModel.payload];
[payloads addObject:payloadData];
}
}
}
}];
if (metaStrings.length == 0) {
return nil;
}
NSData *metaData = [HCTDataSerializer compressAndEncryptWithString:metaStrings];
__block NSMutableData *headerData = [NSMutableData data];
unsigned short metaLength = (unsigned short)metaData.length;
HTONS(metaLength); // 处理2字节的大端序
[headerData appendData:[NSData dataWithBytes:&metaLength length:sizeof(metaLength)]];
Byte payloadCountbytes[] = {payloads.count};
NSData *payloadCountData = [[NSData alloc] initWithBytes:payloadCountbytes length:sizeof(payloadCountbytes)];
[headerData appendData:payloadCountData];
[payloads enumerateObjectsUsingBlock:^(NSData * _Nonnull obj, NSUInteger idx, BOOL * _Nonnull stop) {
unsigned int payloadLength = (unsigned int)obj.length;
HTONL(payloadLength); // 处理4字节的大端序
[headerData appendData:[NSData dataWithBytes:&payloadLength length:sizeof(payloadLength)]];
}];
__block NSMutableData *uploadData = [NSMutableData data];
// 先添加 header 基础信息,不需要加密压缩
[uploadData appendData:[headerData copy]];
// 再添加 meta 信息meta 信息需要先压缩再加密
[uploadData appendData:metaData];
// 再添加 payload 信息
[payloads enumerateObjectsUsingBlock:^(NSData * _Nonnull obj, NSUInteger idx, BOOL * _Nonnull stop) {
[uploadData appendData:obj];
}];
return [uploadData copy];
}
```
## 参考资料
- [维基百科:字节序](https://zh.wikipedia.org/wiki/字节序)