理解Protobuf的数据编码规则

之前用Google的Protobuf感觉真是个很好用的东西，于是抽时间研究了下他的数据的存储方式，以后可以扩展其他语言的解析器。其实与其说是研究，不如说是翻译。这些文档里都有，可能有些地方理解的不太对，还请见谅。

规则结构类型列表

Type

Meaning

Used For

Varint

int32, int64, uint32, uint64, sint32, sint64, bool, enum

64-bit

fixed64, sfixed64, double

Length-delimited

string, bytes, embedded messages, packed repeated fields

Start group

groups (deprecated)

End group

groups (deprecated)

32-bit

fixed32, sfixed32, float

Varint类型[动态整型]（type为0）

每个字节第一位表示有无后续字节，有为1，无为0
剩余7位倒序合并

举例: 300 的二进制为 10 0101100
第一位：1（有后续） + 0101100
第二位：0（无后续） + 0000010
最终结果： 101011000000010

Message 结构

键值型结构（Key-Value）
第一部分为Key值，Varint 结构
Key值的后三位表示规则类型的Type值，其他部分和为类型的数字编号
后面紧跟value，value的值依据规则类型不同而不同

举例: required int32 a = 1; 当a值为150时
Key：0000 1000,类型为000，数字编号为0001
Value（Varint类型）：1001 0110 0000 0001
值解码： 000 0001 + 001 0110 = 10010110 = 150

sint32和sint64类型的编码（ZigZag）

对于sint32和sint64类型的编码采用ZigZag编码方式，最后一位表示正负情况，即如下：

原始值

编码为

-1

-2

2147483647

4294967294

-2147483648

4294967295

解码方式为：

对sint32 -> (n << 1) ^ (n >> 31)
对sint64 -> (n << 1) ^ (n >> 63)

其他非Varint的数字类型（type为1或5）

按小端字节序（little-endian）排布（低位字节排放在内存的低地址端，高位字节排放在内存的高地址端）

比如：0x1234ABCD 保存为 0xCD 0xAB 0x34 0x12

字符串类型（type为2）

字符串采用UTF-8编码
在声明类型和编号后紧跟一个Varint类型，表示字符串长度
接下来的是字符串内容

比如：required string b = 2; 其中b的值为 testing
结果（16进制）是 12 07 74 65 73 74 69 6e 67
斜体为字符串内容
加粗为Varint的类型申明及编号
加粗并斜体为Varint的长度申明

内嵌Message类型（type为2）

内嵌Message类型采用类似字符串的编码方法，只是后面跟的是二进制而不是字符串

比如：

message Test1 {

  required int32 a = 1;

}

message Test3 {

  required Test1 c = 3;

}

其中a.c的值为150
结果为： 1a 03 08 96 01
斜体为Test1的内容
加粗为Varint的类型申明及编号
加粗并斜体为Varint的长度申明

可重复选项（Repeated）和可选选项（Optional）

对于可重复项（没有设置[packed=true]），编码的结果里对一个标签编号存在0条或多条key-value结构，并且无需连续和不保证顺序
对于可选项，编码的结果里可能没有该标签编号的key-value结构
对于非可重复项的重复数据的处理方式
对于数字和字符串，只接受最后一次的值，前面的忽略
对于Message，采用合并（Merge）操作，使用后面的值覆盖前面的值

带有[packed=true]选项的可重复项（type为2）

可重复项带有[packed=true]后，所有元素打成一个包，使用类似字符串的数据打包形式

message Test4 {
repeated int32 d = 4 [packed=true];
}
结果如下：
22 // tag (编号 4, 类型 2)
06 // 总长度 (6 bytes)
03 // 第一个元素 (varint 3)
8E 02 // 第二个元素 (varint 270)
9E A7 05 // 第三个元素 (varint 86942)

到这里就没了，by the way，一些SDK碰到不能识别的数据，将会把它放到最后，比如C++，另一些就直接忽略掉了，比如Python。而且这种设计对协议更新的向后兼容非常的好啊

PreviousC++ 新特性学习（七） — 右值引用 Next忆往昔ECUST的ACM时代

Last updated 7 years ago

Was this helpful?

hashtag规则结构类型列表

hashtagVarint类型[动态整型]（type为0）

hashtagMessage 结构

hashtagsint32和sint64类型的编码（ZigZag）

hashtag其他非Varint的数字类型（type为1或5）

hashtag字符串类型（type为2）

hashtag内嵌Message类型（type为2）

hashtag可重复选项（Repeated）和可选选项（Optional）

hashtag带有[packed=true]选项的可重复项（type为2）