什么是 Google Protocol Buffer? 假如您在網上搜索,應該會得到類似這樣的文字介紹: Google Protocol Buffer( 簡稱 Protobuf) 是 Google 公司內部的混合語言數據標準,目前已經正在使用的有超過 48,162 種報文格式定義和超過 12,183 個 .proto 文件。他們用于 RPC 系統(tǒng)和持續(xù)數據存儲系統(tǒng)。 Protocol Buffers 是一種輕便高效的結構化數據存儲格式,可以用于結構化數據串行化,或者說序列化。它很適合做數據存儲或 RPC 數據交換格式。可用于通訊協(xié)議、數據存儲等領域的語言無關、平臺無關、可擴展的序列化結構數據格式。目前提供了 C++、Java、Python 三種語言的 API。 或許您和我一樣,在第一次看完這些介紹后還是不明白 Protobuf 究竟是什么,那么我想一個簡單的例子應該比較有助于理解它。 在網站 http://code.google.com/p/protobuf/downloads/list上可以下載 Protobuf 的源代碼。然后解壓編譯安裝便可以使用它了。 安裝步驟如下所示:
我打算使用 Protobuf 和 C++ 開發(fā)一個十分簡單的例子程序。 該程序由兩部分組成。第一部分被稱為 Writer,第二部分叫做 Reader。 Writer 負責將一些結構化的數據寫入一個磁盤文件,Reader 則負責從該磁盤文件中讀取結構化數據并打印到屏幕上。 準備用于演示的結構化數據是 HelloWorld,它包含兩個基本數據:
首先我們需要編寫一個 proto 文件,定義我們程序中需要處理的結構化數據,在 protobuf 的術語中,結構化數據被稱為 Message。proto 文件非常類似 java 或者 C 語言的數據定義。代碼清單 1 顯示了例子應用中的 proto 文件內容。 清單 1. proto 文件
一個比較好的習慣是認真對待 proto 文件的文件名。比如將命名規(guī)則定于如下:
在上例中,package 名字叫做 lm,定義了一個消息 helloworld,該消息有三個成員,類型為 int32 的 id,另一個為類型為 string 的成員 str。opt 是一個可選的成員,即消息中可以不包含該成員。 寫好 proto 文件之后就可以用 Protobuf 編譯器將該文件編譯成目標語言了。本例中我們將使用 C++。 假設您的 proto 文件存放在 $SRC_DIR 下面,您也想把生成的文件放在同一個目錄下,則可以使用如下命令:
命令將生成兩個文件: lm.helloworld.pb.h , 定義了 C++ 類的頭文件 lm.helloworld.pb.cc , C++ 類的實現(xiàn)文件 在生成的頭文件中,定義了一個 C++ 類 helloworld,后面的 Writer 和 Reader 將使用這個類來對消息進行操作。諸如對消息的成員進行賦值,將消息序列化等等都有相應的方法。 如前所述,Writer 將把一個結構化數據寫入磁盤,以便其他人來讀取。假如我們不使用 Protobuf,其實也有許多的選擇。一個可能的方法是將數據轉換為字符串,然后將字符串寫入磁盤。轉換為字符串的方法可以使用 sprintf(),這非常簡單。數字 123 可以變成字符串”123”。 這樣做似乎沒有什么不妥,但是仔細考慮一下就會發(fā)現(xiàn),這樣的做法對寫 Reader 的那個人的要求比較高,Reader 的作者必須了 Writer 的細節(jié)。比如”123”可以是單個數字 123,但也可以是三個數字 1,2 和 3,等等。這么說來,我們還必須讓 Writer 定義一種分隔符一樣的字符,以便 Reader 可以正確讀取。但分隔符也許還會引起其他的什么問題。最后我們發(fā)現(xiàn)一個簡單的 Helloworld 也需要寫許多處理消息格式的代碼。 如果使用 Protobuf,那么這些細節(jié)就可以不需要應用程序來考慮了。 使用 Protobuf,Writer 的工作很簡單,需要處理的結構化數據由 .proto 文件描述,經過上一節(jié)中的編譯過程后,該數據化結構對應了一個 C++ 的類,并定義在 lm.helloworld.pb.h 中。對于本例,類名為 lm::helloworld。 Writer 需要 include 該頭文件,然后便可以使用這個類了。 現(xiàn)在,在 Writer 代碼中,將要存入磁盤的結構化數據由一個 lm::helloworld 類的對象表示,它提供了一系列的 get/set 函數用來修改和讀取結構化數據中的數據成員,或者叫 field。 當我們需要將該結構化數據保存到磁盤上時,類 lm::helloworld 已經提供相應的方法來把一個復雜的數據變成一個字節(jié)序列,我們可以將這個字節(jié)序列寫入磁盤。 對于想要讀取這個數據的程序來說,也只需要使用類 lm::helloworld 的相應反序列化方法來將這個字節(jié)序列重新轉換會結構化數據。這同我們開始時那個“123”的想法類似,不過 Protobuf 想的遠遠比我們那個粗糙的字符串轉換要全面,因此,我們不如放心將這類事情交給 Protobuf 吧。 程序清單 2 演示了 Writer 的主要代碼,您一定會覺得很簡單吧? 清單 2. Writer 的主要代碼
Msg1 是一個 helloworld 類的對象,set_id() 用來設置 id 的值。SerializeToOstream 將對象序列化后寫入一個 fstream 流。 代碼清單 3 列出了 reader 的主要代碼。 清單 3. Reader
同樣,Reader 聲明類 helloworld 的對象 msg1,然后利用 ParseFromIstream 從一個 fstream 流中讀取信息并反序列化。此后,ListMsg 中采用 get 方法讀取消息的內部信息,并進行打印輸出操作。 運行 Writer 和 Reader 的結果如下:
Reader 讀取文件 log 中的序列化信息并打印到屏幕上。本文中所有的例子代碼都可以在附件中下載。您可以親身體驗一下。 這個例子本身并無意義,但只要您稍加修改就可以將它變成更加有用的程序。比如將磁盤替換為網絡 socket,那么就可以實現(xiàn)基于網絡的數據交換任務。而存儲和交換正是 Protobuf 最有效的應用領域。 看完這個簡單的例子之后,希望您已經能理解 Protobuf 能做什么了,那么您可能會說,世上還有很多其他的類似技術啊,比如 XML,JSON,Thrift 等等。和他們相比,Protobuf 有什么不同呢? 簡單說來 Protobuf 的主要優(yōu)點就是:簡單,快。 這有測試為證,項目 thrift-protobuf-compare 比較了這些類似的技術,圖 1 顯示了該項目的一項測試結果,Total Time. 圖 1. 性能測試結果 ![]() Total Time 指一個對象操作的整個時間,包括創(chuàng)建對象,將對象序列化為內存中的字節(jié)序列,然后再反序列化的整個過程。從測試結果可以看到 Protobuf 的成績很好,感興趣的讀者可以自行到網站 http://code.google.com/p/thrift-protobuf-compare/wiki/Benchmarking上了解更詳細的測試結果。 Protobuf 有如 XML,不過它更小、更快、也更簡單。你可以定義自己的數據結構,然后使用代碼生成器生成的代碼來讀寫這個數據結構。你甚至可以在無需重新部署程序的情況 下更新數據結構。只需使用 Protobuf 對數據結構進行一次描述,即可利用各種不同語言或從各種不同數據流中對你的結構化數據輕松讀寫。 它有一個非常棒的特性,即“向后”兼容性好,人們不必破壞已部署的、依靠“老”數據格式的程序就可以對數據結構進行升級。這樣您的程序就可以 不必擔心因為消息結構的改變而造成的大規(guī)模的代碼重構或者遷移的問題。因為添加新的消息中的 field 并不會引起已經發(fā)布的程序的任何改變。 Protobuf 語義更清晰,無需類似 XML 解析器的東西(因為 Protobuf 編譯器會將 .proto 文件編譯生成對應的數據訪問類以對 Protobuf 數據進行序列化、反序列化操作)。 使用 Protobuf 無需學習復雜的文檔對象模型,Protobuf 的編程模式比較友好,簡單易學,同時它擁有良好的文檔和示例,對于喜歡簡單事物的人們而言,Protobuf 比其他的技術更加有吸引力。 Protbuf 與 XML 相比也有不足之處。它功能簡單,無法用來表示復雜的概念。 XML 已經成為多種行業(yè)標準的編寫工具,Protobuf 只是 Google 公司內部使用的工具,在通用性上還差很多。 由于文本并不適合用來描述數據結構,所以 Protobuf 也不適合用來對基于文本的標記文檔(如 HTML)建模。另外,由于 XML 具有某種程度上的自解釋性,它可以被人直接讀取編輯,在這一點上 Protobuf 不行,它以二進制的方式存儲,除非你有 .proto 定義,否則你沒法直接讀出 Protobuf 的任何內容【 2 】。 到這里為止,我們只給出了一個簡單的沒有任何用處的例子。在實際應用中,人們往往需要定義更加復雜的 Message。我們用“復雜”這個詞,不僅僅是指從個數上說有更多的 fields 或者更多類型的 fields,而是指更加復雜的數據結構: 嵌套 Message 嵌套是一個神奇的概念,一旦擁有嵌套能力,消息的表達能力就會非常強大。 代碼清單 4 給出一個嵌套 Message 的例子。 清單 4. 嵌套 Message 的例子
在 Message Person 中,定義了嵌套消息 PhoneNumber,并用來定義 Person 消息中的 phone 域。這使得人們可以定義更加復雜的數據結構。 4.1.2 Import Message 在一個 .proto 文件中,還可以用 Import 關鍵字引入在其他 .proto 文件中定義的消息,這可以稱做 Import Message,或者 Dependency Message。 比如下例: 清單 5. 代碼
Import Message 的用處主要在于提供了方便的代碼管理機制,類似 C 語言中的頭文件。您可以將一些公用的 Message 定義在一個 package 中,然后在別的 .proto 文件中引入該 package,進而使用其中的消息定義。 Google Protocol Buffer 可以很好地支持嵌套 Message 和引入 Message,從而讓定義復雜的數據結構的工作變得非常輕松愉快。 一般情況下,使用 Protobuf 的人們都會先寫好 .proto 文件,再用 Protobuf 編譯器生成目標語言所需要的源代碼文件。將這些生成的代碼和應用程序一起編譯。 可是在某且情況下,人們無法預先知道 .proto 文件,他們需要動態(tài)處理一些未知的 .proto 文件。比如一個通用的消息轉發(fā)中間件,它不可能預知需要處理怎樣的消息。這需要動態(tài)編譯 .proto 文件,并使用其中的 Message。 圖 2. Importer 類 ![]() Import 類對象中包含三個主要的對象,分別為處理錯誤的 MultiFileErrorCollector 類,定義 .proto 文件源目錄的 SourceTree 類。 下面還是通過實例說明這些類的關系和使用吧。 對于給定的 proto 文件,比如 lm.helloworld.proto,在程序中動態(tài)編譯它只需要很少的一些代碼。如代碼清單 6 所示。 清單 6. 代碼
首先構造一個 importer 對象。構造函數需要兩個入口參數,一個是 source Tree 對象,該對象指定了存放 .proto 文件的源目錄。第二個參數是一個 error collector 對象,該對象有一個 AddError 方法,用來處理解析 .proto 文件時遇到的語法錯誤。 之后,需要動態(tài)編譯一個 .proto 文件時,只需調用 importer 對象的 import 方法。非常簡單。 那么我們如何使用動態(tài)編譯后的 Message 呢?我們需要首先了解幾個其他的類 Package google::protobuf::compiler 中提供了以下幾個類,用來表示一個 .proto 文件中定義的 message,以及 Message 中的 field,如圖所示。 圖 3. 各個 Compiler 類之間的關系 ![]() 類 FileDescriptor 表示一個編譯后的 .proto 文件;類 Descriptor 對應該文件中的一個 Message;類 FieldDescriptor 描述一個 Message 中的一個具體 Field。 比如編譯完 lm.helloworld.proto 之后,可以通過如下代碼得到 lm.helloworld.id 的定義: 清單 7. 得到 lm.helloworld.id 的定義的代碼
通過 Descriptor,F(xiàn)ieldDescriptor 的各種方法和屬性,應用程序可以獲得各種關于 Message 定義的信息。比如通過 field->name() 得到 field 的名字。這樣,您就可以使用一個動態(tài)定義的消息了。 隨 Google Protocol Buffer 源代碼一起發(fā)布的編譯器 protoc 支持 3 種編程語言:C++,java 和 Python。但使用 Google Protocol Buffer 的 Compiler 包,您可以開發(fā)出支持其他語言的新的編譯器。 類 CommandLineInterface 封裝了 protoc 編譯器的前端,包括命令行參數的解析,proto 文件的編譯等功能。您所需要做的是實現(xiàn)類 CodeGenerator 的派生類,實現(xiàn)諸如代碼生成等后端工作: 程序的大體框架如圖所示: 圖 4. XML 編譯器框圖 ![]() 在 main() 函數內,生成 CommandLineInterface 的對象 cli,調用其 RegisterGenerator() 方法將新語言的后端代碼生成器 yourG 對象注冊給 cli 對象。然后調用 cli 的 Run() 方法即可。 這樣生成的編譯器和 protoc 的使用方法相同,接受同樣的命令行參數,cli 將對用戶輸入的 .proto 進行詞法語法等分析工作,最終生成一個語法樹。該樹的結構如圖所示。 圖 5. 語法樹 ![]() 其根節(jié)點為一個 FileDescriptor 對象(請參考“動態(tài)編譯”一節(jié)),并作為輸入參數被傳入 yourG 的 Generator() 方法。在這個方法內,您可以遍歷語法樹,然后生成對應的您所需要的代碼。簡單說來,要想實現(xiàn)一個新的 compiler,您只需要寫一個 main 函數,和一個實現(xiàn)了方法 Generator() 的派生類即可。 在本文的下載附件中,有一個參考例子,將 .proto 文件編譯生成 XML 的 compiler,可以作為參考。 人們一直在強調,同 XML 相比, Protobuf 的主要優(yōu)點在于性能高。它以高效的二進制方式存儲,比 XML 小 3 到 10 倍,快 20 到 100 倍。 對于這些 “小 3 到 10 倍”,“快 20 到 100 倍”的說法,嚴肅的程序員需要一個解釋。因此在本文的最后,讓我們稍微深入 Protobuf 的內部實現(xiàn)吧。 有兩項技術保證了采用 Protobuf 的程序能獲得相對于 XML 極大的性能提高。 第一點,我們可以考察 Protobuf 序列化后的信息內容。您可以看到 Protocol Buffer 信息的表示非常緊湊,這意味著消息的體積減少,自然需要更少的資源。比如網絡上傳輸的字節(jié)數更少,需要的 IO 更少等,從而提高性能。 第二點我們需要理解 Protobuf 封解包的大致過程,從而理解為什么會比 XML 快很多。 Google Protocol Buffer 的 Encoding Protobuf 序列化后所生成的二進制消息非常緊湊,這得益于 Protobuf 采用的非常巧妙的 Encoding 方法。 考察消息結構之前,讓我首先要介紹一個叫做 Varint 的術語。 Varint 是一種緊湊的表示數字的方法。它用一個或多個字節(jié)來表示一個數字,值越小的數字使用越少的字節(jié)數。這能減少用來表示數字的字節(jié)數。 比如對于 int32 類型的數字,一般需要 4 個 byte 來表示。但是采用 Varint,對于很小的 int32 類型的數字,則可以用 1 個 byte 來表示。當然凡事都有好的也有不好的一面,采用 Varint 表示法,大的數字則需要 5 個 byte 來表示。從統(tǒng)計的角度來說,一般不會所有的消息中的數字都是大數,因此大多數情況下,采用 Varint 后,可以用更少的字節(jié)數來表示數字信息。下面就詳細介紹一下 Varint。 Varint 中的每個 byte 的最高位 bit 有特殊的含義,如果該位為 1,表示后續(xù)的 byte 也是該數字的一部分,如果該位為 0,則結束。其他的 7 個 bit 都用來表示數字。因此小于 128 的數字都可以用一個 byte 表示。大于 128 的數字,比如 300,會用兩個字節(jié)來表示:1010 1100 0000 0010 下圖演示了 Google Protocol Buffer 如何解析兩個 bytes。注意到最終計算前將兩個 byte 的位置相互交換過一次,這是因為 Google Protocol Buffer 字節(jié)序采用 little-endian 的方式。 圖 6. Varint 編碼 ![]() 消息經過序列化后會成為一個二進制數據流,該流中的數據為一系列的 Key-Value 對。如下圖所示: 圖 7. Message Buffer ![]() 采用這種 Key-Pair 結構無需使用分隔符來分割不同的 Field。對于可選的 Field,如果消息中不存在該 field,那么在最終的 Message Buffer 中就沒有該 field,這些特性都有助于節(jié)約消息本身的大小。 以代碼清單 1 中的消息為例。假設我們生成如下的一個消息 Test1:
則最終的 Message Buffer 中有兩個 Key-Value 對,一個對應消息中的 id;另一個對應 str。 Key 用來標識具體的 field,在解包的時候,Protocol Buffer 根據 Key 就可以知道相應的 Value 應該對應于消息中的哪一個 field。 Key 的定義如下:
可以看到 Key 由兩部分組成。第一部分是 field_number,比如消息 lm.helloworld 中 field id 的 field_number 為 1。第二部分為 wire_type。表示 Value 的傳輸類型。 Wire Type 可能的類型如下表所示: 表 1. Wire Type
在我們的例子當中,field id 所采用的數據類型為 int32,因此對應的 wire type 為 0。細心的讀者或許會看到在 Type 0 所能表示的數據類型中有 int32 和 sint32 這兩個非常類似的數據類型。Google Protocol Buffer 區(qū)別它們的主要意圖也是為了減少 encoding 后的字節(jié)數。 在計算機內,一個負數一般會被表示為一個很大的整數,因為計算機定義負數的符號位為數字的最高位。如果采用 Varint 表示一個負數,那么一定需要 5 個 byte。為此 Google Protocol Buffer 定義了 sint32 這種類型,采用 zigzag 編碼。 Zigzag 編碼用無符號數來表示有符號數字,正數和負數交錯,這就是 zigzag 這個詞的含義了。 如圖所示: 圖 8. ZigZag 編碼 ![]() 使用 zigzag 編碼,絕對值小的數字,無論正負都可以采用較少的 byte 來表示,充分利用了 Varint 這種技術。 其他的數據類型,比如字符串等則采用類似數據庫中的 varchar 的表示方法,即用一個 varint 表示長度,然后將其余部分緊跟在這個長度部分之后即可。 通過以上對 protobuf Encoding 方法的介紹,想必您也已經發(fā)現(xiàn) protobuf 消息的內容小,適于網絡傳輸。假如您對那些有關技術細節(jié)的描述缺乏耐心和興趣,那么下面這個簡單而直觀的比較應該能給您更加深刻的印象。 對于代碼清單 1 中的消息,用 Protobuf 序列化后的字節(jié)序列為:
而如果用 XML,則類似這樣:
首先我們來了解一下 XML 的封解包過程。XML 需要從文件中讀取出字符串,再轉換為 XML 文檔對象結構模型。之后,再從 XML 文檔對象結構模型中讀取指定節(jié)點的字符串,最后再將這個字符串轉換成指定類型的變量。這個過程非常復雜,其中將 XML 文件轉換為文檔對象結構模型的過程通常需要完成詞法文法分析等大量消耗 CPU 的復雜計算。 反觀 Protobuf,它只需要簡單地將一個二進制序列,按照指定的格式讀取到 C++ 對應的結構類型中就可以了。從上一節(jié)的描述可以看到消息的 decoding 過程也可以通過幾個位移操作組成的表達式計算即可完成。速度非常快。 為了說明這并不是我拍腦袋隨意想出來的說法,下面讓我們簡單分析一下 Protobuf 解包的代碼流程吧。 以代碼清單 3 中的 Reader 為例,該程序首先調用 msg1 的 ParseFromIstream 方法,這個方法解析從文件讀入的二進制數據流,并將解析出來的數據賦予 helloworld 類的相應數據成員。 該過程可以用下圖表示: 圖 9. 解包流程圖 ![]() 整個解析過程需要 Protobuf 本身的框架代碼和由 Protobuf 編譯器生成的代碼共同完成。Protobuf 提供了基類 Message 以及 Message_lite 作為通用的 Framework,,CodedInputStream 類,WireFormatLite 類等提供了對二進制數據的 decode 功能,從 5.1 節(jié)的分析來看,Protobuf 的解碼可以通過幾個簡單的數學運算完成,無需復雜的詞法語法分析,因此 ReadTag() 等方法都非???。 在這個調用路徑上的其他類和方法都非常簡單,感興趣的讀者可以自行閱讀。 相對于 XML 的解析過程,以上的流程圖實在是非常簡單吧?這也就是 Protobuf 效率高的第二個原因了。 往往了解越多,人們就會越覺得自己無知。我惶恐地發(fā)現(xiàn)自己竟然寫了一篇關于序列化的文章,文中必然有許多想當然而自以為是的東西,還希望各位能夠去偽存真,更希望真的高手能不吝賜教,給我來信。謝謝。 |
|