如何在mapreduce中处理protocolbuf序列化格式的文件

一、生成proto协议描述文件对应的java文件

对于一些采取protocolbuf序列化存储的日志文件，在做数据分析之前，需要日志解析（反序列化），以java语言为例

公司主流使用protobuf 2.4.1版本，如果采用默认安装版本都会高于此版本，因此需要降级，以mac为例，可以采用以下方式降级

brew tap homebrew/versions

brew install protobuf241

brew link --force --overwrite protobuf241

安装成功后，开始将proto文件转换为java文件，为了规范化编程，需要保证proto文件有以下描述信息

vim test.proto

增加

package tanjiti.web.access;
option java_package = "tanjiti.web.access";
option java_outer_classname = "AccessLogProtos";
option java_generic_services = true;

然后运行以下命令

protoc --proto_path=src --java_out=build/gen  src/test.proto

就会在build/gen目录下生成对应的java包

build/gen/

└── tanjiti
    └── web
        └── access

            └── AccessLogProtos.java

二、MapReduce中调用解析方法

设置输入文件处理格式与将BytesWritable类型转化为byte[] 类型

job.setInputFormat(SequenceFileAsBinaryInputFormat.class); // 将MR输入文件格式设置为二进制序列文件格式

map( Object key, BytesWritable value... //设置map key 为object， value 为BytesWritable 类型

value.setCapacity(value.getSize());// 将BytesWritable类型转化为byte[] 类型
byte[] line = value.getBytes();

接下来，交给自动生成的AccessLogProtos.java文件对应的parseForm(byte [] line)方法,来提取对应字段

如何在mapreduce中处理protocolbuf序列化格式的文件

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本