如何在mapreduce中处理protocolbuf序列化格式的文件

一、生成proto协议描述文件对应的java文件

对于一些采取protocolbuf序列化存储的日志文件，在做数据分析之前，需要日志解析（反序列化），以java语言为例

公司主流使用protobuf 2.4.1版本，如果采用默认安装版本都会高于此版本，因此需要降级，以mac为例，可以采用以下方式降级

brew tap homebrew/versions

brew install protobuf241

brew link --force --overwrite protobuf241

安装成功后，开始将proto文件转换为java文件，为了规范化编程，需要保证proto文件有以下描述信息

vim test.proto

增加

package tanjiti.web.access;
option java_package = "tanjiti.web.access";
option java_outer_classname = "AccessLogProtos";
option java_generic_services = true;

然后运行以下命令

protoc --proto_path=src --java_out=build/gen  src/test.proto

就会在build/gen目录下生成对应的java包

build/gen/

└── tanjiti
    └── web
        └── access

            └── AccessLogProtos.java

二、MapReduce中调用解析方法

设置输入文件处理格式与将BytesWritable类型转化为byte[] 类型

job.setInputFormat(SequenceFileAsBinaryInputFormat.class); // 将MR输入文件格式设置为二进制序列文件格式

map( Object key, BytesWritable value... //设置map key 为object， value 为BytesWritable 类型

value.setCapacity(value.getSize());// 将BytesWritable类型转化为byte[] 类型
byte[] line = value.getBytes();

接下来，交给自动生成的AccessLogProtos.java文件对应的parseForm(byte [] line)方法,来提取对应字段

如何在mapreduce中处理protocolbuf序列化格式的文件

Trending Articles

SM3268AB 8CE三星量产无法格式化

[下载工具]Think4V utubedown(Youtube高清视频下载工具) v2.1.6 官方版2.1.3

出售: SINE Othello 電源線

博讯｜张磊帮助下，李源潮的儿子被耶鲁录取

FullEventLogView 1.73 免安裝中文版 - 事件檢視器取代工具

同門四角戀？李沛旭喇舌「小郭雪芙」曾智希，蔡淑臻拍完婚紗...怒毀婚

五代RAV4 降車身（機械車位因素）

[攻略] 《魔獸世界》6.2.2 白色魚人蛋再現！來去收編魚人寶寶特基！

jetBrains Product crack 2024 Java based

2013 KUGA 6G轉動方向盤會聽到摳摳摳的異音，有人知道原因嗎?

【豌豆字幕組】[藥屋少女的呢喃（藥師少女的獨語）/ Kusuriya no Hitorigoto][25][繁體][1080P][MP4]

好用的照片后期处理软件【DxO PhotoLab Elite 5.4.0.4765 (x64) 多语言便携版】..

出售: Thixar Silence Plus 啫喱板

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

三條崙討海人故事…重建烏倉寮憶43年前船難

致喬立建設道歉聲明

[一般] 神州全地圖掉寶資料

方易通7862 8/128G 無360 刷機

動感校園小記者・瑪利諾修院學校｜採訪王瑋駿陳晞文帶領試玩風帆

有藍電流行車紀錄器分享文嗎