【PPT+实录】搜狗资深工程师申贤强：大数据处理和统一任务调度系

发布时间：2021-03-19 20:17:40 所属栏目：大数据来源：网络整理

导读：【本文系互联网技术联盟（ITA1024）原创首发，转载或节选内容前需获授权（授权后一周以后可以转载），且必须在正文前注明：本文转自互联网技术联盟（ITA1024）技术分享实录,微信公众号：ita1024k 】申贤强搜狗资深工程师互联网技术联盟 ITA1024讲师团成

基于这些我们推出这样的架构，scribe将数据传送给Kafka集群，Kafka集群通过数据实时入Hive，现在这个框架有一个好处，解决了上面的问题，一是实时批量入hive，支持流式计算，计算和压缩效率比以前要提升。

优点是什么呢？

支持实时批量导入Hive；
支持Hivc的parttiton? 采用ORC存储格式；
支持自定义Serde进行日志解析。

???

通过简单配置和生成代码执行，将数据很轻松导入到我们的Hive仓库，到仓库之后系一不流程进行数据精简、清洗，我们要进行ETL处理。在早期是Hive/pig表达复杂逻辑一般开发2到3天的开发时间，相对比较复杂。

所以我们对这种情况引入了Spark Dataframe API，可以混用SQL，scala和Java，开发流程段所为半天。

???

底层使用Spark加ORC存储，计算效率提升明显。我们这个开发者的SDK，称为BigDatakit，因为它与搜狗业务比较紧密，没有在这里单独去讲我们的工具，大家可以拿来看一下作为平常的思路借鉴。

???

我们SDK还可以支持的功能，刚才提到ETL，我们也支持Hbase的集成，各种分析工具的集成，并且我们开发者SDK也支持Docker。

???

【PPT+实录】搜狗资深工程师申贤强：大数据处理和统一任务调度系

这是代码比较，左边是pig的脚本，右边是ETL的脚本，两者的长度对比比较明显，基本上有很大的缩减。通过优化之后，很容易就能够将我们的代码，数据已经生成，我们需要做的事情是什么？

【PPT+实录】搜狗资深工程师申贤强：大数据处理和统一任务调度系

部署一个提交环境，数据分析师可能将他的数据部署到可执行环境。所以当前面所有事情都搞定之后，数据分析师终于可以去写自己的分析逻辑，测试OK之后，终于可以上线，上线之后有一个要求，他需要去定期执行，这一块常规的做法用Crontab，依赖的业务时间不确定，你用Crontab变成不靠铺的事情，机器的部署代价和迁移代价非常高。

???

【PPT+实录】搜狗资深工程师申贤强：大数据处理和统一任务调度系