数据湖进度
负责人:杨小龙,梁汝通,参与人:梁汝通
# 2023.08.28 - 2023.09.01
完成数据湖仓一体化服务器端Hadoop,Spark,Mysql,Kafka,Maven,Scala,Zookeeper,Jdk的环境部署
- 1.完成mysql数据库安装:目的需要监测binlog数据同步至kafka
- 2.完成hive的安装:配置完成与hadoop的集成
- 3.完成zookeeper协调分布式服务安装
- 4.完成kafka的服务安装,并完成集成zookeeper
负责人:杨小龙,梁汝通,参与人:梁汝通
# 2023.09.04 - 2023.09.08
以官方提供的数据在IDEA开发环境进行业务开发
- 1.订单类型统计
- 2.订单时效性统计
- 3.订单交通类型统计
- 4.订单价格区间统计
- 5.订单举例统计
- 6.订单星期统计
集成以安装部署的hive服务完成以下功能
- 1.创建表和添加分区
- 2.集成Hive查询,通过Hive SQL实现指标分析
- 3.模拟交易订单数据和流程分析
- 4.结构化流写入Hudi
- 5.结构化流式数据查询分析
- 6.DeltaStreamer工具使用
负责人:杨小龙,梁汝通,参与人:梁汝通
# 2023.09.01 - 2023.09.12
流式数据入湖
- 1.模拟产生订单数据
- 2.集成kafka并完成数据写入
- 3.消费kafka数据流式加载
- 4.kafka数据InputDStream[ConsumerRecord[String,String]]结构化数据处理
- 5.使用scala语言的"柯里化"(Currying)技术完成批量数据实时处理
- 6.将DStream RDD数据转换为DataFrame结构,并写入Hudi
定西项目应用
- 1.完成居民数据的导入
- 2.从Hudi中加载数据按需展示在后台系统中
- 3.对人员数据使用spark实现统计功能