数据湖进度

负责人：杨小龙，梁汝通，参与人：梁汝通

# 2023.08.28 - 2023.09.01

完成数据湖仓一体化服务器端Hadoop,Spark,Mysql,Kafka,Maven,Scala,Zookeeper,Jdk的环境部署

1.完成mysql数据库安装:目的需要监测binlog数据同步至kafka
2.完成hive的安装:配置完成与hadoop的集成
3.完成zookeeper协调分布式服务安装
4.完成kafka的服务安装,并完成集成zookeeper

负责人：杨小龙，梁汝通，参与人：梁汝通

# 2023.09.04 - 2023.09.08

以官方提供的数据在IDEA开发环境进行业务开发

1.订单类型统计
2.订单时效性统计
3.订单交通类型统计
4.订单价格区间统计
5.订单举例统计
6.订单星期统计

集成以安装部署的hive服务完成以下功能

1.创建表和添加分区
2.集成Hive查询,通过Hive SQL实现指标分析
3.模拟交易订单数据和流程分析
4.结构化流写入Hudi
5.结构化流式数据查询分析
6.DeltaStreamer工具使用

负责人：杨小龙，梁汝通，参与人：梁汝通

# 2023.09.01 - 2023.09.12

流式数据入湖

1.模拟产生订单数据
2.集成kafka并完成数据写入
3.消费kafka数据流式加载
4.kafka数据InputDStream[ConsumerRecord[String,String]]结构化数据处理
5.使用scala语言的"柯里化"（Currying)技术完成批量数据实时处理
6.将DStream RDD数据转换为DataFrame结构,并写入Hudi

定西项目应用

1.完成居民数据的导入
2.从Hudi中加载数据按需展示在后台系统中
3.对人员数据使用spark实现统计功能

← 国产化进度

01
vue问题记录 10-11

02
RSP进度 10-09

03
贡献度 09-28

更多文章>