Spark+ClickHouse实战企业级数据仓库，进军大厂必备(前6章)

小甜甜Tl 发表于 2023-8-2 09:00:04

第1章从0到1搭建项目开发环境，快速上手大数据开发试看7 节55分钟
本章将从0到1搭建大数据开发环境，通过IDEA+Maven构建多module项目，实现源码、启动脚本、配置等自动构建打包。

第2章项目关键技术准备，学习通用的数据处理技术13 节88分钟
本章对项目所用到关键技术进行封装，通过Spark UDF整合IP地址相关的转换功能、二分查找算法、通用Grok数据解析器等，并通过rewrite方式修改Grok组件源码，学习源码整合的思路。

第3章项目数据准备，操练基于Spark的数据开发与优化8 节61分钟
本章主要是基于Spark，模拟生成项目所需要的基础数据和安全访问日志数据，操练基于Spark对数据进行处理与优化技术。

第4章初识OLAP数仓架构5 节17分钟
本章主要介绍构建数仓的主流数据技术架构，以及基于ClickHouse的OLAP架构相比典型大数据架构的优势。

第5章详解数据仓库基础理论，掌握数据仓库的实施流程10 节48分钟
本章介绍数仓的基础理论、数据仓库的架构以及建模方法。基于当前主流的维度建模，学习数据仓库的构建流程以及分层模型的划分。

第6章【项目实战第一篇】项目业务流程与ODS层数据同步8 节57分钟
本章首先介绍项目的业务流程与实现的效果。根据项目ODS层的规划，封装基于HDFS API同步工具，搭配多线程，实现高性能的数据同步。针对业务数据库，封装了通用的关系型数据库的数据同步，实现将任意的库表数据同步至HDFS，可指定任意的文件格式、配置项。...

第7章快速上手OLAP分析引擎ClickHouse10 节64分钟
本章将介绍clickhouse的主要特性和架构，并通过搭建单机版本的clickhouse，快速学习掌握ClickHouse的基本使用。同时，分享了ClickHouse学习的几点建议，以帮助同学们更深入地学习和掌握clickhouse。

第8章基于Spark源码自定义ClickHouse外部数据源，简化数据写入流程6 节90分钟
本章将带领大家，自定义Spark的ClickHouse外部数据源，实现类似Spark的文件和JDBC数据源的功能，屏蔽底层实现细节，极大简化数据写入流程。

第9章数仓高级之维度模型设计10 节54分钟
本章将系统地介绍维度设计的流程以及如何进行维度的模型设计，通过具体的案例分析如何进行维度的整合、拆分，如何处理缓慢变化的维度，维度的层次模型如何设计、优化，以及几种常见的维度模型等。

第10章【项目实战第二篇】构建项目公共维度层9 节59分钟
本章基于维度模型设计的理论，采用反规范化、维度合并、维度拆分以及维度层次扁平化等维度设计方法，建立项目的公共维度层的表模型，实现易用性和性能提升，并保证维度模型的稳定性。

第11章 ClickHouse的MergeTree系列引擎原理、实践与优化25 节162分钟
本章对ClickHouse MergeTree引擎进行了深入的解析，重点介绍了MergeTree系列引擎的主要特性和使用。通过模拟大数据量的场景，实践了跳数索引以及Projection两大性能优化利器对性能提升的效果。针对MergeTree不擅长更新删除的特点，介绍了如何对数据进行实时的更新和删除的方案...

第12章数仓高级之事实表模型设计9 节45分钟
本章系统地介绍了数据仓库的六种类型的事实表以及事实表的四步设计过程。从实践应用的角度出发，详细介绍如何根据业务过程建模和分析主题建立各类事实表模型。

第13章【项目实战第三篇】数据清洗加工，构建项目数据明细层13 节94分钟
本章根据安全访问日志的业务处理过程，面向业务过程建模，建立事务事实表、周期性快照事实表、累积快照事实表的模型。在大数据量的场景下，优化Spark数据处理的性能。通过Projection以及视图封装周期性快照事实表，提升性能。...

第14章构建ClickHouse分布式集群，掌握分布式环境的数据查询、写入优化方案9 节54分钟
本章详细演示了如何从零开始，构建一个分布式的ClickHouse的集群，并验证集群的高可用、容错等功能。详细解析在分布式环境下，如何对clickhouse进行数据的写入和查询的优化的实践方案。

第15章【项目实战第四篇】负载均衡与高可用方案实践，自定义Spark写本地分片表策略15 节85分钟
本章从JDBC代码、Nginx反向代理、CHProxy、Spark等几个方面实践数据负载均衡可高可用。Spark的负载均衡和高可用支持通过自定义本地表的数据写入，支持轮询、随机等更灵活地分片写入策略。在集群环境，演示大数据量的数据写入与优化。...

第16章【项目实战第五篇】如何选择合适的维度表存储方案21 节108分钟
本章介绍几种常见的表引擎以及ClickHouse的字典，确定在不同的场景下，如何选择维度表的存储方案。

第17章【项目实战第六篇】数据汇总层与应用查询优化14 节69分钟
面向主题建模，生成数据仓库数据汇总层(DWS)的表。在集群环境，对超千万级的项目数据进行分析、SQL优化、参数调优，演示调优前后的效果。

第18章【项目实战第七篇】基于轻量级BI工具的数据展示与可视化监控13 节58分钟
本章将实现在BI工具Superset和Granfana中创建Dashboard，实现可视化的面向应用的展示。同时，在Granfana中，通过集成ClickHouse的系统表以及Prometheus两种方式，对clickhouse进行监控。

第19章数仓管理之调度系统DolphinScheduler 3.x18 节153分钟
本章使用DolphinScheduler构建分布式、易扩展的可视化DAG工作流任务调度平台。主要介绍DolphinScheduler的源码编译、部署，工作流是如何管理的，参数的分类、传递以及优先级，如何实现文件资源的管理，如何实现告警的配置，并通过项目实践，配置工作流调度。 ...

第20章构建现代数据技术栈的元数据管理平台14 节87分钟
本章介绍元数据管理的体系架构以及演进过程，通过DataHub搭建元数据管理系统，基于项目实践MySQL、ClickHouse、可视化BI平台等数据实体的元数据发现、摄取、血缘链路的建立以及自定义基于元数据事件的实时响应流程，充分发掘、利用数据的价值。...

第21章通用数据质量管理实践13 节93分钟
本章将介绍数据质量的评估标准、管理架构与数据模型，从零实现了一个通用的数据质量管理工具，通过具体的案例实践单表和多表的数据质量检查，数据质量检查的的指标和执行结果写入数据库，异常等需要进一步分析的明细数据写入HDFS等文件系统...

下载地址:
**** Hidden Message *****

791949970 发表于 2023-8-3 12:36:20

文件夹是空的

mytest123 发表于 2023-8-2 09:14:05

啥也不说了，感谢楼主分享哇！

chenduo888 发表于 2023-8-2 09:19:10

啥也不说了，感谢楼主分享哇！

csa 发表于 2023-8-2 09:25:53

啥也不说了，感谢楼主分享哇！

vodaka 发表于 2023-8-2 10:11:13

确实是难得好帖啊，顶先

crazyitboy 发表于 2023-8-2 11:17:22

Spark+ClickHouse实战企业级数据仓库，进军大厂必备

jackhan 发表于 2023-8-2 14:15:24

啥也不说了，感谢楼主分享哇！

JiDianDeGuang 发表于 2023-8-2 14:24:21

正需要，支持楼主大人了！

17770767379 发表于 2023-8-2 16:37:44

啥也不说了，感谢楼主分享哇！

username 发表于 2023-8-2 17:20:53

啥也不说了，感谢楼主分享哇！

页: [1] 2 3 4 5 6 7 8 9 10

dmz社区's Archiver

Spark+ClickHouse实战企业级数据仓库，进军大厂必备(前6章)