🍅 作者主页:不吃西红柿
🍅 简介:CSDN博客专家🏆、信息技术智库公号作者✌ 华为云享专家、HDZ核心组成员。 简历模板、PPT模板、学习资料、面试题库、技术互助,点击下方「信息技术智库」跳转文末都给你!
目录
文章很长,前言一定要看
拥有本篇文章,意味着你拥有一本完善的书籍,本篇文章整理了数据仓库领域,几乎所有的知识点,文章内容主要来源于以下几个方面:
- 源于「数据仓库交流群」资深数据仓库工程师的交流讨论,如《sql行转列的千种写法》。
- 源于群友面试大厂遇到的面试真题,整理投稿给我,形成《面试题库》。
- 源于笔者在系统学习过程中整理的笔记和一点理解。
- 源于技术网站的优质文章和高赞答案。

本篇文章尤其适合初级程序员准备面试,以及作为工作中的指导手册,对资深程序员来说也可夯实基础。
当然,技术学习仅仅依靠一篇文章还是不够的,可加入公众号和技术交流群(联系方式见文末),群里有很多数据仓库领域资深大佬,大家经常在群里讨论技术热点问题、互相解决工作难题、安排内推、甚至有部门leader直接发出岗位邀请。「西红柿🍅」也会持续更新优质文章,也欢迎热爱学习总结的小伙伴有偿投稿,共同推动中国信息技术行业发展,让我们一起加油吧!
目录
一、数据仓库的8个发展阶段
1.概念阶段(1978-1988)
2.萌芽阶段
3.集成阶段
4.确立阶段(1991)
5.数据集市(1994-1996)
6.争吵与混乱(1996-1997)
7.合并(1998-2001)
8.未来
二、四种常见数据模型
1.为什么要进行数据仓库建模
2.四种常见模型
2.1 维度模型
2.1.1 星型模型
2.1.2 雪花模型
2.1.3 星座模型
2.2 范式模型
2.3 Data Vault模型
2.4 Anchor模型
3.数据模型的评价标准
三、三种事实表(设计原则,设计方法)
1.三种事实表概述
2.三种事实表对比
3.事实表设计 8 大原则
4.事实表设计方法
第一步:选择业务过程及确定事实表类型
第二步:声明粒度
第三步:确定维度
第四步:确定事实
四、多维体系结构
1.总线架构
2.一致性维度
3.一致性事实
4.小编有话
五、数据仓库规范设计
1.为什么要进行规范设计
2.设计规范 - 指标
3.命名规范 - 表命名
3.1 常规表
3.2 中间表
3.3 临时表
3.4 维度表
4.开发规范
5.流程规范
六、元数据管理
1.业务元数据
2.技术元数据
3.管理元数据
4.小编有话
七、维度表
1.什么是维度表
2.维度表设计原则
3.维度表设计方法
八、三范式与反范式
1.第一范式
2.第二范式
3.第三范式
4.反范式化
5.范式化设计和反范式化设计的优缺点
5.1 范式化 (时间换空间)
5.2 反范式化(空间换时间)
6.OLAP和OLTP中如何设计范式
九、数据仓库架构-Lambda和Kappa
1.Lambda架构原理
2.Lambda架构的缺点
3.Kappa架构原理
4.Lambda架构和Kappa架构优缺点对比
5.数据架构评价标准
6.小编有话
十、数据治理(目的、方法、流程)
1.什么是数据治理
2.数据治理的目的
3.数据治理的方法
4.数据质量8个衡量标准
5.数据治理流程
十一、ETL
1.什么是ETL
2.ETL & ELT
3.常用的ETL工具
3.1 sqoop
3.2 DataX
3.3 Kettle
3.4 canal
十二、数据应用-OLAP
1.OLAP和OLTP的区别
2.OLAP分类
3.OLAP基本操作
4.OLAP选型
十三、数据倾斜
1.数据倾斜表现
1.1 hadoop中的数据倾斜表现
1.2 hive中数据倾斜
1.3 Spark中的数据倾斜
2.数据倾斜产生原因
3.解决数据倾斜思路
2.1 业务逻辑
2.2 程序层面
2.3 调参方面
2.4 从业务和数据上解决
一、数据仓库的8个发展阶段
1、概念阶段(1978-1988)
更多文章请关注《万象专栏》
转载请注明出处:https://www.wanxiangsucai.com/read/cv177342