一、什么是数据仓库?
数据仓库 (Data Warehouse) 简称DW,存储大量数据的集成中心。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision-Support)。它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。
二、数据仓库的特点
2.1主题性
不同于传统数据库对应于某一个或多个项目,数据仓库根据使用者实际需求,将不同数据源的数据在一个较高的抽象层次上做整合,所有数据都围绕某一主题来组织。
2.2集成性
数据仓库中存储的数据是来源于多个数据源的集成,原始数据来自不同的数据源,存储方式各不相同。要整合成为最终的数据集合,需要从数据源经过一系列抽取、清洗、转换的过程。
2.3稳定性
数据仓库中保存的数据是一系列历史快照,不允许被修改。用户只能通过分析工具进行查询和分析。
2.4时变性
数据仓库会定期接收新的集成数据,反应出最新的数据变化。
三、数据仓库的作用
3.1存储
在合并 (提取和加载) 步骤,数据仓库将接收和存储来自多个数据源的数据。
3.2处理
在处理 (转换和建模) 步骤,数据仓库将处理大部分 (或全部) 由转换步骤生成的密集处理工作负载。
3.3访问
在生成报告 (可视化和交付) 步骤,首先需要在数据仓库中收集报告,然后将其可视化并交付给最终用户。
四、为什么要建设数据仓库
4.1数据仓库可以汇总多个数据源
一般企业都拥有多个数据源,数据都分布在不同数据库中,企业在进行经营决策时通常需要结合全公司各个业务的数据进行综合统计分析,因此需要对源数据进行同步汇集到一个数据系统库中。
4.2提高企业数据质量
企业各业务线的数据可能存在很多数据错误、或者数据口径不一致的现象,建设数据仓库可以有效避免这些问题。
4.3提高效率
建设数据仓库能够提高排查问题、数据开发和沟通的效率。
4.4建立企业的数据模型
通过数据仓库,可以建立企业的数据模型,这对于企业的生产与销售、成本控制与收支分配有着重要的意义,极大的节约了企业的成本,提高了经济效益。数据仓库将企业的数据按照特定的方式组织,从而产生新的商业知识,并为企业的运作带来新的视角。
拓展:数据仓库如何集成不同的数据源?
不同数据源的数据集成所依靠的是ETL,ETL( Extract-Transform-Load)是用来描述将数据从来源迁移到目标的几个过程:
1.Extract:数据抽取,也就是把数据从数据源读出来。
2.Transform:数据转换,把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下,Transform也包含数据清洗,清洗掉噪音数据。
3.Load:数据加载,把处理后的数据加载到目标处,比如数据仓库。
五、结语
建立数据仓库是一个解决企业数据问题应用的过程,是企业信息化发展到一定阶段必不可少的一步,也是发展数据化管理的重要基础。