1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 大数据开发教程——企业级离线数据仓库项目实战开发

大数据开发教程——企业级离线数据仓库项目实战开发

时间:2022-10-30 01:44:51

相关推荐

大数据开发教程——企业级离线数据仓库项目实战开发

数据仓库

数据仓库简介

数据仓库,英文名称为 Data Warehouse,可简写为 DW 或 DWH。

数据仓库,是为企业所有级别的决 策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

数据库和数据仓库对比

1、面向业务的数据库常称作 OLTP (mysql,SQLServer,Oracle)系统,关注增删改事务操作,面向分析的数据仓库亦称为 OLAP(hive,hbase),关注查询分析OLAP的数据分析引擎 -> Kylin,Clickhouse,Doris,druid,等等…

数据中心

引用维基百科的解释: 数据中心,指用于安置计算机系统及相关部件的设施,例如电信和储存系统。一般它包含冗余和备用电源,冗余数据通信连接,环境控制(例如空调、灭火器)和各种安全设备。

数据中心,顾名思义就是数据的中心,是处理和存储海量数据的地方,英文全称为Data Center。用专业的名词解释,数据中心是全球协作的特定设备网络,用来在 internet 网络基础设施上传递、加速、展示、计算、存储数据信息。

一般来讲,数据中心主要有几大部分构成:机房、供配电系统、制冷系统、网络设备、服务器设备、存储设备、环境控制设备等。

数据平台

数据平台,一般叫做数据处理平台,不是一个专门被设计用来解决数据存储问题的,一个完整的数

据平台包括一些关键架构设计:

数据采集

数据存储

数据处理

数据流转

数据应用

数据湖

引用维基百科的解释:数据湖(英语:Data Lake),是指使用大型二进制对象或文件这样的自然格 式储存数据的系统。

数据湖从本质上来讲,是一种企业数据架构方法,物理实现上则是一个数据存储平台,用来集中化 存储企业内海量的、多来源,多种类的数据,并支持对数据进行快速加工和分析。从实现方式来看,目前Hadoop是最常用的部署数据湖的技术,但并不意味着数据湖就是指Hadoop集群。为了应对不同业务需求的特点,MPP数据库 + Hadoop 集群+传统数据仓库这种“混搭”架构的数据湖也越来越多出现在企业信息化建设规划中。

数据湖的就是原始数据保存区,虽然这个概念国内谈的少,但绝大部分互联网公司都已经有了。国内一般把整个HDFS+Hive叫做数据仓库(广义),即存放所有数据的地方。

数据湖和数据仓库的区别:

数据仓库应用前景

数据化运营广告精准智能投放用户画像,精准营销数据挖掘、数据分析、人工智能、机器学习等等…

数仓构建流程

一个完整的数仓构建的流程:

01、需求分析

02、逻辑分析

03、ODS建模

04、数据仓库建模

05、数据源分析

06、数据集成

07、应用分析

08、数据展现

09、性能调优

10、元数据管理

需求分析

对企业领导层:

领导层对数据仓库的期望是什么?领导层最关心哪几个指标?领导层希望以何种方式来看这些指标?领导层希望对这些指标进行哪些方面的比较?etc…

对中间管理层:

中间管理层对数据仓库的期望是什么?中间管理层希望以何种方式来看这些指标?平时领导层通常询问哪些指标?在这些指标中哪几个和此分析主题有关?中间管理层对下属的工作人员都考核哪些指标?哪几个指标与此分析主题有关?

对业务人员:

业务人员对数据仓库的期望是什么?业务人员希望系统能提供哪些分析功能?业务人员希望以何种方式来看这些指标?业务人员希望对这些指标进行哪些方面的比较?

对技术人员:

此主题所需要的数据源都取自哪些业务系统?与本主题有关的现有的业务系统的数据结构怎样?IT人员对数据仓库的期望是什么?IT人员在平时的工作中最关心的哪些指标?

逻辑分析

处理逻辑分析

单一主题处理逻辑分析:从业务逻辑入手,分析各指标的组成关系多主题处理逻辑分析:综合考虑分析主题之间的逻辑关系

支撑数据分析

单一主题支撑数据分析:单个主题分析所需要的原始支撑数据分析多主题支撑数据分析:所有主题统一考虑所需要的支撑数据分析

业务元数据建立

使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据来源;系统所提供的分析方法及公式、报表信息。

ODS建模

逻辑模型:

逻辑结构(完成实体的定义,各实体间的关系等)存储粒度(与源系统基本保持一致)查看数据粒度存储周期(立即删除、过一段时间删除或者是备份到其它介质上)

物理模型:

数据的存储结构索引策略数据存放位置存储分配分区设计

数据仓库建模

数据仓库逻辑模型:

划分粒度层次确定数据分割策略确定存储周期定义关系模式

数据源分析

数据源范围

包括数据源逻辑范围和物理范围数据源格式

理解各数据源的格式,确定统一的格式,制定相应的转换规则

数据更新频率数据量数据质量

数据集成

直接抽取:主要面向业务数据库文件收集:主要面向日志文件,通过Flume做文件方面的数据收集数据的整合

应用分析

分析方法:OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP

ROLAP:实时在线分析

MOLAP:多维度在线分析

HOLAP:混合分析预定义报表

对单报表可以直接从数据库中取出数据进行分析展现。

同一主题的多个报表间有较强的关联,有些数据会在多个报表中以不同方式出现。因此,可以对多个报表进行整合。即席查询

基于单个表的即席查询

基于多个事实表关联的即席查询数据挖掘

根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。

戳我了解更多大数据开发学习路线

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。