Hadoop大数据平台架构与实践
推荐书籍:
⭐大数据存储与处理技术的原理(理论)
⭐Hadoop的使用和开发能力(实践)
预备知识:
Linux常用命令
Java基础编程
1、大数据相关概念
无处不在的大数据,科学数据、金融数据、零售数据、社交网络数据、交通数据、物联网数据等。
马云:“21世纪核心的竞争是数据的竞争。谁拥有更多数据,谁就拥有未来。”
初始Hadoop
如何对大数据进行存储和分析呢?
系统瓶颈:存储容量、读写速率、计算效率…
谷歌大数据技术:MapReduce、BigTables、GFS
革命性的变化
1:成本降低,能用PC机,就不用大型机和高端存储。
2:软件容错硬件故障视为常态,通过软件保证可靠性。
3:简化并行分布式计算,无须控制节点同步和数据交换。
Google只是发表了相关的技术论文,而没有开放源代码。所以,出现了一个模仿Google大数据技术的开源实现,Hadoop。
Hadoop的功能和优势
Hadoop是一个Apache开发的开源的分布式存储基础架构和分布式计算平台。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。
HDFS:分布式文件系统,为海量的数据提供了存储。
MapReduce:并行处理框架,实现任务分解和调度,为海量的数据提供了计算。
Hadoop应用:
搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务。如搜索引擎,日志分析,商业智能,数据挖掘。
Hadoop优势:
1、高扩展 理论上是无限的
2、低成本
3、成熟的生态圈
Hadoop生态系统及版本
Hadoop家族:
Hive(小蜜蜂):
将sql语句转换成Hadoop任务去执行,降低了使用Hadoop的门槛。
HBase:
存储结构化数据的分布式数据库。
与传统的关系型数据库相比,HBase放弃事务特性,追求更高的扩展。
与HDFS相比,HBase提供数据的随机读写和实时访问,实现对表数据的读写功能。
zookeeper(动物管理员):
监控Hadoop集群中每个节点的状态,管理整个集群的配置,维护节点资源之间数据的一致性。
Hadoop版本:
这里学习的是ver1.2版本,稳定版,容易上手理解。
[外链图片转存中...(img-c2srLkMB-1569672170113)]
Hadoop版本:
这里学习的是ver1.2版本,稳定版,容易上手理解。
2、Hadoop安装
step1、准备Linux环境
多种方式:
Windows下安装虚拟机;
租用云主机,阿里云、UnitedStack等;