1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 初识大数据--Hadoop大数据平台架构与实践

初识大数据--Hadoop大数据平台架构与实践

时间:2019-11-19 03:33:50

相关推荐

初识大数据--Hadoop大数据平台架构与实践

Hadoop大数据平台架构与实践

推荐书籍:

大数据存储与处理技术的原理(理论)

Hadoop的使用和开发能力(实践)

预备知识:

Linux常用命令

Java基础编程

1、大数据相关概念

​ 无处不在的大数据,科学数据、金融数据、零售数据、社交网络数据、交通数据、物联网数据等。

​ 马云:“21世纪核心的竞争是数据的竞争。谁拥有更多数据,谁就拥有未来。”

初始Hadoop

​ 如何对大数据进行存储和分析呢?

​ 系统瓶颈:存储容量、读写速率、计算效率…

谷歌大数据技术:MapReduce、BigTables、GFS

革命性的变化

​ 1:成本降低,能用PC机,就不用大型机和高端存储。

​ 2:软件容错硬件故障视为常态,通过软件保证可靠性。

​ 3:简化并行分布式计算,无须控制节点同步和数据交换。

​ Google只是发表了相关的技术论文,而没有开放源代码。所以,出现了一个模仿Google大数据技术的开源实现,Hadoop

Hadoop的功能和优势

​ Hadoop是一个Apache开发的开源的分布式存储基础架构和分布式计算平台。

​ Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

​ Hadoop的框架最核心的设计就是:HDFS和MapReduce

​ HDFS:分布式文件系统,为海量的数据提供了存储。

​ MapReduce:并行处理框架,实现任务分解和调度,为海量的数据提供了计算。

Hadoop应用:

​ 搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务。如搜索引擎,日志分析,商业智能,数据挖掘。

Hadoop优势:

​ 1、高扩展 理论上是无限的

​ 2、低成本

​ 3、成熟的生态圈

Hadoop生态系统及版本

Hadoop家族:

Hive(小蜜蜂):

​ 将sql语句转换成Hadoop任务去执行,降低了使用Hadoop的门槛。

HBase:

​ 存储结构化数据的分布式数据库。

​ 与传统的关系型数据库相比,HBase放弃事务特性,追求更高的扩展。

​ 与HDFS相比,HBase提供数据的随机读写和实时访问,实现对表数据的读写功能。

zookeeper(动物管理员):

​ 监控Hadoop集群中每个节点的状态,管理整个集群的配置,维护节点资源之间数据的一致性。

Hadoop版本:

​ 这里学习的是ver1.2版本,稳定版,容易上手理解。

[外链图片转存中...(img-c2srLkMB-1569672170113)]

Hadoop版本:

​ 这里学习的是ver1.2版本,稳定版,容易上手理解。

2、Hadoop安装

step1、准备Linux环境

多种方式:

Windows下安装虚拟机;

租用云主机,阿里云、UnitedStack等;

step2、安装JDK
step3、配置Hadoop

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。