简述什么是hadoop hadoop是什么

大数据简介:
大数据是指通过全球各种平台产生的所有数据 。
大数据类别:
结构化的非结构化半结构化
大数据的例子:
1)纽约证券交易所每天产生大约1TB的新交易数据 。
2)社交媒体:统计数据显示 , 每天有超过500 TB的数据被摄入社交媒体网站脸书的数据库 。
【简述什么是hadoop hadoop是什么】数据主要根据以下几个方面生成:
照片和视频上传信息交流注释
3)喷气发动机/旅游门户:
恩格尔喷气发动机产生10兆(TB是每天飞行30分钟的数据) 。数据的生成量高达几PB(PB) 。
Hadoop是什么?
Hadoop是由Apache So深圳生活网的ftware Foundation管理的开源框架 。开源是指免费提供 , 其源代码可以根据用户要求更改 。Apache Hadoop旨在有效存储和处理大数据 。Hadoop用于数据存储、处理、分析、访问、治理、运营和安全 。
拥有大量数据的大型组织使用Hadoop , 并在大型商业硬件集群的帮助下进行处理 。集群是指一组通过局域网连接的系统 , 集群上的多个节点帮助执行Hadoop作业 。Hadoop在管理大数据方面已经风靡全球 , 目前已经占据了近90%的市场份额 。
Hadoop的功能
经济高效:Hadoop系统非常经济高效 , 因为它不需要任何专用硬件 , 因此投资少 。对于系统而言 , 使用称为商品硬件的简单硬件就足够了 。支持大型节点集群:Hadoop结构可以由构成大型集群的数千个节点组成 。大型集群有助于扩展存储系统并提供更多的计算能力 。数据的并行处理:Hadoop系统支持跨集群中所有节点的数据并行处理 , 因此减少了存储和处理时间 。数据分配(分布式处理):Hadoop可以在集群中的所有节点之间高效地分配数据 。此外 , 如果特定节点正忙或无法运行 , 它会在整个群集上复制数据以便检索其他节点的数据 。自动故障转移管理(容错):Hadoop的一个重要功能是 , 如果群集中的节点发生故障 , 它可以自动解决问题 。框架本身将故障系统替换为另一个系统 , 并在新计算机上配置复制的设置和数据 。支持异构群集:异构群集是一种用于说明来自不同供应商 , 不同操作系统 , 并在不同版本上运行的节点或计算机的群集 。例如 , 如果Hadoop集群具有三个系统 , 一个在RHEL Linux上运行的Lenovo计算机 , 第二个是在Ubuntu Linux上运行的Intel计算机 , 第三个是在Fedora Linux上运行的AMD计算机 , 则所有这些不同的系统都能够同时运行在单个群集上运行 。可伸缩性:Hadoop系统具有从群集中添加或删除节点/节点和硬件组件的能力 , 而不会影响群集的操作 。这是指可扩展性 , 这是Hadoop系统的重要功能之一 。
Hadoop生态系统概述
包括:
HDFS(Hadoop分布式文件系统)Apache MapReduceApache PigApache HBaseApache HiveApache SqoopApache FlumeApache ZookeeperApache kafkaApache Oozie
HDFS(Hadoop分布式文件系统):HDFS执行Hadoop框架中最重要的工作 。它同时分发数据并将其存储在集群中的每个节点上 。这个过程减少了在磁盘上存储数据的总时间 。
MapReduce(将大数据集读入Hadoop/使用MR从Hadoop中写入大数据集):Hadoop MapReduce是系统的另一个重要部分 , 它处理存储在集群中的大量数据 。它允许并行处理HDFS存储的所有数据 。而且通过集群中的大规模可扩展性解决了处理成本高的问题 。
Apache Pig (Pig是Hadoop生态系统的ETL):是一种高级脚本语言 , 用于编写Hadoop集群中大型数据集的数据分析程序 。Pig使开发人员能够生成查询执行例程来分析大型数据集 。脚本语言叫猪拉丁 , p一个深圳生活网ig的关键部分 , 第二个关键部分是编译器 。
Apache HBase(OLTP/NoSQL)来源:这是一个面向列的数据库 , 支持实时运行HDFS 。它可以处理大型数据库表 , 即包含数百万行和列的文件 。HBase的一个重要目的就是有效利用主节点管理区域服务器 。
Apache Hive(Hive是Hadoop上的SQL引擎):Hive允许通过类似于SQL的接口对HDFS的数据进行平方 。SQL语言的Hive版本叫做HiveQL 。
Apache Sqoop(从RDBMS [SQL Source]到Hadoop的数据导入/导出):它是一个应用程序 , 可以帮助从Hadoop向其他关系数据库管理系统导入和导出数据 。它可以传输大量数据 。Sqoop基于连接器架构 , 支持插件与新的外部系统建立连接 。
Apache Flume(从非结构化数据(社交媒体网站)导入数据/构建到Hadoop的数据):这是深圳生活网的一个应用程序 , 允许流式数据存储在Hadoop集群中 。例如 , 将数据写入日志文件就是流式数据的一个很好的例子 。
Apache Zookeeper(集群环境中使用的协调工具):它的作用是管理上述应用之间的协调 , 使它们能够在Hadoop生态系统中高效运行 。
Hadoop的特性–HDFS守护进程
Hadoop系统基于主从架构原理工作 。
名称:它是主节点 , 是单个实体 。它负责存储HDFS元数据 , 该元数据跟踪存储在HDFS的所有文件 。存储在元数据上的信息类似于文件名、文件的权限、文件的授权用户和文件的存储位置 。这些信息存储在RAM中 , 通常称为文件系统元数据 。
数据节点:是从节点 , 有多个号 。数据节点负责根据名称节点的指令存储和检索数据 。数据节点会间歇性地向名称节点报告其当前状态以及存储的所有文件 。数据节点在其中存储每个文件的多个副本 。
次名节点:次名节点的存在是为了支持主名节点存储元数据 。当名称节点由于元数据损坏或任何其他原因出现故障时 , 辅助名称节点可以防止整个集群出现故障 。
辅助名称节点指示名称节点创建并发送fsimage和editlog文件 , 然后辅助名称节点创建压缩的fsimage文件 。然后 , 将压缩文件传输回tge name节点 , 并对其进行重命名 。这个过程每小时重复一次 , 或者在editlog文件的大小超过64MB时重复一次 。

    推荐阅读