你需要知道和理解的10个最重要的Hadoop术语

大数据是对大量结构化、非结构化或半结构化数据的一个有吸引力的名称,但众所周知 , 它很难捕获、存储、管理、共享、分析和可视化,至少在使用传统数据库和软件应用程序时是如此 。这也是大数据技术能够有效管理和处理大量数据的原因 。它是ApacheHadoop,提供了一个框架和相关技术,以分布式方式处理跨计算机集群的大型数据集 。所以 , 要想真正理解大数据,你需要对Hadoop有所了解 。在这里 , 我们将看看你会听到的关于Hadoop的热门术语,以及它们的含义 。

你需要知道和理解的10个最重要的Hadoop术语

文章插图
网络研讨会:大铁 , 迎接大数据:通过Hadoop和Spark注册大型机数据
在这里注册 。
但是首先,看看Hadoop是如何工作的 。
在进入Hadoop生态系统之前,你需要清楚地知道两件基本的事情 。首先是文件在Hadoop中的存储方式;二是如何处理存储的数据 。所有Hadoop相关的技术主要适用于这两个领域 , 并使其更加人性化 。
现在,关于条款 。
常见的Hadoop
Hadoop框架对于不同的功能有不同的模块,这些模块之间可以因为各种原因进行交互 。Hadoop可以定义为支持Hadoop生态系统中这些模块的通用实用程序库 。这些实用程序基本上是基于Java的归档(JAR)文件 。这些实用程序主要由程序员和开发人员在开发过程中使用 。
Hadoop分布式文件系统(HDFS)
Hadoop分布式文件系统(HDFS)是Apache软件基金会中ApacheHadoop的子项目 。这是Hadoop框架中存储的主干 。它是一个分布式的、可扩展的、容错的文件系统,跨越多个商用硬件,被称为Hadoop集群 。HDFS的目标是通过对应用程序数据的高吞吐量访问来可靠地存储大量数据 。HDFS遵循主/从架构,其中主设备称为NameNode,从设备称为DataNode 。
数据处理
HadoopMapReduce也是Apache软件基金会的子项目 。MapReduce实际上是一个纯Java编写的软件框架 。它的主要目标是在分布式环境(由商用硬件组成)中以完全并行的方式处理大型数据集 。该框架管理所有活动 , 例如作业调度、监控、执行和重新执行(在任务失败的情况下) 。
数据库
ApacheHBase叫Hadoop数据库 。它是一种柱状、分布式和可扩展的大数据存储 。它也被称为NoSQL数据库 , 它不是一个关系数据库管理系统 。HBase应用也是用Java写的,构建在Hadoop上,运行在HDFS上 。当您需要对大数据进行实时读/写和随机访问时 , 请使用HBase 。HBase是基于Google的BigTable概念建模的 。
蜂箱
ApacheHive是一个开源的数据仓库软件系统 。Hive最初由脸书开发,前身是Apache软件基金会,后来成为开源软件 。它有助于管理和查询分布式Hadoop兼容存储上的大型数据集 。Hive使用一种类似SQL的语言HiveQL来执行它的所有活动 。
阿帕奇猪
Pig最初是由Yahoo发起的,用于在大量分布式数据上开发和执行MapReduce作业 。现在已经成为ApacheSoftwareFoundation下的开源项目 。ApachePig可以定义为一个以高效的方式分析非常大的数据集的平台 。Pig的基础设施层为实际处理生成MapReduce作业序列 。Pig的语言层叫PigLatin , 提供类似SQL的函数查询分布式数据集 。
阿帕奇火花
Spark最初是由加州大学伯克利分校的AMPLab开发的 。它在2014年2月成为了顶级的Apache项目 。ApacheSpark可以定义为一个开源的、通用的集群计算框架,可以更快地执行数据分析 。它建立在Hadoop分布式文件系统上 , 但没有链接到MapReduce框架 。与MapReduce相比,Spark的性能要快很多 。它提供了Scala、Python和Java的高级API 。
【你需要知道和理解的10个最重要的Hadoop术语】阿帕奇卡桑德拉
ApacheCassandra是另一个开源NoSQL数据库 。Cassandra广泛用于管理跨多个数据中心和云存储的大量结构化、半结构化和非结构化数据 。Cassandra是基于“无主”架构设计的,这意味着它不支持主/从模型 。在这种架构中,所有节点都是相同的,数据自动平均分布在所有节点上 。Cassandra最重要的功能是连续可用性、线性可扩展性、内置/可定制复制、无单点故障和操作简单 。
另一个资源协商者(YARN)
另一个资源协商器(YARN)也叫MapReduce2.0,但其实属于Hadoop2.0 。YARN可以被定义为作业调度和资源管理的框架 。YARN的基本思想是用两个独立的守护进程代替JobTracker的功能 , 负责资源管理和调度/监控 。在这个新框架中,将有一个全局资源管理器(RM)和一个名为ApplicationMaster(AM)的特定于应用程序的主机 。全局资源管理器(RM)和节点管理器(从属于每个节点)构成了实际的数据计算框架 。现有的MapReducev1应用程序也可以在YARN上运行,但是这些应用程序需要使用Hadoop2.xjar重新编译 。
英帕拉
Impala可以定义为具有大规模并行处理(MPP)功能的SQL查询引擎 。它原生运行在ApacheHadoop框架上 。Impala是Hadoop生态系统的一部分 。它与其他Hadoop生态系统组件共享相同的灵活文件系统(HDFS)、元数据、资源管理和安全框架 。最需要注意的是,Impala在查询处理上要比Hive快很多 。但是我们也要记?。琁mpala是用来查询/分析一小组数据的,主要是作为一个分析工具,用来处理经过处理的结构化数据 。

    推荐阅读