概述是什么?,简述的意思是什么

聚客2022-05-29  32

hadoop是什么(简述什么是hadoop)

大数据简介:

大数据是指通过全球各种平台产生的所有数据。

大数据类别:

结构化

  • 非结构化结构
  • 半结构化的
  • 大数据示例:

    1)纽约证券交易所每天产生约1TB的新交易数据。

    2)社交媒体:统计数据显示,每天有超过500 TB的数据被摄入社交媒体网站脸书的数据库。

    数据主要根据以下几个方面生成:

    照片和视频上传

  • 信息交流
  • 给…作注解
  • 3)喷气发动机/旅游门户:

    英格尔一个喷气发动机产生10兆(TB是每天飞行30分钟的数据)。数据生成量高达数Pb(千兆字节)。

    什么是Hadoop?

    Hadoop是由Apache Softw的are Foundation管理的开源框架。开源是指免费提供,其源代码可以根据用户的要求进行更改。Hadoop旨在有效存储和处理大数据。Hadoop用于数据存储、处理、分析、访问、治理、运营和安全。

    拥有大量数据的大型组织使用Hadoop,借助大型商用硬件集群进行处理。集群是一组通过LAN连接的系统,集群上的多个节点有助于执行Hadoop作业。Hadoop在管理大数据方面已经在全球范围内广受欢迎。目前拥有近90%的市场份额。

    Hadoop的 函数

    性价比高:Hadoop系统因为不需要任何专用硬件,所以性价比非常高,投资也比较少。对于系统来说,使用称为商用硬件的简单硬件就足够了。

  • 支持大型节点集群:Hadoop架构可以由成千上万的节点组成一个大型集群。大型集群有助于扩展存储系统并提供更强的计算能力。
  • 数据的并行处理:Hadoop系统支持跨集群中所有节点并行处理数据,从而减少存储和处理时间。
  • 数据分发(分布式处理):Hadoop可以在集群中的所有节点之间高效地分发数据。此外,如果特定节点繁忙或无法运行,它将在整个集群中复制数据,以便从其他节点检索数据。
  • 自动故障转移管理(容错):Hadoop的一个重要功能是,如果集群中的一个节点出现故障,它可以自动解决问题。框架本身用另一个系统替换故障系统,并在新计算机上配置复制的设置和数据。
  • 对异构集群的支持:异构集群是用于描述来自不同供应商、不同操作系统并运行在不同版本上的节点或计算机的集群。例如,如果Hadoop集群有三个系统,一个是运行在RHEL Linux上的联想电脑,第二个是运行在Ubuntu Linux上的Intel电脑,第三个是运行在Fedora Linux上的AMD电脑,那么所有这些不同的系统都可以同时运行在单个集群上。
  • 可扩展性:Hadoop系统能够在不影响集群运行的情况下,在集群中添加或删除节点/节点和硬件组件。这里指的是可扩展性,这是Hadoop系统的重要功能之一。
  • Hadoop生态系统概述

    ,其中包括:

    HDFS(Hadoop分布式文件系统)

  • Apache MapReduce
  • 阿帕奇猪
  • 数据库
  • 阿帕奇蜂房
  • Apache Sqoop
  • 阿帕奇水槽
  • 阿帕奇动物园管理员
  • 阿帕奇卡夫卡
  • 阿帕奇Oozie
  • HDFS(Hadoop分布式文件系统):HDFS执行Hadoop框架中最重要的工作。它同时分发数据并将其存储在集群中的每个节点上。这个过程减少了在磁盘上存储数据的总时间。

    MapReduce:Hadoop MapReduce是系统的另一个重要组成部分,百特网络集群中存储的大量数据就位于这里。它允许并行处理存储在HDFS的所有数据。而且通过集群中的大规模可扩展性解决了处理成本高的问题。

    Apache Pig (Pig是Hadoop生态系统的ETL):是一种高级脚本语言,用于为Hadoop集群中的大型数据集编写数据分析程序。Pig使开发人员能够生成查询执行例程来分析大型数据集。脚本语言叫猪拉丁,猪的关键部分,第二个关键部分是编译器。

    Apache h base(OLTP/no SQL)来源:它是一个面向列的数据库,支持实时运行HDFS。它可以处理大型数据库表,即具有数百万行和列的文件。HBase的一个重要用途是有效地使用主节点来管理区域服务器。

    Apache Hive(Hive是Hadoop上的SQL引擎):通过一个类似SQL的接口,Hive允许对HDFS的数据进行平方处理。SQL的Hive版本称为HiveQL。

    Apache Sqoop(从RDBMS [SQL source]到Hadoop的数据导入/导出):是一个可以帮助从Hadoop向其他关系数据库管理系统导入和导出数据的应用程序。它可以传输大量数据。Sqoop基于连接器架构,支持插件与新的外部系统建立连接。

    Apache Flume(从非结构化数据(社交媒体网站)导入的数据)/内置于Hadoop的数据):这是一个允许将流数据存储在Hadoop集群中的应用程序。例如,将数据写入日志文件就是流式数据的一个很好的例子。

    Apache Zookeeper(一个在集群环境中使用的协调工具):它的作用是管理上述应用之间的协调,使它们能够在Hadoop生态系统中高效运行。

    Hadoop–HDFS守护进程的函数

    Hadoop系统基于主从架构原理工作。

    名称节点:是主节点,在实体中是单一的。它负责存储HDFS元数据,该元数据跟踪存储在HDFS的所有文件。元数据中存储的信息类似于文件名、文件的权限、文件的授权用户和文件的存储位置。这些信息存储在RAM中,通常称为文件系统元数据。

    数据节点:是从节点,有多个编号。数据节点负责根据名称节点的指令存储和检索数据。数据节点会间歇性地向名称节点报告其当前状态以及存储的所有文件。一个节点存储每个文件的多个副本。

    次名节点:有一个次名节点支持主名节点存储元数据。当名称节点由于元数据损坏或任何其他原因出现故障时,辅助名称节点可以防止整个集群出现故障。

    辅助名称节点指示名称节点创建并发送fsimage和editlog文件,然后辅助名称节点创建压缩的fsimage文件。然后,压缩文件被传输回tge name节点并被重命名。这个过程每小时重复一次,或者在editlog文件超过64MB时重复一次。

    本文地址:http://www.diemang.com/post/24372.html

    转载请注明原文地址:https://juke.outofmemory.cn/read/190638.html

    最新回复(0)