及附加组件的生态系统 2021 年 11 月 25 日 热门文章 Apache Hadoop 或俗称 Hadoop 是一个作为 开源 软件开发的大型项目它是可靠的、可扩展的并且以分布式方式计算。
Hadoop 软件是一个框架有助于
借助简单的编程模型通过计算机上的集群处理和分发大量数据或大数据。Hadoop 被设计为在单个服务器上运行到数千 新西兰 WhatsApp 号码数据 台机器上,提供本地计算和存储。
Hadoop并不依赖于硬件的类型来分发高性能的数据,而是软件本身被设计为能够在应用层检测和控制由硬件引起的错误。
从而能够正确地分发数据
Hadoop 易于用于在服务器集群中存储和处理海量数据。该软件可以通过API操作连接到NameNode,在Hadoop集群上存 海湾电话号码 储和收集各种格式的数据。然后NameNode将跟踪每个文件的文件结构和 块 位置,然后通过DataNode复制文件。
在查询数据时,Hadoop 使用由许多映射组成的 MapReduce,然后减少分布在整个 DataNode 上的 HDFS 上运行的任务。 映射任务 在每个 节点 上运行以控制传入文件,而 减速器 则负责聚合和组织最终输出。 多年来,Hadoop 生态系统正在显着增长。