HBase 是什么
HBase是一个开源的、分布式的、版本化的非关系型数据库,它利用Hadoop分布式系统(Hadoop Distributed File System,HDFS)提供分布式数据存储。 HBase是一个可以进行随机访问的存取和检索的存储平台,存储结构化和半结构化的数据,因此一般的网站可以将网页内容和日志信息都存在HBase里。
HBase是一个开源的、分布式的、版本化的非关系型数据库,它利用Hadoop分布式系统(Hadoop Distributed File System,HDFS)提供分布式数据存储。 HBase是一个可以进行随机访问的存取和检索的存储平台,存储结构化和半结构化的数据,因此一般的网站可以将网页内容和日志信息都存在HBase里。
一、hadoop yarn 简介 Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,由 YARN 进行统一地管理和资源分配。 二、YARN架构 1. ResourceManager ResourceManager 通常在独立的机器上以后台进程...
1. 显示当前目录结构 ```plain text 显示当前目录结构 hadoop fs -ls 递归显示当前目录结构 hadoop fs -ls -R 显示根目录下内容 hadoop fs -ls / **2. 创建目录** ```plain text # 创建目录 hadoop fs -mkdir <path> # 递归创建目录 hadoop fs -mk...
一、 简介 想要使用 HDFS API,需要导入依赖 hadoop-client。如果是 CDH 版本的 Hadoop,还需要额外指明其仓库地址: <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www....
一、MapReduce概述 Hadoop MapReduce 是一个分布式计算框架,用于编写批处理应用程序。编写好的程序可以提交到 Hadoop 集群上用于并行处理大规模的数据集。 MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由 map 以并行的方式处理,框架对 map 的输出进行排序,然后输入到 reduce 中。MapReduce 框架专门用于 <key,v...
一、集群规划 这里搭建一个 3 节点的 Hadoop 集群,其中三台主机均部署 DataNode 和 NodeManager 服务,但只有 hadoop001 上部署 NameNode 和 ResourceManager 服务。 二、前置条件 Hadoop 的运行依赖 JDK,需要预先安装。其安装步骤单独整理至: Linux 下 JDK 的安装 三、配置免密登录 3....
一、前置条件 Hadoop 的运行依赖 JDK,需要预先安装,安装步骤见: Linux 下 JDK 的安装 二、配置免密登录 Hadoop 组件之间需要基于 SSH 进行通讯。 2.1 配置映射 配置 ip 地址和主机名映射: ```plain text vim /etc/hosts 文件末尾增加 192.168.43.202 hadoop001 ### 2.2 生...
一、介绍 HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。 二、HDFS 设计原理 2.1 HDFS 架构 HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 DataNode(DN) 组成: NameNode ...
一、版本说明 Spark 针对 Kafka 的不同版本,提供了两套整合方案:spark-streaming-kafka-0-8 和 spark-streaming-kafka-0-10,其主要区别如下: spark-streaming-kafka-0-8 spark-streaming-kafka-0-10 ...
一、简介 Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 二、推送式方法 在推送式方法 (Flume-style Push-based Approach) 中,Spark Streaming 程序需要对某台服务器的某个端口进...