Spark Streaming 与流处理
一、流处理 1.1 静态数据处理 在流处理之前,数据通常存储在数据库,文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop 采用 HDFS 进行数据存储,采用 MapReduce 进行数据查询或分析,这就是典型的静态数据处理架构。 1.2 流处理 而流处理则是直接对运动中的数据的处理,在接收数据时直接计算数据。 大多数数...
一、流处理 1.1 静态数据处理 在流处理之前,数据通常存储在数据库,文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop 采用 HDFS 进行数据存储,采用 MapReduce 进行数据查询或分析,这就是典型的静态数据处理架构。 1.2 流处理 而流处理则是直接对运动中的数据的处理,在接收数据时直接计算数据。 大多数数...
一、案例引入 这里先引入一个基本的案例来演示流的创建:获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactId> <ve...
一、简单聚合 1.1 数据准备 ```plain text // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSession.builder().appName(“aggregations”).master(“local[2]”).getOrCreate() val emp...
一、简介 1.1 多数据源支持 Spark 支持以下六个核心数据源,同时 Spark 社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text files 注:以下所有测试文件均可从本仓库的resources 目录进行下载 1.2 读数据...
一、 数据准备 本文主要介绍 Spark SQL 的多表连接,需要预先准备测试数据。分别创建员工和部门的 Datafame,并注册为临时视图,代码如下: ```plain text val spark = SparkSession.builder().appName(“aggregations”).master(“local[2]”).getOrCreate() val empDF =...
一、Transformation spark 常用的 Transformation 算子如下表: Transformation 算子 Meaning(含义) map(func) 对原 RDD 中每个元素运用 func 函数,并生成新的 RDD filter(f...
今儿,我们来搭建一个 Spring 调试环境,目标是:启动 Spring 容器,解析 XML 配置,创建 Bean 对象。 为什么是 XML 配置,而不是注解呢? 使用 XML 配置来声明 Bean 的逻辑比较清晰,理解起来相对容易一些。 视频可见 B 站:https://www.bilibili.com/video/BV1yh411q7jb/ 1. 依赖工具 1.1 IDEA ...
本文主要基于 Spring 5.0.6.RELEASE 摘要: 原创出处 http://cmsblogs.com/?p=todo 「小明哥」,谢谢! 作为「小明哥」的忠实读者,「老艿艿」略作修改,记录在理解过程中,参考的资料。 spring.profiles.active 和 @Profile 这两个我相信各位都熟悉吧,主要功能是可以实现不同环境下(开发、测试、生产)参数配置的切换...
本文主要基于 Spring 5.0.6.RELEASE 摘要: 原创出处http://cmsblogs.com/?p=todo「小明哥」,谢谢! 上篇博客只是对 <font style="color:rgb(51, 51, 51);">ApplicationContext</font> 相关的接口做了一个简单的介绍,作为一个高富帅级别的 Spring 容器,它...
1. Bean 的转换过程 下面这张图演示了一个可用的 bean 是如何从 xml 配置文件中演变过来的。 2. ApplicationContext 的架构图 3. load BeanDefinition 的全流程 4. get Bean 的全流程