啊嘎哇在线工具箱

"Spark 编程指南"的目录

Spark 编程介绍

Spark 快速入门

Spark 编程指南

引入 Spark

初始化 Spark

Spark 共享变量

Spark 快速上手

Spark 独立应用程序

Spark Shell

Spark 运行程序

Spark RDDs

Spark 并行集合

Spark 外部数据集

Spark RDD 操作

Spark RDD持久化

Spark Streaming

Spark Streaming示例

Spark Streaming基本概念

Spark Streaming关联

初始化StreamingContext

Spark Streaming离散流

输入DStreams

DStream中的转换

DStream的输出操作

DStreams缓存或持久化

Spark Streaming Checkpointing

Spark Streaming部署应用程序

Spark Streaming监控应用程序

Spark Streaming性能调优

Spark Streaming减少批数据的执行时间

Spark Streaming设置正确的批容量

Spark Streaming内存调优

Spark Streaming容错语义

Spark SQL

Spark SQL开始

Spark SQL性能调优

Spark SQL其他接口

编写语言集成(Language-Integrated)的相关查询

Spark SQL数据类型

Spark SQL数据源

Spark SQL RDDs

Spark SQL parquet文件

Spark SQL JSON数据集

Spark SQL Hive表

GraphX编程指南

Spark GraphX开始

Spark GraphX图算法

Spark GraphX例子

Spark GraphX提交应用程序

独立运行Spark

在yarn上运行Spark

Spark GraphX属性图

Spark配置

Spark GraphX图操作符

Spark GraphX Pregel API

Spark GraphX图构造者

Spark GraphX顶点和边RDDs

Spark 编程指南 Spark SQL

2024-02-25 开发教程 Spark 编程指南匿名 3℃

Spark SQL

Spark SQL允许Spark执行用SQL, HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。SchemaRDDs由行对象组成，行对象拥有一个模式（scheme）来描述行中每一列的数据类型。SchemaRDD与关系型数据库中的表很相似。可以通过存在的RDD、一个Parquet文件、一个JSON数据库或者对存储在Apache Hive中的数据执行HiveSQL查询中创建。

本章的所有例子都利用了Spark分布式系统中的样本数据，可以在spark-shell中运行它们。

开始
数据源
RDDs
parquet文件
JSON数据集
Hive表
性能调优
其它SQL接口
编写语言集成(Language-Integrated)的相关查询
Spark SQL数据类型

上一节： Spark Streaming容错语义

下一节： Spark SQL开始