抱歉,您的浏览器无法访问本站

本页面需要浏览器支持(启用)JavaScript


了解详情 >
image

sparkcore 的任务执行流程分析:

  • 构建DAG
  • DAGScheduler —> DAG —> TaskSet (Task set)

补充:

  1. executor ExecutorBacked actor
  2. driver SchedulerBackend actor
image

Spark 核心概念复习

2个重要的知识:

  1. new SparkContext (sparkConf)
  2. collect(). action算子的提交任务机制,出发任务执行核心

HDFS - File - block - mapreduce line
HDFS - RDD - partition -

image
image
image
image

Spark:

  1. Application
  2. Driver Program
  3. ClusterManager
  4. SparkContext 整个应用上下文
  5. RDD
  6. DAGScheduler
  7. TaskScheduler
  8. Worker
  9. Executor
  10. Stage
  11. Job
  12. Task
  13. SparkEnv : 线程级别上下文, 存储运行时重要组件的引用

SparkEnv:

MapOutPutTracker

SparkConf

课程结束:

  1. 大数据存储
  2. 大数据计算
  3. 大数据实时增删改查

MapReduce 分布式计算的鼻祖 模型 解决大数据集计算的通用思想

  1. 分而治之: 1个Application —> 多个task
  2. 临时结果汇总: 多个Task的数据进行最终的汇总处理

zookeeper

议会制 , 投票 , 少数服从多数

艺术来源于生活

kylin, spark, flink ----> mapreduce



Spark 任务执行流程详解

现在开始介绍SparkContext,SparkContext的初始化步骤如下:

最重要的三个属性:

  1. _dagScheduler ----> a
  2. _taskScheduler ----> TaskSchedulerImpl
  3. _schedulerBackend ----> StandaloneSchedulerBackend
image

Spark 任务提交流程:

Spark 任务提交流程
Spark 任务提交流程

图2:

image

Reference