PySpark StatusTracker (jtracker)

2024 年 8 月 29 日 | 阅读 2 分钟

PySpark 提供了低级别的状态报告 API，这些 API 用于监视作业和阶段的进度。我们可以使用这些 API 跟踪作业。这些 API 故意提供非常弱的兼容性语义，因此这些 API 的用户应谨慎处理缺失的信息。

作业阶段的 ID 可能会被状态跟踪器知道，但不会提供有关这些阶段的信息。在这种情况下，PySpark 提供 getStageInfo，它为有效的阶段 ID 返回 none。

API spark.ui.retainedStages 和 spark.ui.retainedjobs 将提供有关当前作业和阶段的信息。

def __init__(self, jtracker):
self._jtracker = jtracker

getActiveJobsIds()

它返回一个数组，其中包含所有活动作业的 ID。语法如下所示

def getActivateJobsIds(self):
	return sorted((list(self.jtracker.getActivateJobs())))

getActiveStageIds()

它返回一个数组，其中包含所有活动阶段的 ID。语法如下所示

def getActiveStageIds(self):
	return sorted(list(self.jtracker.getActiveStageIds)

getJobIdsForGroup(jobGroup = None)

此函数用于获取单个作业组中的所有已知作业。这些作业以列表的形式存在。如果 jobgroup 为 None，则它将返回与作业组无关的所有类型的作业。

它返回可能处于运行、失败和已完成状态的作业，但顺序可能有所不同。考虑以下代码。

def getJobIdsForGroup(self, jobGroup=None):
	return list(self._jtracker.getJobIdsForGroup(jobGroup))

getJobInfo(jobId)

有时由于垃圾回收，上述函数无法获取作业信息，对于这些情况，我们使用 getJobInfo。它返回一个 SparkJobInfo 对象，或者 None。

def getJobinfo(self,jobId):
	job = self.jtracker.getJobInfo(jobId)
	if job is not None:
	return SparkJobInfo (jobId,job.stageIds())

getStageInfo(stageId)

同样，有时由于垃圾回收，它无法找到作业信息，然后使用 getStageinfo(stageId)。它返回一个 SparkJobInfo 对象，或 None。

def getStageInfo(self, stageId):
       stage1 = self._jtracker.getStageInfo()	
       if(stage is not None):
       # Extract them in batch for best performance
       attrs = [getattr(stage,f) () for f in SparkStageInfo._fields[1:]]
       return SparkStageInfo(stageId,*attrs) 

下一主题PySpark 序列化器

PySpark StatusTracker (jtracker)

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

PySpark 教程

PySpark StatusTracker (jtracker)

相关帖子

PySpark 教程

PySpark GroupBy 平均值

PySpark UDF

PySpark RDD

PySpark 安装

PySpark 数据框：选择列

PySpark unionAll

广播和累加器

PySpark StorageLevel

PySpark 序列化器

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器