PySpark SparkFiles

2024 年 8 月 29 日 | 阅读 2 分钟

PySpark 提供了使用 sc.addFile 上传文件的功能。 我们还可以使用 SparkFiles.get 获取工作目录的路径。 此外,为了解析通过 SparkContext.addFile() 添加的文件的路径,SparkFiles 中提供了以下类型的类方法,例如

  • get(filename)
  • getrootdirectory()

注意:SparkFiles 仅包含可用作所需内容的类方法。 用户不应创建 SparkFiles 实例。

让我们详细了解类方法。

PySpark SparkFiles 的类方法

  • get(filename)

get(filename) 指定通过 SparkContext.addFile() 添加的文件的路径。

  • getrootdirectory()

此类方法指定根目录的路径。 基本上,它包含通过 SparkContext.addFile() 添加的整个文件。


下一个主题PySpark StorageLevel