Pandas DataFrame.hist()

2025年3月17日 | 阅读 3 分钟

hist() 函数被定义为一种快速理解数据集中某些数值变量分布的方法。它将数值变量中的值划分为“箱子”。它计算落在每个箱子中的检查次数。这些箱子负责通过可视化箱子来快速直观地了解变量中值的分布。

我们可以使用 DataFrame.hist() 方法创建直方图,该方法是 matplotlib pyplot API 的封装器。

它也是一个快速访问概率分布的有用工具。

语法

参数

  • data: DataFrame。
    它是一个 pandas DataFrame 对象,用于保存数据。
  • column: 指的是一个字符串或序列。
    如果传递,它将用于将数据限制为列的子集。
  • by: 这是一个可选参数。如果传递,它将用于为独立组形成直方图。
  • grid: 这也是一个可选参数。用于显示轴网格线。默认值为 True。
  • xlabelsize: 指的是整数值。默认值为 None。用于指定 x 轴标签大小的变化。
  • xrot: 指的是浮点值。用于旋转 x 轴标签。默认值为 None。
  • ylabelsize: 指的是一个整数值。用于指定 y 轴标签大小的变化。
  • yrot: 指的是浮点值。用于旋转 y 轴标签。默认值为 None。
  • ax: Matplotlib 轴对象。
    它定义了我们需要绘制直方图的轴。默认值为 None。
  • sharex: 指的是布尔值。默认值为 True,如果 ax 为 None 则为 False。在子图中,如果值为 True,它共享 x 轴并将一些 x 轴标签设置为不可见。其默认值为 True。
    如果 ax 为 none,则传递 ax 时它返回 False。

注意: 同时传递 ax 和 sharex,它将更改所有子图中所有 x 轴标签。

  • sharey: 默认值为 False。在子图中为 True 的情况下,它共享 y 轴并将一些 y 轴标签设置为不可见。
  • figsize: 指的是创建图形的英寸大小。默认情况下,它使用 matplotlib.rcParams 中的值。
  • layout: 这是一个可选参数。它返回直方图布局的元组(行,列)。
  • bins: 默认值为 10。它指的是要使用的直方图箱子的数量。如果给出一个整数值,则它返回箱子 +1 箱子边缘的计算值。
  • **kwds: 指的是要传递给 matplotlib.pyplot.hist() 的所有其他绘图关键字参数。

返回值

它返回 matplotlib.AxesSubplot 或 numpy.ndarray。

示例 1

输出

Pandas DataFrame.hist()