woodwork.table_accessor.WoodworkTableAccessor.describe_dict#

WoodworkTableAccessor.describe_dict(include: Sequence[Union[str, LogicalType]] = None, callback: Callable[[int, int, int, str, float], Any] = None, results_callback: Callable[[DataFrame, Series], Any] = None, extra_stats: bool = False, bins: int = 10, top_x: int = 10, recent_x: int = 10) Dict[str, dict][source]#

计算 DataFrame 中包含的数据的统计信息。

参数:
  • include (list[strLogicalType], optional) — 过滤要包含在返回的统计信息中的列。可以是列名、语义标签、逻辑类型或这三者任意组合的列表。它遵循最广泛的规范,优先考虑逻辑类型,然后是语义标签,最后是列名。如果没有找到匹配的列,将返回一个空的 DataFrame。

  • callback (callable, optional) —

    用于接收增量更新的回调函数。具有以下参数:

    • update (int): 自上次调用以来的进度变化

    • progress (int): 当前计算进度

    • total (int): 总计算次数

    • unit (str): 进度/总数的测量单位

    • time_elapsed (float): 自调用开始以来经过的总时间(秒)

  • results_callback (callable, optional) —

    用于接收中间结果的回调函数。具有以下参数:

    • results_so_far (pd.DataFrame): 迄今为止计算出的完整 DataFrame

    • most_recent_calculation (pd.Series): 最近一列的计算结果

  • extra_stats (bool) — 如果为 True,将计算数值列的直方图、分类列的 top 值以及日期时间列最近值的计数。如果整数列的值范围小于或等于用于计算直方图的 bin 数量,它还将计算该值范围内的计数。输出可以通过 bins、top_x 和 recent_x 参数控制。

  • bins (int) — 计算数值列直方图时使用的 bin 数量。默认为 10。除非 extra_stats=True,否则将被忽略。

  • top_x (int) — 获取分类列中最常出现的值时返回的项目数量。默认为 10。除非 extra_stats=True,否则将被忽略。

  • recent_x (int) — 计算日期时间列中最近日期的计数时返回的值数量。默认为 10。除非 extra_stats=True,否则将被忽略。

返回值:

一个字典,其中包含数据中每列或与 include 中指定的逻辑类型、语义标签或列名匹配的每列的键,以及一个包含该列相关统计信息的字典作为值。

返回类型:

Dict[str -> dict]