woodwork.table_accessor.WoodworkTableAccessor.describe_dict#
- WoodworkTableAccessor.describe_dict(include: Sequence[Union[str, LogicalType]] = None, callback: Callable[[int, int, int, str, float], Any] = None, results_callback: Callable[[DataFrame, Series], Any] = None, extra_stats: bool = False, bins: int = 10, top_x: int = 10, recent_x: int = 10) Dict[str, dict] [source]#
计算 DataFrame 中包含的数据的统计信息。
- 参数:
include (list[str 或 LogicalType], optional) — 过滤要包含在返回的统计信息中的列。可以是列名、语义标签、逻辑类型或这三者任意组合的列表。它遵循最广泛的规范,优先考虑逻辑类型,然后是语义标签,最后是列名。如果没有找到匹配的列,将返回一个空的 DataFrame。
callback (callable, optional) —
用于接收增量更新的回调函数。具有以下参数:
update (int): 自上次调用以来的进度变化
progress (int): 当前计算进度
total (int): 总计算次数
unit (str): 进度/总数的测量单位
time_elapsed (float): 自调用开始以来经过的总时间(秒)
results_callback (callable, optional) —
用于接收中间结果的回调函数。具有以下参数:
results_so_far (pd.DataFrame): 迄今为止计算出的完整 DataFrame
most_recent_calculation (pd.Series): 最近一列的计算结果
extra_stats (bool) — 如果为 True,将计算数值列的直方图、分类列的 top 值以及日期时间列最近值的计数。如果整数列的值范围小于或等于用于计算直方图的 bin 数量,它还将计算该值范围内的计数。输出可以通过 bins、top_x 和 recent_x 参数控制。
bins (int) — 计算数值列直方图时使用的 bin 数量。默认为 10。除非 extra_stats=True,否则将被忽略。
top_x (int) — 获取分类列中最常出现的值时返回的项目数量。默认为 10。除非 extra_stats=True,否则将被忽略。
recent_x (int) — 计算日期时间列中最近日期的计数时返回的值数量。默认为 10。除非 extra_stats=True,否则将被忽略。
- 返回值:
一个字典,其中包含数据中每列或与
include
中指定的逻辑类型、语义标签或列名匹配的每列的键,以及一个包含该列相关统计信息的字典作为值。- 返回类型:
Dict[str -> dict]