woodwork.table_accessor.WoodworkTableAccessor.describe#

WoodworkTableAccessor.describe(include: Optional[Sequence[Union[str, LogicalType]]] = None, callback: Optional[Callable[[int, int, int, str, float], Any]] = None, results_callback: Optional[Callable[[DataFrame, Series], Any]] = None) DataFrame[source]#

计算 DataFrame 中包含的数据的统计信息。

参数:
  • include (list[str or LogicalType], optional) – 过滤要包含在返回统计信息中的列。可以是列名、语义标签、逻辑类型的列表,或以上三者的任意组合。它遵循最广泛的规范。优先顺序为逻辑类型,然后是语义标签,最后是列名。如果没有找到匹配的列,将返回一个空 DataFrame。

  • callback (callable, optional) –

    用于接收增量更新的回调函数。具有以下参数:

    • update (int): 自上次调用以来的进度变化

    • progress (int): 当前计算的进度

    • total (int): 需要完成的总计算数

    • unit (str): 进度/总数的计量单位

    • time_elapsed (float): 自调用开始以来经过的总时间(秒)

  • results_callback (callable, optional) –

    用于接收中间结果的回调函数。具有以下参数:

    • results_so_far (pd.DataFrame): 截至目前已计算出的完整 DataFrame

    • most_recent_calculation (pd.Series): 最新计算列的结果

返回:

一个 DataFrame,包含数据的统计信息,或者包含 include 中指定逻辑类型、语义标签或列名的原始 DataFrame 的子集。

返回类型:

pd.DataFrame