woodwork.table_accessor.WoodworkTableAccessor.pearson_correlation_dict#

WoodworkTableAccessor.pearson_correlation_dict(nrows=None, include_index=False, include_time_index=False, callback=None, extra_stats=False, min_shared=25, random_seed=0)[source]#

计算 DataFrame 中所有支持相关性计算的列对之间的 Pearson 相关系数。适用于数字和日期时间数据。调用 woodwork.utils.get_valid_pearson_types 查看支持哪些逻辑类型。

参数：

nrows (int) – 确定相关性时用于采样的行数。如果指定，则从数据中采样所需的行数。默认为使用所有行。
include_index (bool) – 如果为 True，只要指定为索引的列的 LogicalType 有效用于相关性计算，就会包含该列。如果为 False，则不会计算索引列的 Pearson 相关性。默认为 False。
include_time_index (bool) – 如果为 True，则指定为时间索引的列将包含在相关性计算中。如果为 False，则不会计算时间索引列的 Pearson 相关性。默认为 False。
callback (callable, optional) – 用于接收增量更新的函数。具有以下参数： - update (int): 自上次调用以来的进度变化 - progress (int): 到目前为止的计算进度 - total (int): 要完成的总计算次数 - unit (str): 进度/总数的度量单位 - time_elapsed (float): 自调用开始以来经过的总时间（秒）
extra_stats (bool) – 如果为 True，将包含一个附加列“shared_rows”，记录列对共享的非空行数。默认为 False。
min_shared (int) – 计算所需的共享非空行数。少于此行数将被认为过于稀疏而无法准确测量，并将返回 NaN 值。必须是非负数。默认为 25。
random_seed (int) – 随机数生成器的种子。默认为 0。

返回：

一个列表，包含字典，字典中包含键 column_1、column_2 和 pearson，按相关系数降序排列。相关系数值在 -1 到 1 之间。

返回类型：

list(dict)