woodwork.table_accessor.WoodworkTableAccessor.dependence_dict#

WoodworkTableAccessor.dependence_dict(measures='all', num_bins=10, nrows=None, include_index=False, include_time_index=False, callback=None, extra_stats=False, min_shared=25, random_seed=0, max_nunique=6000, target_col=None)[源代码]#

计算 DataFrame 中所有支持测量依赖关系的列对之间的依赖度量。支持布尔、类别、日期时间和数值数据。请参阅 woodwork.utils.get_valid_mi_types 和 woodwork.utils.get_valid_pearson_types 获取支持的逻辑类型的完整列表。

参数：

dataframe (pd.DataFrame) – 包含 Woodwork 类型信息的待计算依赖关系的 DataFrame。
measures (list 或 str) –
要计算的依赖度量。可以提供度量列表以一次计算多个度量。有效的度量字符串：
- ”pearson”: 计算 Pearson 相关系数
- ”mutual_info”: 计算列之间的互信息
- ”spearman”: 计算 Spearman 相关系数
- ”max”: 对于每对列，取 max(abs(pearson), abs(spearman), mutual)
- ”all”: 包括 “pearson”, “mutual_info”, “spearman”, 和 “max” 的列
num_bins (int) – 确定用于将数值特征转换为类别特征的 bin 数量。默认为 10。Pearson 计算不使用 binning。
nrows (int) – 用于确定依赖关系的采样行数。如果指定，则从数据中采样所需的行数。默认为使用所有行。
include_index (bool) – 如果为 True，则指定为索引的列（只要其逻辑类型对于测量依赖关系有效）将包含在内。如果为 False，则不考虑索引列。默认为 False。
include_time_index (bool) – 如果为 True，则指定为时间索引的列将包含在依赖关系测量中。如果为 False，则不考虑时间索引列。默认为 False。
callback (callable, 可选) –
用于接收增量更新的函数。具有以下参数：
- update (int): 自上次调用以来的进度变化
- progress (int): 到目前为止的计算进度
- total (int): 总共需要进行的计算次数
- unit (str): 进度/总量的测量单位
- time_elapsed (float): 自调用开始以来经过的总时间（秒）
extra_stats (bool) – 如果为 True，则将在 DataFrame 中包含额外的列 “shared_rows”，记录列对共享的非空行数。默认为 False。如果使用 “max” 度量，将添加一列 “measure_used”，记录 Pearson 或互信息是否是特定行的最大依赖关系。
min_shared (int) – 计算所需的共享非空行数。少于此行数的将被认为过于稀疏而无法准确测量，并将返回 NaN 值。必须为非负数。默认为 25。
random_seed (int) – 随机数生成器的种子。默认为 0。
max_nunique (int) – 所有大型类别列（> 800 个唯一值）的总最大唯一值数。将删除类别列，直到满足此数量或仅剩下一个大型类别列。默认为 6000。
target_col (str) – 目标的列名。如果提供，将只计算其他列与此目标列之间的依赖关系字典。目标列在返回结果中将是 column_2。默认为 None。

返回：

一个列表，其中包含字典，字典包含键 column_1、column_2 和指定依赖度量的键。该列表按第一个指定的度量降序排序。依赖信息值介于 0（无依赖）和 1（完全依赖）之间。对于 Pearson 和 Spearman，值范围为 -1 到 1，但 0 仍然表示无依赖。

返回类型：

list(dict)