woodwork.table_accessor.WoodworkTableAccessor.dependence_dict#
- WoodworkTableAccessor.dependence_dict(measures='all', num_bins=10, nrows=None, include_index=False, include_time_index=False, callback=None, extra_stats=False, min_shared=25, random_seed=0, max_nunique=6000, target_col=None)[源代码]#
计算 DataFrame 中所有支持测量依赖关系的列对之间的依赖度量。支持布尔、类别、日期时间和数值数据。请参阅 woodwork.utils.get_valid_mi_types 和 woodwork.utils.get_valid_pearson_types 获取支持的逻辑类型的完整列表。
- 参数:
dataframe (pd.DataFrame) – 包含 Woodwork 类型信息的待计算依赖关系的 DataFrame。
measures (list 或 str) –
要计算的依赖度量。可以提供度量列表以一次计算多个度量。有效的度量字符串:
”pearson”: 计算 Pearson 相关系数
”mutual_info”: 计算列之间的互信息
”spearman”: 计算 Spearman 相关系数
”max”: 对于每对列,取 max(abs(pearson), abs(spearman), mutual)
”all”: 包括 “pearson”, “mutual_info”, “spearman”, 和 “max” 的列
num_bins (int) – 确定用于将数值特征转换为类别特征的 bin 数量。默认为 10。Pearson 计算不使用 binning。
nrows (int) – 用于确定依赖关系的采样行数。如果指定,则从数据中采样所需的行数。默认为使用所有行。
include_index (bool) – 如果为 True,则指定为索引的列(只要其逻辑类型对于测量依赖关系有效)将包含在内。如果为 False,则不考虑索引列。默认为 False。
include_time_index (bool) – 如果为 True,则指定为时间索引的列将包含在依赖关系测量中。如果为 False,则不考虑时间索引列。默认为 False。
callback (callable, 可选) –
用于接收增量更新的函数。具有以下参数:
update (int): 自上次调用以来的进度变化
progress (int): 到目前为止的计算进度
total (int): 总共需要进行的计算次数
unit (str): 进度/总量的测量单位
time_elapsed (float): 自调用开始以来经过的总时间(秒)
extra_stats (bool) – 如果为 True,则将在 DataFrame 中包含额外的列 “shared_rows”,记录列对共享的非空行数。默认为 False。如果使用 “max” 度量,将添加一列 “measure_used”,记录 Pearson 或互信息是否是特定行的最大依赖关系。
min_shared (int) – 计算所需的共享非空行数。少于此行数的将被认为过于稀疏而无法准确测量,并将返回 NaN 值。必须为非负数。默认为 25。
random_seed (int) – 随机数生成器的种子。默认为 0。
max_nunique (int) – 所有大型类别列(> 800 个唯一值)的总最大唯一值数。将删除类别列,直到满足此数量或仅剩下一个大型类别列。默认为 6000。
target_col (str) – 目标的列名。如果提供,将只计算其他列与此目标列之间的依赖关系字典。目标列在返回结果中将是 column_2。默认为 None。
- 返回:
一个列表,其中包含字典,字典包含键 column_1、column_2 和指定依赖度量的键。该列表按第一个指定的度量降序排序。依赖信息值介于 0(无依赖)和 1(完全依赖)之间。对于 Pearson 和 Spearman,值范围为 -1 到 1,但 0 仍然表示无依赖。
- 返回类型:
list(dict)