woodwork.table_accessor.WoodworkTableAccessor.mutual_information_dict#

WoodworkTableAccessor.mutual_information_dict(num_bins=10, nrows=None, include_index=False, include_time_index=False, callback=None, extra_stats=False, min_shared=25, random_seed=0, max_nunique=6000)[source]#

计算 DataFrame 中所有支持互信息的列对之间的互信息。调用 woodwork.utils.get_valid_mi_types 可以查看哪些逻辑类型支持互信息。

参数：

num_bins (int) – 用于将数值特征转换为类别特征的箱数。默认为 10。
nrows (int) – 用于确定互信息时采样使用的行数。如果指定，则从数据中采样所需行数。默认为使用所有行。
include_index (bool) – 如果为 True，只要指定为索引的列其逻辑类型对于互信息计算有效，该列就会被包含。如果为 False，则不会计算索引列的互信息。默认为 False。
include_time_index (bool) – 如果为 True，指定为时间索引的列将包含在互信息计算中。如果为 False，则不会计算时间索引列的互信息。默认为 False。
callback (callable, optional) – 用于接收增量更新的函数。具有以下参数：- update (int)：自上次调用以来的进度变化 - progress (int)：到目前为止的计算进度 - total (int)：需要进行的计算总数 - unit (str)：进度/总数的度量单位 - time_elapsed (float)：自调用开始以来经过的总时间（秒）
extra_stats (bool) – 如果为 True，则数据框中将包含额外的列“shared_rows”，记录列对共享的非空行数。默认为 False。
min_shared (int) – 进行计算所需的共享非空行数。少于此行数将被视为过于稀疏而无法准确测量，将返回 NaN 值。必须是非负数。默认为 25。
random_seed (int) – 随机数生成器的种子。默认为 0。
max_nunique (int) – 所有大型类别列（> 800 个唯一值）的唯一值总数上限。类别列将被删除，直到达到此数量或只剩下一个大型类别列。默认为 6000。

返回值：

一个列表，其中包含字典，字典有键 column_1、column_2 和 mutual_info，按互信息降序排列。互信息值在 0（无互信息）和 1（完全依赖）之间。

返回类型：

list(dict)