woodwork.table_accessor.WoodworkTableAccessor.spearman_correlation#

WoodworkTableAccessor.spearman_correlation(nrows=None, include_index=False, include_time_index=False, callback=None, extra_stats=False, min_shared=25, random_seed=0)[源代码]#

计算 DataFrame 中所有支持计算 Spearman 相关系数的列对之间的相关系数。适用于数值、有序和日期时间数据。调用 woodwork.utils.get_valid_spearman_types 查看支持的逻辑类型。

参数:
  • nrows (int) – 用于确定相关性的采样行数。如果指定,则从数据中采样所需行数。默认使用所有行。

  • include_index (bool) – 如果为 True,则指定为索引的列将被包括,只要其逻辑类型对相关性计算有效。如果为 False,则不会计算索引列的 Spearman 相关系数。默认为 False。

  • include_time_index (bool) – 如果为 True,则指定为时间索引的列将被包括在相关性计算中。如果为 False,则不会计算时间索引列的 Spearman 相关系数。默认为 False。

  • callback (callable, optional) – 用于接收增量更新的回调函数。包含以下参数:- update (int): 自上次调用以来的进度变化 - progress (int): 目前的计算进度 - total (int): 需要完成的总计算量 - unit (str): progress/total 的度量单位 - time_elapsed (float): 自调用开始以来经过的总时间(秒)。

  • extra_stats (bool) – 如果为 True,则结果 DataFrame 中将包含一个附加列“shared_rows”,记录列对共享的非空行数。默认为 False。

  • min_shared (int) – 计算所需的共享非空行数。少于此行数将被视为过于稀疏而无法准确测量,将返回 NaN 值。必须是非负数。默认为 25。

  • random_seed (int) – 随机数生成器的种子。默认为 0。

返回值:

一个包含 Spearman 相关系数的 DataFrame,包含列 column_1column_2spearman,按相关系数值降序排序。Spearman 值介于 -1 和 1 之间,0 表示无相关性。

返回类型:

pd.DataFrame