woodwork.statistics_utils.infer_frequency#

woodwork.statistics_utils.infer_frequency(observed_ts: Series, debug=False, window_length=15, threshold=0.9)[源]#

推断给定 Pandas Datetime Series 的频率。

参数:
  • series (pd.Series) – 用于直方图的数据

  • debug (boolean) – 一个标志,用于确定是否应返回调试对象(如下所述)。

  • window_length (int) – 用于确定最有可能的候选频率的窗口长度。默认为 15。如果时间序列有噪声且需要推断,则输入时间序列的最小长度需要大于此窗口。

  • threshold (float) – 一个介于 0 和 1 之间的值。给定包含最常出现频率的窗口数 (N) 和总窗口数 (T),如果 N/T > threshold,则将最常出现频率确定为最有可能的频率,否则为 None。

返回值:

pandas offset 别名字符串(D, M, Y 等)或 None(如果数据中不存在统一频率)。 debug (dict): 一个字典,如果无法推断频率,则包含调试信息。此字典具有以下属性

  • actual_range_start (str): 根据 ISO 8601 表示输入观测时间序列中的最小时间戳的字符串。

  • actual_range_end (str): 根据 ISO 8601 表示输入观测时间序列中的最大时间戳的字符串。

  • message (str): 描述输入 Datetime series 的任何问题的消息

  • estimated_freq (str): None

  • estimated_range_start (str): 根据 ISO 8601 表示输出估计时间序列中的最小时间戳的字符串。

  • estimated_range_end (str): 根据 ISO 8601 表示输出估计时间序列中的最大时间戳的字符串。

  • duplicate_values (list(RangeObject)): 重复时间戳的 RangeObject 列表

  • missing_values (list(RangeObject)): 缺失时间戳的 RangeObject 列表

  • extra_values (list(RangeObject)): 额外时间戳的 RangeObject 列表

  • nan_values (list(RangeObject)): NaN 时间戳的 RangeObject 列表

range 对象包含以下信息

  • dt: 此范围内第一个时间戳的 ISO 8601 格式字符串

  • idx: 此范围内第一个时间戳的索引
    • 对于重复值和额外值,idx 是相对于观测数据的

    • 对于缺失值,idx 是相对于估计数据的。

  • range: 此范围的长度。

返回类型:

inferred_freq (str)