woodwork.statistics_utils.infer_frequency#
- woodwork.statistics_utils.infer_frequency(observed_ts: Series, debug=False, window_length=15, threshold=0.9)[源]#
推断给定 Pandas Datetime Series 的频率。
- 参数:
series (pd.Series) – 用于直方图的数据
debug (boolean) – 一个标志,用于确定是否应返回调试对象(如下所述)。
window_length (int) – 用于确定最有可能的候选频率的窗口长度。默认为 15。如果时间序列有噪声且需要推断,则输入时间序列的最小长度需要大于此窗口。
threshold (float) – 一个介于 0 和 1 之间的值。给定包含最常出现频率的窗口数 (N) 和总窗口数 (T),如果 N/T > threshold,则将最常出现频率确定为最有可能的频率,否则为 None。
- 返回值:
pandas offset 别名字符串(D, M, Y 等)或 None(如果数据中不存在统一频率)。 debug (dict): 一个字典,如果无法推断频率,则包含调试信息。此字典具有以下属性
actual_range_start (str): 根据 ISO 8601 表示输入观测时间序列中的最小时间戳的字符串。
actual_range_end (str): 根据 ISO 8601 表示输入观测时间序列中的最大时间戳的字符串。
message (str): 描述输入 Datetime series 的任何问题的消息
estimated_freq (str): None
estimated_range_start (str): 根据 ISO 8601 表示输出估计时间序列中的最小时间戳的字符串。
estimated_range_end (str): 根据 ISO 8601 表示输出估计时间序列中的最大时间戳的字符串。
duplicate_values (list(RangeObject)): 重复时间戳的 RangeObject 列表
missing_values (list(RangeObject)): 缺失时间戳的 RangeObject 列表
extra_values (list(RangeObject)): 额外时间戳的 RangeObject 列表
nan_values (list(RangeObject)): NaN 时间戳的 RangeObject 列表
range 对象包含以下信息
dt: 此范围内第一个时间戳的 ISO 8601 格式字符串
- idx: 此范围内第一个时间戳的索引
对于重复值和额外值,idx 是相对于观测数据的
对于缺失值,idx 是相对于估计数据的。
range: 此范围的长度。
- 返回类型:
inferred_freq (str)