woodwork.table_accessor.WoodworkTableAccessor.init#

WoodworkTableAccessor.init(**kwargs)[源]#

使用部分模式初始化 DataFrame 的 Woodwork 类型信息。

逻辑类型优先级
  1. logical_types 中指定的类型

  2. partial_schema 中指定的类型

  3. ww.type_system.infer_logical_type 推断的类型

其他信息优先级
  1. 传入的参数

  2. partial_schema 中指定的值

参数:
  • schema (Woodwork.TableSchema, 可选) – 用于 DataFrame 的类型信息,而不是执行推断。指定的参数将覆盖模式的类型信息。

  • index (str, 可选) – 索引列的名称。

  • time_index (str, 可选) – 时间索引列的名称。

  • logical_types (Dict[str -> LogicalType], 可选) – 将 DataFrame 中的列名映射到该列的 LogicalType 的字典。在此字典中将列的逻辑类型设置为 None 将强制推断一个逻辑类型。

  • ignore_columns (list[str] 或 set[str], 可选) – 忽略推断逻辑类型的列列表。如果一个列名包含在此列表中,则它不能作为 logical_types 字典参数的一部分,并且它必须是 dataframe 现有模式的一部分。当一个列的逻辑类型已经推断出来,并且自上次推断以来其物理 dtype 预计没有改变时,可以使用此参数。

  • already_sorted (bool, 可选) – 指示输入 DataFrame 是否已按时间索引排序。如果为 False,将首先按 time_index 然后按 index 排序 dataframe (仅限 pandas DataFrame)。默认为 False。

  • name (str, 可选) – 用于标识 DataFrame 的名称。

  • semantic_tags (dict, 可选) – 将 Woodwork 中的列名映射到该列的语义标签的字典。字典中的键应为与列名对应的字符串。指定字典值有两种选项:(str):如果只设置一个语义标签,可以使用单个字符串作为值。(list[str] 或 set[str]):如果设置多个标签,可以使用字符串列表或集合作为值。未包含在字典中的任何列的语义标签将被设置为空集。

  • table_metadata (Dict[str -> json 可序列化], 可选) – 包含 Woodwork 额外元数据的字典。

  • column_metadata (Dict[str -> Dict[str -> json 可序列化]], 可选) – 将列名映射到该列元数据字典的字典。

  • use_standard_tags (bool, Dict[str -> bool], 可选) – 确定是否根据指定列的逻辑类型向列添加标准语义标签。如果提供单个布尔值,则将相同的 use_standard_tags 值应用于所有列。可以使用字典为单个列指定 use_standard_tags 值。未指定的列将使用默认值 True。

  • column_descriptions (Dict[str -> str], 可选) – 将列名映射到列描述的字典。

  • column_origins (str, Dict[str -> str], 可选) – 每列的来源。如果提供字符串,则将其用作所有列的来源。可以使用字典为单个列设置来源。

  • validate (bool, 可选) – 是否应进行参数和数据验证。默认为 True。警告:仅当已知参数和数据有效时才应设置为 False。因使用无效输入跳过验证而导致的任何错误可能不易理解。