woodwork.table_accessor.WoodworkTableAccessor.init#

WoodworkTableAccessor.init(**kwargs)[源]#

使用部分模式初始化 DataFrame 的 Woodwork 类型信息。

逻辑类型优先级

在 logical_types 中指定的类型
在 partial_schema 中指定的类型
由 ww.type_system.infer_logical_type 推断的类型

其他信息优先级

传入的参数
在 partial_schema 中指定的值

参数:

schema (Woodwork.TableSchema, 可选) – 用于 DataFrame 的类型信息，而不是执行推断。指定的参数将覆盖模式的类型信息。
index (str, 可选) – 索引列的名称。
time_index (str, 可选) – 时间索引列的名称。
logical_types (Dict[str -> LogicalType], 可选) – 将 DataFrame 中的列名映射到该列的 LogicalType 的字典。在此字典中将列的逻辑类型设置为 None 将强制推断一个逻辑类型。
ignore_columns (list[str] 或 set[str], 可选) – 忽略推断逻辑类型的列列表。如果一个列名包含在此列表中，则它不能作为 logical_types 字典参数的一部分，并且它必须是 dataframe 现有模式的一部分。当一个列的逻辑类型已经推断出来，并且自上次推断以来其物理 dtype 预计没有改变时，可以使用此参数。
already_sorted (bool, 可选) – 指示输入 DataFrame 是否已按时间索引排序。如果为 False，将首先按 time_index 然后按 index 排序 dataframe (仅限 pandas DataFrame)。默认为 False。
name (str, 可选) – 用于标识 DataFrame 的名称。
semantic_tags (dict, 可选) – 将 Woodwork 中的列名映射到该列的语义标签的字典。字典中的键应为与列名对应的字符串。指定字典值有两种选项：(str)：如果只设置一个语义标签，可以使用单个字符串作为值。(list[str] 或 set[str])：如果设置多个标签，可以使用字符串列表或集合作为值。未包含在字典中的任何列的语义标签将被设置为空集。
table_metadata (Dict[str -> json 可序列化], 可选) – 包含 Woodwork 额外元数据的字典。
column_metadata (Dict[str -> Dict[str -> json 可序列化]], 可选) – 将列名映射到该列元数据字典的字典。
use_standard_tags (bool, Dict[str -> bool], 可选) – 确定是否根据指定列的逻辑类型向列添加标准语义标签。如果提供单个布尔值，则将相同的 use_standard_tags 值应用于所有列。可以使用字典为单个列指定 use_standard_tags 值。未指定的列将使用默认值 True。
column_descriptions (Dict[str -> str], 可选) – 将列名映射到列描述的字典。
column_origins (str, Dict[str -> str], 可选) – 每列的来源。如果提供字符串，则将其用作所有列的来源。可以使用字典为单个列设置来源。
validate (bool, 可选) – 是否应进行参数和数据验证。默认为 True。警告：仅当已知参数和数据有效时才应设置为 False。因使用无效输入跳过验证而导致的任何错误可能不易理解。