woodwork.table_accessor.WoodworkTableAccessor.init_with_partial_schema#
- WoodworkTableAccessor.init_with_partial_schema(schema: Optional[TableSchema] = None, index: Optional[str] = None, time_index: Optional[str] = None, logical_types: Optional[Dict[Hashable, Optional[Union[str, LogicalType]]]] = None, ignore_columns: Optional[List[str]] = None, already_sorted: Optional[bool] = False, name: Optional[str] = None, semantic_tags: Optional[Dict[Hashable, Union[str, List[str], Set[str]]]] = None, table_metadata: Optional[dict] = None, column_metadata: Optional[Dict[Hashable, dict]] = None, use_standard_tags: Optional[Union[bool, Dict[Hashable, bool]]] = None, column_descriptions: Optional[Dict[Hashable, str]] = None, column_origins: Optional[Union[str, Dict[Hashable, str]]] = None, null_invalid_values: Optional[bool] = False, validate: Optional[bool] = True, **kwargs) None [source]#
使用部分模式初始化 DataFrame 的 Woodwork 类型信息。
- 逻辑类型优先级
在
logical_types
中指定的类型在
partial_schema
中指定的类型由
ww.type_system.infer_logical_type
推断的类型
- 其他信息优先级
传入的参数
在
partial_schema
中指定的值
- 参数:
schema (Woodwork.TableSchema, 可选) – 用于 DataFrame 的类型信息,替代执行推断。指定的参数将覆盖模式的类型信息。
index (str, 可选) – 索引列的名称。
time_index (str, 可选) – 时间索引列的名称。
logical_types (Dict[str -> LogicalType], 可选) – 将 DataFrame 中的列名映射到该列的 LogicalType 的字典。在此字典中将列的逻辑类型设置为 None 将强制推断一个逻辑类型。
ignore_columns (list[str] 或 set[str], 可选) – 在推断逻辑类型时忽略的列列表。如果列名包含在此列表中,则它不能是 logical_types 字典参数的一部分,并且它必须是 DataFrame 现有模式的一部分。当某列已推断出逻辑类型且其物理数据类型自上次推断以来未发生变化时,可以使用此参数。
already_sorted (bool, 可选) – 指示输入 DataFrame 是否已按时间索引排序。如果为 False,将首先按 time_index 对 DataFrame 排序,然后按 index 排序(仅适用于 pandas DataFrame)。默认为 False。
name (str, 可选) – 用于标识 DataFrame 的名称。
semantic_tags (dict, 可选) – 将 Woodwork 中的列名映射到该列的语义标签的字典。字典中的键应为对应列名的字符串。指定字典值有两种选项:(str):如果只设置一个语义标签,可以使用单个字符串作为值。(list[str] 或 set[str]):如果设置多个标签,可以使用字符串列表或集合作为值。对于未包含在字典中的任何列,语义标签将设置为空集。
table_metadata (Dict[str -> json serializable], 可选) – 包含 Woodwork 额外元数据的字典。
column_metadata (Dict[Hashable, dict], 可选) – 将列名映射到该列的元数据字典的字典。
use_standard_tags (bool, Dict[str -> bool], 可选) – 确定是否根据为列指定的逻辑类型向列添加标准语义标签。如果提供单个布尔值,则将相同的 use_standard_tags 值应用于所有列。可以使用字典为单个列指定
use_standard_tags
值。未指定的列将使用默认值 True。column_descriptions (Dict[Hashable, str], 可选) – 将列名映射到列描述的字典。
column_origins (str, Dict[Hashable, str], 可选) – 每列的来源。如果提供字符串,则将其用作所有列的来源。可以使用字典为单个列设置来源。
validate (bool, 可选) – 是否应进行参数和数据验证。默认为 True。警告:仅当已知参数和数据有效时才应设置为 False。由于使用无效输入跳过验证而导致的任何错误可能不易理解。