API 参考#

WoodworkTableAccessor#

WoodworkTableAccessor(dataframe)

WoodworkTableAccessor.add_semantic_tags(...)

将指定的语义标签添加到列中,更新 Woodwork 类型信息。

WoodworkTableAccessor.dependence([measures, ...])

计算 DataFrame 中所有支持衡量依赖关系的列对之间的依赖度量。

WoodworkTableAccessor.dependence_dict([...])

计算 DataFrame 中所有支持衡量依赖关系的列对之间的依赖度量。

WoodworkTableAccessor.describe([include, ...])

计算 DataFrame 中包含的数据的统计信息。

WoodworkTableAccessor.describe_dict([...])

计算 DataFrame 中包含的数据的统计信息。

WoodworkTableAccessor.drop(columns[, inplace])

从 DataFrame 中删除指定的列。

WoodworkTableAccessor.iloc

基于整数位置的索引,用于按位置选择。

WoodworkTableAccessor.index

表的索引列

WoodworkTableAccessor.infer_temporal_frequencies([...])

推断每个时间列的观测频率(每日、双周、每年等)

WoodworkTableAccessor.init(**kwargs)

使用部分模式为 DataFrame 初始化 Woodwork 类型信息。

WoodworkTableAccessor.init_with_full_schema(schema)

使用完整模式为 DataFrame 初始化 Woodwork 类型信息。

WoodworkTableAccessor.init_with_partial_schema([...])

使用部分模式为 DataFrame 初始化 Woodwork 类型信息。

WoodworkTableAccessor.loc

按标签或布尔数组访问一组行。

WoodworkTableAccessor.logical_types

包含每列逻辑类型的字典

WoodworkTableAccessor.metadata

DataFrame 的元数据

WoodworkTableAccessor.mutual_information([...])

计算 DataFrame 中所有支持计算互信息的列对之间的互信息。

WoodworkTableAccessor.mutual_information_dict([...])

计算 DataFrame 中所有支持计算互信息的列对之间的互信息。

WoodworkTableAccessor.name

DataFrame 的名称

WoodworkTableAccessor.pearson_correlation([...])

计算 DataFrame 中所有支持计算相关性的列对之间的皮尔逊相关系数。

WoodworkTableAccessor.pearson_correlation_dict([...])

计算 DataFrame 中所有支持计算相关性的列对之间的皮尔逊相关系数。

WoodworkTableAccessor.physical_types

包含每列物理类型的字典

WoodworkTableAccessor.pop(column_name)

返回一个包含 Woodwork 类型信息的 Series 并将其从 DataFrame 中移除。

WoodworkTableAccessor.remove_semantic_tags(...)

移除提供的 semantic_tags 字典中任何列名的语义标签,更新 Woodwork 类型信息。

WoodworkTableAccessor.rename(columns[, inplace])

重命名 DataFrame 中的列,同时保留 Woodwork 类型信息。

WoodworkTableAccessor.reset_semantic_tags([...])

将指定列的语义标签重置为默认值。

WoodworkTableAccessor.schema

DataFrame 的 Woodwork 类型信息的副本。

WoodworkTableAccessor.select([include, ...])

创建一个已初始化 Woodwork 类型信息的 DataFrame,该 DataFrame 仅包含其逻辑类型和语义标签与包含或排除的类型和标签列表中指定的条件匹配的列。

WoodworkTableAccessor.semantic_tags

包含每列语义标签的字典

WoodworkTableAccessor.set_index(new_index)

设置 DataFrame 的索引列。

WoodworkTableAccessor.set_time_index(...)

设置时间索引。

WoodworkTableAccessor.set_types([...])

更新提供的类型字典中任何列名的逻辑类型和语义标签,更新 DataFrame 的 Woodwork 类型信息。

WoodworkTableAccessor.spearman_correlation([...])

计算 DataFrame 中所有支持计算相关性的列对之间的斯皮尔曼相关系数。

WoodworkTableAccessor.spearman_correlation_dict([...])

计算 DataFrame 中所有支持计算相关性的列对之间的斯皮尔曼相关系数。

WoodworkTableAccessor.time_index

表的时间索引列

WoodworkTableAccessor.to_disk(path[, ...])

将 Woodwork 表按 format 指定的格式写入 path 指定的位置。

WoodworkTableAccessor.to_dictionary()

获取 Woodwork 类型信息的字典表示。

WoodworkTableAccessor.types

包含模式的物理类型、逻辑类型和语义标签的 DataFrame。

WoodworkTableAccessor.use_standard_tags

包含表中每列 use_standard_tags 设置的字典

WoodworkTableAccessor.validate_logical_types([...])

根据逻辑类型验证 DataFrame。

WoodworkTableAccessor.value_counts([...])

返回一个字典列表,其中包含每列中最常出现值的计数(仅

WoodworkColumnAccessor#

WoodworkColumnAccessor(series)

WoodworkColumnAccessor.add_semantic_tags(...)

将指定的语义标签添加到标签集合中。

WoodworkColumnAccessor.box_plot_dict([...])

获取使用 IQR 方法为数值列创建包含异常值的箱线图所需的信息。

WoodworkColumnAccessor.description

Series 的描述

WoodworkColumnAccessor.origin

Series 的来源

WoodworkColumnAccessor.iloc

基于整数位置的索引,用于按位置选择。

WoodworkColumnAccessor.init([logical_type, ...])

为 Series 初始化 Woodwork 类型信息。

WoodworkColumnAccessor.loc

按标签或布尔数组访问一组行。

WoodworkColumnAccessor.logical_type

Series 的逻辑类型

WoodworkColumnAccessor.metadata

Series 的元数据

WoodworkColumnAccessor.nullable

列是否可以包含空值。

WoodworkColumnAccessor.remove_semantic_tags(...)

从当前标签中移除指定的语义标签。

WoodworkColumnAccessor.reset_semantic_tags()

将语义标签重置为默认值。

WoodworkColumnAccessor.semantic_tags

分配给 Series 的语义标签

WoodworkColumnAccessor.set_logical_type(...)

更新 Series 的逻辑类型,清除之前设置的任何语义标签,并返回一个已初始化 Woodwork 的新 Series。

WoodworkColumnAccessor.set_semantic_tags(...)

用新值替换当前语义标签。

WoodworkColumnAccessor.use_standard_tags

WoodworkColumnAccessor.validate_logical_type([...])

根据逻辑类型验证 Series 数据。

TableSchema#

TableSchema(column_names, logical_types[, ...])

TableSchema.add_semantic_tags(semantic_tags)

将指定的语义标签添加到列中,更新 Woodwork 类型信息。

TableSchema.index

表的索引列

TableSchema.get_subset_schema(subset_cols)

创建一个包含指定列的新 TableSchema,同时保留类型信息。

TableSchema.logical_types

包含每列逻辑类型的字典

TableSchema.metadata

表的元数据

TableSchema.rename(columns)

重命名 TableSchema 中的列

TableSchema.remove_semantic_tags(semantic_tags)

移除提供的 semantic_tags 字典中任何列名的语义标签,更新 Woodwork 类型信息。

TableSchema.reset_semantic_tags([columns, ...])

将指定列的语义标签重置为默认值。

TableSchema.name

模式名称

TableSchema.semantic_tags

包含每列语义标签的字典

TableSchema.set_index(new_index[, validate])

设置索引。

TableSchema.set_time_index(new_time_index[, ...])

设置时间索引。

TableSchema.set_types([logical_types, ...])

更新提供的类型字典中任何列名的逻辑类型和语义标签,更新 TableSchema 中相应列的信息。

TableSchema.time_index

表的时间索引列

TableSchema.types

包含 TableSchema 的物理类型、逻辑类型和语义标签的 DataFrame。

TableSchema.use_standard_tags

ColumnSchema#

ColumnSchema([logical_type, semantic_tags, ...])

ColumnSchema.custom_tags

为列指定的自定义语义标签。

ColumnSchema.description

列的描述

ColumnSchema.origin

列的来源

ColumnSchema.is_boolean

ColumnSchema 是否为布尔列

ColumnSchema.is_categorical

ColumnSchema 本质上是否为分类列

ColumnSchema.is_datetime

ColumnSchema 是否为日期时间列

ColumnSchema.is_numeric

ColumnSchema 本质上是否为数值列

ColumnSchema.metadata

列的元数据

序列化#

typing_info_to_dict(dataframe)

创建 Woodwork 表的描述,包括每列的类型信息和加载信息。

反序列化#

from_disk(path[, filename, ...])

调用 read_woodwork_table 的便捷函数。

read_woodwork_table(path[, filename, ...])

从磁盘、S3 路径或 URL 读取 Woodwork 表。

逻辑类型#

Address()

表示包含地址值的逻辑类型。

Age()

表示包含表示年龄的整数的逻辑类型。

AgeFractional()

表示包含表示年龄的非负浮点数的逻辑类型。

AgeNullable()

表示包含表示年龄的整数的逻辑类型。

Boolean([cast_nulls_as])

表示包含表示真/假二进制值的逻辑类型。

BooleanNullable()

表示包含表示真/假二进制值的逻辑类型。

Categorical([encoding])

表示包含无序离散值的逻辑类型,这些值属于一组可能值之一。

CountryCode()

表示使用 ISO-3166 标准国家代码表示国家的逻辑类型。

CurrencyCode()

表示使用 ISO-4217 国际标准货币代码表示货币的逻辑类型。

Datetime([datetime_format, timezone])

表示包含日期和时间信息的逻辑类型。

Double()

表示包含正负数(其中一些包含小数部分)的逻辑类型。

EmailAddress()

表示包含电子邮件地址值的逻辑类型。

Filepath()

表示指定文件系统中目录和文件位置的逻辑类型。

Integer()

表示包含不带小数部分的正负数(包括零 (0))的逻辑类型。

IntegerNullable()

表示包含不带小数部分的正负数(包括零 (0))的逻辑类型。

IPAddress()

表示包含 IP 地址(包括 IPv4 和 IPv6 地址)的逻辑类型。

LatLong()

表示包含以十进制度数表示的经纬度值的逻辑类型。

NaturalLanguage()

表示包含代表人类自然语言的文本或字符的逻辑类型

Ordinal([order])

表示包含有序离散值的逻辑类型。

PersonFullName()

表示可能包含名字、中间名和姓氏(包括尊称和后缀)的逻辑类型。

PhoneNumber()

表示包含代表电话号码的数字和字符的逻辑类型。

PostalCode()

表示包含一系列邮政编码以表示一组地址的逻辑类型。

SubRegionCode()

表示使用 ISO-3166 标准子区域代码表示较大地理区域一部分的逻辑类型。

Timedelta()

表示包含指定时间持续时间值的逻辑类型

Unknown()

表示无法推断为特定逻辑类型的逻辑类型。

URL()

表示包含 URL(可能包括协议、主机名和文件名)的逻辑类型

TypeSystem#

TypeSystem([inference_functions, ...])

TypeSystem.add_type(logical_type[, ...])

向 TypeSystem 添加新的逻辑类型,可选地指定相应的推断函数和父类型。

TypeSystem.infer_logical_type(series)

推断给定 Series 的逻辑类型

TypeSystem.remove_type(logical_type[, treatment])

从 TypeSystem 中移除一个逻辑类型。

TypeSystem.reset_defaults()

将类型系统重置为初始化时指定的默认设置。

TypeSystem.update_inference_function(...)

更新指定逻辑类型的推断函数。

TypeSystem.update_relationship(logical_type, ...)

添加或更新关系。

工具函数#

类型工具函数#

list_logical_types

返回描述所有可用逻辑类型的 DataFrame。

list_semantic_tags

返回描述所有常见语义标签的 DataFrame。

通用工具函数#

concat_columns

沿列轴连接 Woodwork 对象。

get_valid_mi_types

生成一个适用于计算互信息的逻辑类型列表。

get_valid_pearson_types

生成一个适用于计算皮尔逊相关性的逻辑类型列表。

get_valid_spearman_types

生成一个适用于计算斯皮尔曼相关性的逻辑类型列表。

read_file

从指定文件读取数据并返回一个已初始化 Woodwork 类型信息的 DataFrame。

get_invalid_schema_message

返回一条消息,指示提供的模式无法用于在 DataFrame 上初始化 Woodwork 的原因。

init_series

为 Series、numpy.ndarray 或 pd.api.extensions 初始化 Woodwork 类型信息。

is_schema_valid

检查模式是否适用于在 DataFrame 上初始化 Woodwork

统计工具函数#

infer_frequency

推断给定 Pandas Datetime Series 的频率。

示例数据#

load_retail([id, nrows, init_woodwork])

将示例零售数据集加载到 DataFrame 中,可选地初始化 Woodwork 的类型信息。