API 参考#

WoodworkTableAccessor#

`WoodworkTableAccessor`(dataframe)
`WoodworkTableAccessor.add_semantic_tags`(...)	将指定的语义标签添加到列中，更新 Woodwork 类型信息。
`WoodworkTableAccessor.dependence`([measures, ...])	计算 DataFrame 中所有支持衡量依赖关系的列对之间的依赖度量。
`WoodworkTableAccessor.dependence_dict`([...])	计算 DataFrame 中所有支持衡量依赖关系的列对之间的依赖度量。
`WoodworkTableAccessor.describe`([include, ...])	计算 DataFrame 中包含的数据的统计信息。
`WoodworkTableAccessor.describe_dict`([...])	计算 DataFrame 中包含的数据的统计信息。
`WoodworkTableAccessor.drop`(columns[, inplace])	从 DataFrame 中删除指定的列。
`WoodworkTableAccessor.iloc`	基于整数位置的索引，用于按位置选择。
`WoodworkTableAccessor.index`	表的索引列
`WoodworkTableAccessor.infer_temporal_frequencies`([...])	推断每个时间列的观测频率（每日、双周、每年等）
`WoodworkTableAccessor.init`(**kwargs)	使用部分模式为 DataFrame 初始化 Woodwork 类型信息。
`WoodworkTableAccessor.init_with_full_schema`(schema)	使用完整模式为 DataFrame 初始化 Woodwork 类型信息。
`WoodworkTableAccessor.init_with_partial_schema`([...])	使用部分模式为 DataFrame 初始化 Woodwork 类型信息。
`WoodworkTableAccessor.loc`	按标签或布尔数组访问一组行。
`WoodworkTableAccessor.logical_types`	包含每列逻辑类型的字典
`WoodworkTableAccessor.metadata`	DataFrame 的元数据
`WoodworkTableAccessor.mutual_information`([...])	计算 DataFrame 中所有支持计算互信息的列对之间的互信息。
`WoodworkTableAccessor.mutual_information_dict`([...])	计算 DataFrame 中所有支持计算互信息的列对之间的互信息。
`WoodworkTableAccessor.name`	DataFrame 的名称
`WoodworkTableAccessor.pearson_correlation`([...])	计算 DataFrame 中所有支持计算相关性的列对之间的皮尔逊相关系数。
`WoodworkTableAccessor.pearson_correlation_dict`([...])	计算 DataFrame 中所有支持计算相关性的列对之间的皮尔逊相关系数。
`WoodworkTableAccessor.physical_types`	包含每列物理类型的字典
`WoodworkTableAccessor.pop`(column_name)	返回一个包含 Woodwork 类型信息的 Series 并将其从 DataFrame 中移除。
`WoodworkTableAccessor.remove_semantic_tags`(...)	移除提供的 semantic_tags 字典中任何列名的语义标签，更新 Woodwork 类型信息。
`WoodworkTableAccessor.rename`(columns[, inplace])	重命名 DataFrame 中的列，同时保留 Woodwork 类型信息。
`WoodworkTableAccessor.reset_semantic_tags`([...])	将指定列的语义标签重置为默认值。
`WoodworkTableAccessor.schema`	DataFrame 的 Woodwork 类型信息的副本。
`WoodworkTableAccessor.select`([include, ...])	创建一个已初始化 Woodwork 类型信息的 DataFrame，该 DataFrame 仅包含其逻辑类型和语义标签与包含或排除的类型和标签列表中指定的条件匹配的列。
`WoodworkTableAccessor.semantic_tags`	包含每列语义标签的字典
`WoodworkTableAccessor.set_index`(new_index)	设置 DataFrame 的索引列。
`WoodworkTableAccessor.set_time_index`(...)	设置时间索引。
`WoodworkTableAccessor.set_types`([...])	更新提供的类型字典中任何列名的逻辑类型和语义标签，更新 DataFrame 的 Woodwork 类型信息。
`WoodworkTableAccessor.spearman_correlation`([...])	计算 DataFrame 中所有支持计算相关性的列对之间的斯皮尔曼相关系数。
`WoodworkTableAccessor.spearman_correlation_dict`([...])	计算 DataFrame 中所有支持计算相关性的列对之间的斯皮尔曼相关系数。
`WoodworkTableAccessor.time_index`	表的时间索引列
`WoodworkTableAccessor.to_disk`(path[, ...])	将 Woodwork 表按 format 指定的格式写入 path 指定的位置。
`WoodworkTableAccessor.to_dictionary`()	获取 Woodwork 类型信息的字典表示。
`WoodworkTableAccessor.types`	包含模式的物理类型、逻辑类型和语义标签的 DataFrame。
`WoodworkTableAccessor.use_standard_tags`	包含表中每列 use_standard_tags 设置的字典
`WoodworkTableAccessor.validate_logical_types`([...])	根据逻辑类型验证 DataFrame。
`WoodworkTableAccessor.value_counts`([...])	返回一个字典列表，其中包含每列中最常出现值的计数（仅

WoodworkColumnAccessor#

`WoodworkColumnAccessor`(series)
`WoodworkColumnAccessor.add_semantic_tags`(...)	将指定的语义标签添加到标签集合中。
`WoodworkColumnAccessor.box_plot_dict`([...])	获取使用 IQR 方法为数值列创建包含异常值的箱线图所需的信息。
`WoodworkColumnAccessor.description`	Series 的描述
`WoodworkColumnAccessor.origin`	Series 的来源
`WoodworkColumnAccessor.iloc`	基于整数位置的索引，用于按位置选择。
`WoodworkColumnAccessor.init`([logical_type, ...])	为 Series 初始化 Woodwork 类型信息。
`WoodworkColumnAccessor.loc`	按标签或布尔数组访问一组行。
`WoodworkColumnAccessor.logical_type`	Series 的逻辑类型
`WoodworkColumnAccessor.metadata`	Series 的元数据
`WoodworkColumnAccessor.nullable`	列是否可以包含空值。
`WoodworkColumnAccessor.remove_semantic_tags`(...)	从当前标签中移除指定的语义标签。
`WoodworkColumnAccessor.reset_semantic_tags`()	将语义标签重置为默认值。
`WoodworkColumnAccessor.semantic_tags`	分配给 Series 的语义标签
`WoodworkColumnAccessor.set_logical_type`(...)	更新 Series 的逻辑类型，清除之前设置的任何语义标签，并返回一个已初始化 Woodwork 的新 Series。
`WoodworkColumnAccessor.set_semantic_tags`(...)	用新值替换当前语义标签。
`WoodworkColumnAccessor.use_standard_tags`
`WoodworkColumnAccessor.validate_logical_type`([...])	根据逻辑类型验证 Series 数据。

TableSchema#

`TableSchema`(column_names, logical_types[, ...])
`TableSchema.add_semantic_tags`(semantic_tags)	将指定的语义标签添加到列中，更新 Woodwork 类型信息。
`TableSchema.index`	表的索引列
`TableSchema.get_subset_schema`(subset_cols)	创建一个包含指定列的新 TableSchema，同时保留类型信息。
`TableSchema.logical_types`	包含每列逻辑类型的字典
`TableSchema.metadata`	表的元数据
`TableSchema.rename`(columns)	重命名 TableSchema 中的列
`TableSchema.remove_semantic_tags`(semantic_tags)	移除提供的 semantic_tags 字典中任何列名的语义标签，更新 Woodwork 类型信息。
`TableSchema.reset_semantic_tags`([columns, ...])	将指定列的语义标签重置为默认值。
`TableSchema.name`	模式名称
`TableSchema.semantic_tags`	包含每列语义标签的字典
`TableSchema.set_index`(new_index[, validate])	设置索引。
`TableSchema.set_time_index`(new_time_index[, ...])	设置时间索引。
`TableSchema.set_types`([logical_types, ...])	更新提供的类型字典中任何列名的逻辑类型和语义标签，更新 TableSchema 中相应列的信息。
`TableSchema.time_index`	表的时间索引列
`TableSchema.types`	包含 TableSchema 的物理类型、逻辑类型和语义标签的 DataFrame。
`TableSchema.use_standard_tags`

ColumnSchema#

`ColumnSchema`([logical_type, semantic_tags, ...])
`ColumnSchema.custom_tags`	为列指定的自定义语义标签。
`ColumnSchema.description`	列的描述
`ColumnSchema.origin`	列的来源
`ColumnSchema.is_boolean`	ColumnSchema 是否为布尔列
`ColumnSchema.is_categorical`	ColumnSchema 本质上是否为分类列
`ColumnSchema.is_datetime`	ColumnSchema 是否为日期时间列
`ColumnSchema.is_numeric`	ColumnSchema 本质上是否为数值列
`ColumnSchema.metadata`	列的元数据

序列化#

typing_info_to_dict(dataframe)

创建 Woodwork 表的描述，包括每列的类型信息和加载信息。

反序列化#

`from_disk`(path[, filename, ...])	调用 read_woodwork_table 的便捷函数。
`read_woodwork_table`(path[, filename, ...])	从磁盘、S3 路径或 URL 读取 Woodwork 表。

逻辑类型#

`Address`()	表示包含地址值的逻辑类型。
`Age`()	表示包含表示年龄的整数的逻辑类型。
`AgeFractional`()	表示包含表示年龄的非负浮点数的逻辑类型。
`AgeNullable`()	表示包含表示年龄的整数的逻辑类型。
`Boolean`([cast_nulls_as])	表示包含表示真/假二进制值的逻辑类型。
`BooleanNullable`()	表示包含表示真/假二进制值的逻辑类型。
`Categorical`([encoding])	表示包含无序离散值的逻辑类型，这些值属于一组可能值之一。
`CountryCode`()	表示使用 ISO-3166 标准国家代码表示国家的逻辑类型。
`CurrencyCode`()	表示使用 ISO-4217 国际标准货币代码表示货币的逻辑类型。
`Datetime`([datetime_format, timezone])	表示包含日期和时间信息的逻辑类型。
`Double`()	表示包含正负数（其中一些包含小数部分）的逻辑类型。
`EmailAddress`()	表示包含电子邮件地址值的逻辑类型。
`Filepath`()	表示指定文件系统中目录和文件位置的逻辑类型。
`Integer`()	表示包含不带小数部分的正负数（包括零 (0)）的逻辑类型。
`IntegerNullable`()	表示包含不带小数部分的正负数（包括零 (0)）的逻辑类型。
`IPAddress`()	表示包含 IP 地址（包括 IPv4 和 IPv6 地址）的逻辑类型。
`LatLong`()	表示包含以十进制度数表示的经纬度值的逻辑类型。
`NaturalLanguage`()	表示包含代表人类自然语言的文本或字符的逻辑类型
`Ordinal`([order])	表示包含有序离散值的逻辑类型。
`PersonFullName`()	表示可能包含名字、中间名和姓氏（包括尊称和后缀）的逻辑类型。
`PhoneNumber`()	表示包含代表电话号码的数字和字符的逻辑类型。
`PostalCode`()	表示包含一系列邮政编码以表示一组地址的逻辑类型。
`SubRegionCode`()	表示使用 ISO-3166 标准子区域代码表示较大地理区域一部分的逻辑类型。
`Timedelta`()	表示包含指定时间持续时间值的逻辑类型
`Unknown`()	表示无法推断为特定逻辑类型的逻辑类型。
`URL`()	表示包含 URL（可能包括协议、主机名和文件名）的逻辑类型

TypeSystem#

`TypeSystem`([inference_functions, ...])
`TypeSystem.add_type`(logical_type[, ...])	向 TypeSystem 添加新的逻辑类型，可选地指定相应的推断函数和父类型。
`TypeSystem.infer_logical_type`(series)	推断给定 Series 的逻辑类型
`TypeSystem.remove_type`(logical_type[, treatment])	从 TypeSystem 中移除一个逻辑类型。
`TypeSystem.reset_defaults`()	将类型系统重置为初始化时指定的默认设置。
`TypeSystem.update_inference_function`(...)	更新指定逻辑类型的推断函数。
`TypeSystem.update_relationship`(logical_type, ...)	添加或更新关系。

工具函数#

类型工具函数#

`list_logical_types`	返回描述所有可用逻辑类型的 DataFrame。
`list_semantic_tags`	返回描述所有常见语义标签的 DataFrame。

通用工具函数#

`concat_columns`	沿列轴连接 Woodwork 对象。
`get_valid_mi_types`	生成一个适用于计算互信息的逻辑类型列表。
`get_valid_pearson_types`	生成一个适用于计算皮尔逊相关性的逻辑类型列表。
`get_valid_spearman_types`	生成一个适用于计算斯皮尔曼相关性的逻辑类型列表。
`read_file`	从指定文件读取数据并返回一个已初始化 Woodwork 类型信息的 DataFrame。

`get_invalid_schema_message`	返回一条消息，指示提供的模式无法用于在 DataFrame 上初始化 Woodwork 的原因。
`init_series`	为 Series、numpy.ndarray 或 pd.api.extensions 初始化 Woodwork 类型信息。
`is_schema_valid`	检查模式是否适用于在 DataFrame 上初始化 Woodwork

统计工具函数#

infer_frequency

推断给定 Pandas Datetime Series 的频率。

示例数据#

load_retail([id, nrows, init_woodwork])

将示例零售数据集加载到 DataFrame 中，可选地初始化 Woodwork 的类型信息。