woodwork.utils.read_file#
- woodwork.utils.read_file(filepath=None, content_type=None, name=None, index=None, time_index=None, semantic_tags=None, logical_types=None, use_standard_tags=True, column_origins=None, replace_nan=False, validate=True, **kwargs)[source]#
从指定文件读取数据并返回一个已初始化 Woodwork 类型信息的 DataFrame。
- 注意
由于 fastparquet 引擎无法处理可为空的 pandas dtypes,因此将使用 pyarrow 从 parquet 和 arrow 文件读取。
- 参数:
filepath (str) – 要读取的文件的有效字符串路径
content_type (str) – 要读取的文件内容类型
name (str, optional) – 用于标识 DataFrame 的名称。
index (str, optional) – 索引列的名称。
time_index (str, optional) – 时间索引列的名称。
semantic_tags (dict, optional) – 将 DataFrame 中的列名映射到列的语义标签的字典。字典中的键应为字符串,对应于底层 DataFrame 中的列。指定字典值有两种选择:(str):如果只设置一个语义标签,可以使用单个字符串作为值。(list[str] 或 set[str]):如果要设置多个标签,可以使用字符串列表或集合作为值。对于未包含在字典中的任何列,语义标签将被设置为空集。
logical_types (dict[str -> LogicalType], optional) – 将 DataFrame 中的列名映射到列的 LogicalType 的字典。对于字典中不存在的任何列,将推断其 LogicalTypes。
use_standard_tags (bool, optional) – 如果为 True,将根据列的推断或指定的逻辑类型为列添加标准语义标签。默认为 True。
column_origins (str or dict[str -> str], optional) – 每列的来源。如果提供字符串,则用作所有列的来源。可以使用字典为单个列设置来源。
replace_nan (bool, optional) – 是否将空字符串值和 NaN 值的字符串表示形式(“nan”、“<NA>”)替换为基于列 dtype 的 np.nan 或 pd.NA 值。默认为 False。
validate (bool, optional) – 是否应进行参数和数据验证。默认为 True。警告:仅当已知参数和数据有效时,才应将其设置为 False。跳过无效输入验证可能导致的任何错误可能不易理解。
**kwargs – 传递给底层 pandas 读取文件函数的额外关键字参数。有关可用关键字的更多信息,请参阅 pandas 文档。
- 返回值:
从指定文件创建的 DataFrame,并已初始化 Woodwork 类型信息。
- 返回值类型:
pd.DataFrame