发布说明#

v0.31.0 2024年5月13日#

  • 增强
    • 增加对 Python 3.12 的支持 GH#1855

  • 变更
    • 放弃对在 Dask 或 Pyspark 数据帧中使用 Woodwork 的支持 GH#1857

    • 在调用 tarfile.extractall 时使用 filter 参数以安全地反序列化 DataFrame GH#1862

感谢以下人员为本次发布做出的贡献:@thehomebrewnerd

重大变更#

  • 从本次发布开始,Woodwork 将不再支持与 Dask 或 Pyspark 数据帧一起使用。使用 pandas 数据帧时的行为保持不变。

v0.30.0 2024年4月10日#

警告

计划在 Woodwork 的后续版本中移除对与 Dask 和 Pyspark 数据帧一起使用的支持。

  • 变更
    • 临时限制 Dask 版本 GH#1837

    • 更新以兼容 Dask 2024.4.1 GH#1843

  • 测试变更
    • 修复序列化测试以兼容 pytest 8.1.1 GH#1837

感谢以下人员为本次发布做出的贡献:@thehomebrewnerd

v0.29.0 2024年2月26日#

  • 变更
    • 移除 pyproject.toml 中 numpy 版本的上限限制 GH#1819

    • 提高 python-dateutil 的最低版本以兼容 pandas 2.0 GH#1825

  • 测试变更
    • 更新 release.yaml 以使用 PyPI 发布的受信任发布者 GH#1819

    • 更新最新的依赖项 CI 运行,使其包含仅包含核心要求的运行 GH#1822

感谢以下人员为本次发布做出的贡献:@thehomebrewnerd

v0.28.0 2024年2月5日#

警告

此版本的 Woodwork 将不再支持 Python 3.8

  • 变更
    • 将 numpy 升级到 < 2.0.0 GH#1799

  • 文档变更
    • 在 Dask 文档的“其他限制”部分添加了 dask 字符串存储的注意事项 GH#1799

  • 测试变更

感谢以下人员为本次发布做出的贡献:@cp2boston, @gsheni, @tamargrey

v0.27.0 2023年12月12日#

  • 修复
    • 移除了由于 pandas 中已弃用的 infer_datetime_format 参数导致的警告 (GH#1785)

    • 修复 GitHub Actions 以触发 EvalML 和 Featuretools 的单元测试 (GH#1795)

  • 变更 * 由于序列化问题,临时限制 pyarrow 版本 (GH#1768) * 更新 pandas 分类类型调用并移除 black 替换为 ruff 格式化程序 (GH#1794)

  • 测试变更 * 移除了旧的性能测试工作流程 (GH#1776)

感谢以下人员为本次发布做出的贡献:@eccabay, @gsheni, @thehomebrewnerd, @petejanuszewski1

v0.26.0 2023年8月22日#

  • 增强
    • 通过移除布尔值映射和集合的生成,优化了 Boolean 推断 (GH#1713)

    • 通过缓存相应可空类型推断的结果,加快了 Boolean 和 Integer 的推断速度 (GH#1733)

  • 修复
    • 更新 docs 图片的 s3 bucket (GH#1749)

  • 文档变更
    • 更新 readthedocs 配置以使用 build.os (GH#1753)

    • 修复 README.md 上 PyPI 徽章不显示的问题 (GH#1755)

感谢以下人员为本次发布做出的贡献:@gsheni, @sbadithe, @simha104

v0.25.1 2023年7月18日#

  • 修复
    • 限制 numpy 版本以解决 v1.25.0 中的布尔推断问题 GH#1735

感谢以下人员为本次发布做出的贡献:@thehomebrewnerd

v0.25.0 2023年7月17日#

  • 增强
    • 强制日期时间猜测器的输入为字符串 GH#1724

    • 增加对 pandas v2.0.0 的支持 GH#1729

  • 变更
    • 移除 dask 版本的上限限制 GH#1729

  • 测试变更
    • 从 latlong dataframe fixtures 中移除 autouse=True GH#1729

感谢以下人员为本次发布做出的贡献:@christopherbunn, @thehomebrewnerd

v0.24.0 2023年5月24日#

  • 增强
    • 移除了 _get_describe_dict 中对数值数据的重复排序以提升性能 (GH#1682)

    • 通过定义新的父子关系,改进了对 URLEmailAddress 和其他逻辑类型的推断 (GH#1702)

    • 在计算依赖性度量时添加了 include_time_index 参数 (GH#1698)

  • 变更
    • 停止计算包含整数值的 Double 列的 top_values (GH#1692)

  • 测试变更
    • 添加 Python 3.11 标记,并为单元测试和安装测试添加 3.11 (GH#1678)

    • 通过 Airflow 在合并时运行 looking glass 性能测试 (GH#1695)

感谢以下人员为本次发布做出的贡献:@bchen1116, @gsheni, @ParthivNaresh, @petejanuszewski1, @simha104, @tamargrey

v0.23.0 2023年4月12日#

  • 修复
    • 更新了 Datetime 格式推断,使其包含带有时区和两位数年份的格式 (GH#1666)

  • 变更
    • 更新了 add_typeremove_type,使其包含一个 treatment 参数 (GH#1661)

    • 限制核心要求中的 pandas 版本 <2.0.0 (GH#1668)

    • 将 dask 的最低版本升级到 2022.11.1,将 pandas 的最低版本升级到 1.4.3 (GH#1671)

感谢以下人员为本次发布做出的贡献:@gsheni, @jeff-hernandez, @ParthivNaresh, @simha104

v0.22.0 2023年3月13日#

  • 增强
    • 改进了对数值逻辑类型的推断,以处理传入的 object dtype 数据 (GH#1645)

    • 更新了日期时间格式推断,以处理由两位数字表示的年份 (GH#1632)

    • 更新了 dependence_dict 以处理布尔列 (GH#1652)

  • 变更
    • 将 jupyter-client 版本固定到 7.4.9 用于文档 (GH#1624)

    • 移除 jupyter-client 文档要求 (GH#1627)

    • 为核心要求、测试要求和开发要求分开 Makefile 命令 (GH#1658)

  • 测试变更
    • 添加 ruff 进行代码检查并替换 isort/flake8 (GH#1614)

    • 指定 black 和 ruff 配置参数 (GH#1620)

    • 为单元测试工作流程添加 codecov token (GH#1630)

    • 添加 GitHub Actions 缓存以加快工作流程速度 (GH#1631)

    • 为 CI 工作流程添加针对关联问题的拉取请求检查 (GH#1633, GH#1636)

    • 对最新依赖项更新的拉取请求运行代码检查修复 (GH#1640, GH#1641)

感谢以下人员为本次发布做出的贡献:@bchen1116, @gsheni, @ParthivNaresh

v0.21.2 2023年1月11日#

  • 变更
    • 提高 scipy 和 scikit-learn 的最低版本以兼容 numpy 1.24.0 (GH#1606)

    • ColumnSchema 对象添加 is_natural_language 方法 (GH#1610)

    • 更改了 Boolean 逻辑类型的 transform 函数以提升运行时性能 (GH#1612)

感谢以下人员为本次发布做出的贡献:@ParthivNaresh, @sbadithe, @thehomebrewnerd

v0.21.1 2022年12月16日#

  • 修复
    • 修复 inference_functions.py 中的 importlib DeprecationWarning (GH#1584)

    • 模式在重命名列后会保持列顺序 (GH#1594)

    • 修复了布尔转换期间不设置配置的逻辑 (GH#1601)

  • 变更
    • backup_dtype 重命名为 pyspark_dtype (GH#1593)

    • 移除了将 ["0", "1"]["0.0", "1.0"][0, 1] 推断为 Boolean 逻辑类型的逻辑,但保留了对此类值的强制推断 (GH#1600)

感谢以下人员为本次发布做出的贡献:@bchen1116, @sbadithe

v0.21.0 2022年12月1日#

  • 增强
    • 改进了 BooleanBooleanNullable 推断,以检测常见的布尔值字符串表示形式 (GH#1549)

    • WoodworkColumnAccessor 添加了 get_outliersmedcouple_dict 函数,以便可以使用 medcouple 统计量进行异常值检测 (GH#1547)

  • 修复
    • 解决了 _get_box_plot_info_for_column 中的 FutureWarning (GH#1563)

    • 修复了 logical_types.py 中 validate 方法的错误消息 (GH#1565)

    • 通过检查值是否在有效的 Int64 边界内,修复了 IntegerNullable 推断 (GH#1572)

    • 更新演示数据集链接以指向新的端点 (GH#1570)

    • 修复 type_system.py 中的 DivisionByZero 错误 (GH#1571)

    • 修复 PostalCode 逻辑类型的 Categorical dtype 推断问题 (GH#1574)

    • 修复了在 0.0 和 1.0 组成的列上强制使用 Boolean 逻辑类型导致转换不正确的问题 (GH#1576)

  • 变更
    • 解除对 dask 依赖项的固定 (GH#1561)

    • 将类型推断的采样策略从 head 更改为随机采样 (GH#1566)

  • 文档变更
    • 更新了文档,使其包含 get_outliersmedcouple_dict (GH#1547)

  • 测试变更
    • 在合并时运行 looking glass 性能测试 (GH#1567)

感谢以下人员为本次发布做出的贡献:@bchen1116, @gsheni, @ParthivNaresh, @sbadithe, @simha104

重大变更#

  • GH#1549 将自动推断更多值作为 BooleanBooleanNullable 类型,包括但不限于 [0, 1]['yes', 'no']["True", "False"]

v0.20.0 2022年10月31日#

  • 增强
    • 将数据帧和序列中已弃用的 append 方法替换为 concat 方法 (GH#1533)

  • 修复
    • 修复了与 dependence 计算相关的错误,以确保列存在于数据帧中 (GH#1534)

    • 修复了 select 文档字符串中的一个小拼写错误 (GH#1544)

    • 修复 TypeValidationError 消息 (GH#1557)

    • 将 dask 版本设置在 2022.10.1 以下 (GH#1558)

感谢以下人员为本次发布做出的贡献:@bchen1116, @sbadithe

v0.19.0 2022年9月27日#

  • 增强
    • 在依赖性计算选项中添加了 Spearman Correlation (GH#1523)

    • box_plot_dict 添加了 ignore_zeros 参数,允许在计算异常值时忽略 0 值 (GH#1524)

    • dependencedependence_dict 添加了 target_col 参数,用于计算特征与 target_col 之间的相关性 (GH#1531)

  • 修复
    • 修复了当提供 datetime_format 时,将日期时间枢轴点设置为当前年份 + 10,而不是针对两位数年份的默认值的问题 (GH#1512)

  • 变更
    • 在初始化 DataFrame 时添加了 ignore_columns 参数 (GH#1504)

    • 移除了 dask[dataframe] 版本限制 (GH#1527)

  • 测试变更
    • 添加了从发布版本创建 conda forge 拉取请求的启动步骤 (GH#1515)

感谢以下人员对本次发布的贡献:@bchen1116@gsheni@ParthivNaresh@thehomebrewnerd

v0.18.0 2022年8月31日#

  • 增强
    • 更新了 dependence_dictmutual_information,以便在计算互信息时删除具有大量唯一值的分类列,仅限于非 dask 情况。 (GH#1501)

  • 修复
    • 修复了将 LatLong.transform 应用于空 dask 数据的问题 (GH#1507)

  • 变更
    • 从 setup.cfg 迁移到 pyproject.toml (GH#1506,:pr:1508)

    • 添加了检查,以查看在调用 _replace_nans 之前系列 dtype 是否已更改 (GH#1502)

  • 测试变更
    • 更新开发要求,并为文档使用最新版本 (GH#1499)

感谢以下人员对本次发布的贡献:@bchen1116@gsheni@jeff-hernandez@ParthivNaresh@rwedge

v0.17.2 2022年8月5日#

  • 修复
    • 更新了 concat_columns 以处理具有不匹配索引或不同形状的 DataFrame (GH#1485)

  • 文档变更
    • 添加了将新用户添加到 woodwork feedstock 的说明 (GH#1483)

  • 测试变更
    • 添加了创建 feedstock PR 工作流 (GH#1489)

感谢以下人员对本次发布的贡献:@chukarsten@cmancuso@gsheni

v0.17.1 2022年7月29日#

  • 测试变更
    • 允许手动启动最低依赖项检查器 (GH#1476)

感谢以下人员对本次发布的贡献:@bchen1116@gsheni

v0.17.0 2022年7月14日#

警告

此 Woodwork 版本将不再支持 Python 3.7

  • 增强
    • Double 逻辑类型添加了将无效值设为 null 的功能 (GH#1449)

    • BooleanNullable 逻辑类型添加了将无效值设为 null 的功能 (GH#1455)

    • IntegerNullable 逻辑类型添加了将无效值设为 null 的功能 (GH#1456)

    • EmailAddress 逻辑类型添加了将无效值设为 null 的功能 (GH#1457)

    • URL 逻辑类型添加了将无效值设为 null 的功能 (GH#1459)

    • PhoneNumber 逻辑类型添加了将无效值设为 null 的功能 (GH#1460)

    • AgeFractionalAgeNullable 逻辑类型添加了将无效值设为 null 的功能 (GH#1462)

    • LatLong 逻辑类型添加了将无效值设为 null 的功能 (GH#1465)

    • PostalCode 逻辑类型(仅限美国)添加了将无效值设为 null 的功能 (GH#1467)

    • IntegerNullableBooleanNullable 类型添加了更智能的推断 (GH#1458)

  • 修复
    • 修复了将所有 null 字符串值推断为 Unknown 而非 Datetime 的问题 (GH#1458)

  • 变更
    • 将 woodwork 最低可接受的 pandas 版本设置为 1.4.0,将 spark 附加组件的最低版本设置为 1.4.3 (GH#1461)

    • 放弃对 Python 3.7 的支持 (GH#1461)

    • 添加用于 linting 的 pre-commit 钩子 (GH#1470)

感谢以下人员对本次发布的贡献:@gsheni@jeff-hernandez@ParthivNaresh

v0.16.4 2022年6月23日#

  • 修复
    • 修复了无效逻辑类型值的拼接问题 (GH#1437)

    • 修复了数字邮政编码的验证问题 (GH#1439)

  • 变更
    • 限制 pyspark 版本低于 3.3.0 (GH#1450)

  • 文档变更
    • 在文档底部添加 slack 图标 (GH#1432)

    • 更新 contributing.md 以添加 pandoc (GH#1443)

  • 测试变更
    • 使用 codecov action v3 (GH#1422)

    • 添加了测试最低依赖项的最低依赖项的测试 (GH#1440)

    • 添加工作流,以便在提交到 main 时启动 EvalML 单元测试 (GH#1424, GH#1426)

    • 将 GitHub Actions 的 yml 重命名为 yaml (GH#1428, GH#1429)

感谢以下人员对本次发布的贡献:@bchen1116@gsheni@jeff-hernandez@ParthivNaresh

v0.16.3 2022年5月4日#

  • 修复
    • 修复了 col_is_datetime 推断函数不会将数字 dtype 推断为 datetime 的问题 (GH#1413)

  • 变更
    • 删除 setup.py、MANIFEST.in 并将配置移至 pyproject.toml (GH#1409)

  • 文档变更
  • 测试变更
    • 添加工作流,以便在 Woodwork main 上启动 Featuretools 单元测试 (GH#1400)

    • 添加用于测试 Woodwork 而不包含测试依赖项的工作流 (GH#1414)

感谢以下人员为本次发布做出的贡献:@bchen1116, @gsheni, @ParthivNaresh

v0.16.2 2022年4月25日#

  • 修复
    • 修复了与 pyarrow 相关的导入问题,并将 python-dateutil>=2.8.1 设置为必需依赖项 (GH#1397)

感谢以下人员对本次发布的贡献:@ParthivNaresh

v0.16.1 2022年4月25日#

  • 修复
    • 恢复使用 string[pyarrow] 直到找到 pandas 问题的修复方法 (GH#1391)

感谢以下人员对本次发布的贡献:@ParthivNaresh

v0.16.0 2022年4月21日#

  • 增强
    • 添加了向 TableAccessor.describe() 提供回调函数以获取中间结果的功能 (GH#1387)

    • 向 TableAccessor 添加 pearson_correlationdependence 方法 (GH#1265)

    • 使用 string[pyarrow] 代替 string dtype 以节省内存 (GH#1360)

    • 当 DataFrame 和模式具有不同的列时,添加了更好的错误消息 (GH#1366)

    • 在 Datetime 逻辑类型中存储时区信息 (GH#1376)

    • 添加了电话号码的类型推断 (GH#1357)

    • 添加了邮政编码的类型推断 (GH#1378)

  • 修复
    • 将 pandas 版本上限设为 1.4.1 (GH#1373)

  • 变更
    • 更改 TableAccessor.mutual_information 的底层逻辑 (GH#1265)

    • 添加了 from_disk 作为反序列化 WW 表的便捷函数 (GH#1363)

    • 允许 setup.cfg 中的 attr 版本 (GH#1361)

    • 序列化期间如果文件已存在则引发错误 (GH#1356)

    • 改进 col_is_datetime 中的异常处理 (GH#1365)

    • 序列化期间在 parquet 文件头中存储类型信息 (GH#1377)

  • 文档变更
    • 升级 nbconvert 并移除 jinja2 依赖项 (GH#1362)

    • 在文档和贡献指南中添加 M1 安装说明 (GH#1367)

    • 将 README 文本更新为 Alteryx (GH#1381, GH#1382)

  • 测试变更
    • 分离测试矩阵以加快 GitHub Actions Linux 对最新依赖项的测试速度 GH#1380

感谢以下人员对本次发布的贡献:@bchen1116@gsheni@jeff-hernandez@ParthivNaresh@rwedge@thehomebrewnerd

v0.15.0 2022年3月24日#

  • 增强
    • 向逻辑类型添加了 CurrencyCode (GH#1348)

    • 添加了日期时间频率推断 V2 (GH#1281)

  • 修复
    • 更新了 Ordinal 逻辑类型的 __str__ 输出 (GH#1340)

  • 变更
    • 更新了 lint 检查,仅在 Python 3.10 上运行 (GH#1345)

    • 过渡到使用 pyproject.toml 和 setup.cfg(不再使用 setup.py) (GH#1346)

  • 文档变更
    • 更新 release.md,包含正确的版本更新信息 (GH#1358)

  • 测试变更
    • 更新了计划工作流,仅在 Alteryx 拥有的仓库上运行 (GH#1351)

感谢以下人员对本次发布的贡献:@bchen1116@dvreed77@jeff-hernandez@ParthivNaresh@thehomebrewnerd

v0.14.0 2022年3月15日#

  • 修复
    • 更改列逻辑类型时保留自定义语义标签 (GH#1300)

  • 变更
    • _get_describe_dict 中计算 Unknown 列的 nunique (GH#1322)

    • 重构序列化和反序列化以提高模块化 (GH#1325)

    • 用 Spark 上的 pandas API 替换 Koalas (GH#1331)

  • 文档变更
    • 更新复制粘贴按钮以删除语法符号 (GH#1313)

    • 将 LatLong 和 Ordinal 逻辑类型验证逻辑移至 LogicalType.validate 方法 (GH#1315)

    • 添加 backport 发布支持 (GH#1321)

    • get_subset_schema 添加到 API 参考 (GH#1335)

  • 测试变更

感谢以下人员对本次发布的贡献:@gsheni@jeff-hernandez@rwedge@tamargrey@thehomebrewnerd@mingdavidqi

破坏性更改#

  • GH#1325: API 中已删除以下序列化函数:woodwork.serialize.write_dataframewoodwork.serialize.write_typing_infowoodwork.serialize.write_woodwork_table。此外,函数 woodwork.serialize.typing_info_to_dict 已移至 woodwork.serializers.serializer_base.typing_info_to_dict

v0.13.0 2022年2月16日#

警告

Woodwork 在下一个非 bugfix 版本中可能不再支持 Python 3.7。

  • 增强
    • 向 EmailAddress 逻辑类型添加验证 (GH#1247)

    • 向 URL 逻辑类型添加验证 (GH#1285)

    • 向 Age、AgeFractional 和 AgeNullable 逻辑类型添加验证 (GH#1289)

  • 修复
    • 在不产生溢出错误的情况下检查表格统计信息中的范围长度 (GH#1287)

    • 修复了使用 LatLong 值初始化 Woodwork Series 的问题 (GH#1299)

  • 变更
    • 移除未使用的 woodwork CLI 的框架 (GH#1288)

    • 重新添加对 Python 3.7 的支持 (GH#1292)

    • 将统计工具函数嵌套到目录中 (GH#1295)

  • 文档变更
    • 更新贡献文档,包含 PATH 和 JAVA_HOME 说明 (GH#1273)

    • 改进的安装页面,包含用于复制和内联选项卡的新 Sphinx 扩展 (GH#1280, GH#1282)

    • 更新 README.md,包含 Alteryx 链接 (GH#1291)

  • 测试变更
    • 使用 unittest.mock 替换 mock (GH#1304)

感谢以下人员对本次发布的贡献:@dvreed77@gsheni@jeff-hernandez@rwedge@tamargrey@thehomebrewnerd

v0.12.0 2022年1月27日#

  • 增强
    • 在 GitHub 问题创建模板中添加 Slack 链接 (GH#1242)

  • 修复
    • 修复了元组被错误推断为 EmailAddress 的问题 (GH#1253)

    • box_plot_dict 中,如果没有异常值,则将高低界限设置为最大值和最小值 (GH#1269)

  • 变更
    • 防止设置包含 null 值的索引 (GH#1239)

    • 允许元组 NaN LatLong 值 (GH#1255)

    • 将 ipython 更新至 7.31.1 (GH#1258)

    • 临时限制 pandas 和 koalas 的最大版本 (GH#1261)

    • 更新以放弃对 Python 3.7 的支持并添加对 pandas 1.4.0 版本的支持 (GH#1264)

  • 测试变更
    • 更改自动批准工作流以使用 PR 编号 (GH#1240, GH#1241)

    • 更新自动批准工作流,以在触发时删除分支并更改 (GH#1251)

    • 修复 S3 反序列化测试的权限问题 (GH#1238)

感谢以下人员对本次发布的贡献:@dvreed77@gsheni@jeff-hernandez@rwedge@tamargrey@thehomebrewnerd

v0.11.2 2022年1月28日#

  • 修复
    • box_plot_dict 中,如果没有异常值,则将高低界限设置为最大值和最小值(GH#1269 的 backport)

感谢以下人员对本次发布的贡献:@tamargrey

注意#

  • 已限制 Koalas 的 pandas 版本,并且对 pandas replace 调用进行了更改,以适应最近发布的 pandas 1.4.0 版本。

v0.11.1 2022年1月4日#

  • 变更
    • 更新推断过程,仅在未找到其他类型匹配时才检查 NaturalLanguage (GH#1234)

  • 文档变更
    • 更新贡献文档,包含 Spark 安装说明 (GH#1232)

  • 测试变更

感谢以下人员对本次发布的贡献:@gsheni@thehomebrewnerd@willsmithorg

v0.11.0 2021年12月22日#

  • 增强
    • 添加了自然语言的类型推断 (GH#1210)

  • 变更
    • 使公共方法 get_subset_schema 可用 (GH#1218)

感谢以下人员对本次发布的贡献:@jeff-hernandez@thehomebrewnerd@tuethan1999

v0.10.0 2021年11月30日#

  • 增强
    • 允许对 Woodwork DataFrame 的时间(Datetime、Timedelta)列进行频率推断 (GH#1202)

    • 更新 describe_dict 以计算仅包含整数值的 double 列的 top_values (GH#1206)

  • 变更
    • 将直方图 bin 作为浮点数列表返回,而不是 pandas.Interval 对象 (GH#1207)

感谢以下人员对本次发布的贡献:@tamargrey@thehomebrewnerd

破坏性更改#

  • :pr:1207: 使用 extra_stats=True 时,describe_dict 的行为已更改。之前,直方图 bin 作为 pandas.Interval 对象返回。现在已更新,直方图 bin 表示为包含两个元素的浮点数列表,第一个元素是 bin 的左边界,第二个元素是右边界。

v0.9.1 2021年11月19日#

  • 修复
    • 修复了导致 mutual_information 在某些索引类型下失败的 bug (GH#1199)

  • 变更
    • 将 pip 更新至 21.3.1 以满足测试要求 (GH#1196)

  • 文档变更
    • 更新安装页面,包含更新的最低可选依赖项 (GH#1193)

感谢以下人员对本次发布的贡献:@gsheni@thehomebrewnerd

v0.9.0 2021年11月11日#

  • 增强
    • 添加了 read_file 参数,用于将空字符串值替换为 NaN 值 (GH#1161)

  • 修复
    • 设置了 pyspark 的最大版本,直到我们了解 GH#1169 失败的原因 (GH#1179)

    • 要求使用更新的 dask 版本 (GH#1180)

  • 变更
    • 使 box_plot_dict 中返回箱线图低/高索引/值成为可选 (GH#1184)

  • 文档变更
  • 测试变更
    • 添加 black linting 包并删除 autopep8 (GH#1164, GH#1183)

    • 更新了笔记本标准化器,以标准化 python 版本 (GH#1166)

感谢以下人员对本次发布的贡献:@bchen1116@davesque@gsheni@rwedge@tamargrey@thehomebrewnerd

v0.8.2 2021年10月12日#

  • 修复
    • 修复了推断包含星期或上下午占位符的日期时间字符串格式时的问题 (GH#1158)

    • 实现了 Datetime.transform 的更改,以防止在某些情况下初始化失败 (GH#1162)

  • 测试变更
    • 更新最低和最新依赖项检查器的审阅者 (GH#1150)

    • 添加了笔记本标准化器以删除执行的输出 (GH#1153)

感谢以下人员对本次发布的贡献:@bchen1116@davesque@jeff-hernandez@thehomebrewnerd

v0.8.1 2021年9月16日#

  • 变更
    • 更新 Datetime.transform,以便在调用 _infer_datetime_format 时使用默认的 nrows 值 (GH#1137)

  • 文档变更
    • 在使用 Dask 和 Koalas 指南中隐藏 spark 配置 (GH#1139)

感谢以下人员对本次发布的贡献:@jeff-hernandez@simha104@thehomebrewnerd

v0.8.0 2021年9月9日#

  • 增强
    • 添加了对自动推断 URLIPAddress 逻辑类型的支持 (GH#1122, GH#1124)

    • 添加了 get_valid_mi_columns 方法,用于列出对互信息计算有效的逻辑类型的列 (GH#1129)

    • 添加了检查列是否具有可为空的逻辑类型的属性 (GH#1127)

  • 变更
    • 更新 get_invalid_schema_message 以提高性能 (GH#1132)

  • 文档变更
    • 修复了“入门”文档中的拼写错误 (GH#1126)

    • 清理了逻辑类型指南 (GH#1134)

感谢以下人员对本次发布的贡献:@ajaypallekonda@davesque@jeff-hernandez@thehomebrewnerd

v0.7.1 2021年8月25日#

  • 修复
    • 如果在部分模式初始化中使用,则验证模式的索引 (GH#1115)

    • 允许在初始化时设置伪索引、时间索引和名称值以及部分模式 (GH#1115)

感谢以下人员对本次发布的贡献:@tamargrey

v0.7.0 2021年8月25日#

  • 增强
    • list_semantic_tags 的标签中添加了 'passthrough''ignore' (GH#1094)

    • 添加了使用部分表模式初始化 (GH#1100)

    • Ordinal 逻辑类型指定的顺序应用于底层系列 (GH#1097)

    • 添加了 AgeFractional 逻辑类型 (GH#1112)

感谢以下人员对本次发布的贡献:@davesque@jeff-hernandez@tamargrey@tuethan1999

破坏性更改#

  • :pr:1100: init 的行为已更改。完整模式是指包含 DataFrame 所有列的模式,而部分模式仅包含 DataFrame 的子集。完整模式还需要模式有效,并且无需对 DataFrame 进行任何更改。在此之前,init 方法仅允许完整模式,因此传递部分模式会出错。此外,如果传递模式,任何参数(例如 logical_types)都将被忽略。现在,将部分模式传递给 init 方法会调用 init_with_partial_schema 方法,而不是引发错误。关键字参数中的信息将覆盖部分模式中的信息。例如,如果列 a 在部分模式中具有 Integer 逻辑类型,则可以通过传递 {'a': None} 来重新推断其逻辑类型,或通过传递 {'a': Double} 来强制指定类型。这些更改意味着 Woodwork 的初始化限制更少。如果未进行类型推断且初始化时无需对 DataFrame 进行任何更改,则应使用 init_with_full_schema 而不是 initinit_with_full_schema 保持了将模式传递给旧版 init 时的相同功能。

v0.6.0 2021年8月4日#

  • 修复
    • 修复 _infer_datetime_format 在所有 np.nan 输入下存在的 bug (GH#1089)

  • 变更
    • 分类类型推断的标准已更改 (GH#1065)

    • categorical_thresholdnumeric_categorical_threshold 设置的含义已更改 (GH#1065)

    • 使类型推断的采样更加一致 (GH#1083)

    • 检查 Woodwork 是否已初始化的访问器逻辑移至装饰器 (GH#1093)

  • 文档变更
    • 修复一些出现在错误发布版本下的发布说明 (GH#1082)

    • 在文档中添加 BooleanNullable 和 IntegerNullable 类型 (GH#1085)

    • 添加保存和加载 Woodwork DataFrame 的指南 (GH#1066)

    • 添加关于逻辑类型和语义标签的深入指南 (GH#1086)

  • 测试变更
    • 为最低和最新依赖项检查器添加额外的审阅者 (GH#1070, GH#1073, GH#1077)

    • 更新 sample_df fixture,以包含更广泛的逻辑类型覆盖范围 (GH#1058)

感谢以下人员对本次发布的贡献:@davesque@gsheni@jeff-hernandez@rwedge@tamargrey@thehomebrewnerd@tuethan1999

破坏性更改#

  • GH#1065: 分类类型推断的标准已更改。与之相关的是,categorical_thresholdnumeric_categorical_threshold 设置的含义也已更改。现在,当系列具有“categorical”pandas dtype 唯一值计数(不包括 nan)与总值计数(也不包括 nan)的比率小于或等于某个分数时,会发出分类匹配信号。用于此分数的值由 categorical_threshold 设置决定,该设置的默认值现在为 0.2。如果为 numeric_categorical_threshold 设置了分数,则具有浮点或整数 dtype 的系列可能会通过应用上述逻辑(使用 numeric_categorical_threshold 分数)被推断为分类类型。否则,numeric_categorical_threshold 设置默认为 None,表示不应将具有数字类型的系列推断为分类类型。覆盖了 categorical_thresholdnumeric_categorical_threshold 设置的用户需要相应地调整其设置。

  • GH#1083: 更新了用于逻辑类型推断的系列采样过程,使其更加一致。之前,初始采样进行推断的方式因集合类型(pandas、dask 或 koalas)而异。此外,在分类推断的某些情况下和电子邮件推断的所有情况下(无论集合类型如何),都会执行进一步的随机二次采样。总的来说,采样的进行方式是不一致且不可预测的。现在,无论集合类型如何,都对列的前 100,000 条记录进行逻辑类型推断采样,但只会使用来自 dask 数据集第一个分区的记录。已删除单个类型推断函数执行的二次采样。这些更改的影响是推断的类型现在可能有所不同,尽管在许多情况下它们将更准确。

v0.5.1 2021年7月22日#

  • 增强
    • 在 Datetime 逻辑类型实例上存储推断的日期时间格式 (GH#1025)

    • 添加了对自动推断 EmailAddress 逻辑类型的支持 (GH#1047)

    • 向模式添加特征来源属性 (GH#1056)

    • 添加了计算异常值和箱线图所需统计信息的功能到 WoodworkColumnAccessor (GH#1048)

    • 添加了使用 ww.config.with_options 在 with 块中更改配置设置的功能 (GH#1062)

  • 修复
    • 当用户向 DataFrame 添加带有索引标签的列时,会发出警告并删除标签 (GH#1035)

  • 变更
    • 完全为 null 的列现在被推断为 Unknown 逻辑类型 (GH#1043)

    • 添加了检查对象是否为 koalas/dask series 或 dataframe 的帮助函数 (GH#1055)

    • TableAccessor.select 方法现在将在 TableSchema 列中保持 DataFrame 列的顺序 (GH#1052)

  • 文档变更
    • 在元数据 docstring 中添加支持的类型 (GH#1049)

感谢以下人员对本次发布的贡献:@davesque@frances-h@jeff-hernandez@simha104@tamargrey@thehomebrewnerd

v0.5.0 2021年7月7日#

  • 增强
    • 添加了对 Woodwork 的 numpy 数组输入的支持 (GH#1023)

    • 添加了对 Woodwork 的 pandas.api.extensions.ExtensionArray 输入的支持 (GH#1026)

  • 修复
    • 向 ww.init_series 添加输入验证 (GH#1015)

  • 变更
    • 移除 LogicalType.transform 中在 dtype 冲突时引发错误的行 (GH#1012)

    • 添加 infer_datetime_format 参数以加快 to_datetime 调用的速度 (GH#1016)

    • 默认逻辑类型现在是 Unknown 类型,而不是 NaturalLanguage 类型 (GH#992)

    • 添加 pandas 1.3.0 兼容性 (GH#987)

感谢以下人员对本次发布的贡献:@jeff-hernandez@simha104@tamargrey@thehomebrewnerd@tuethan1999

破坏性更改#

  • 默认逻辑类型现在是 Unknown 类型,而不是 NaturalLanguage 类型。全局配置 natural_language_threshold 已重命名为 categorical_threshold

v0.4.2 2021年6月23日#

  • 增强
    • 在回调函数中传递额外的进度信息 (GH#979)

    • 添加使用 DataFrame.ww.describe_dict 生成可选额外统计信息的功能 (GH#988)

    • 添加读写 orc 文件的选项 (GH#997)

    • 调用 series.ww.to_frame() 时保留模式 (GH#1004)

  • 修复
    • Datetime 逻辑类型中引发类型转换错误 (GH#1001)

    • 尝试 collections.abc 以避免弃用警告 (GH#1010)

  • 变更
    • DataFrame.ww.init 中移除 make_index 参数 (GH#1000)

    • 移除 dask 要求的版本限制 (GH#998)

  • 文档变更
    • 添加安装更新检查器的说明 (GH#993)

    • 在文档构建中禁用 pdf 格式 (GH#1002)

    • 在文档构建中静默弃用警告 (GH#1008)

    • 暂时移除更新检查器以修复文档警告 (GH#1011)

  • 测试变更

感谢以下人员对本次发布的贡献:@frances-h@gsheni@jeff-hernandez@tamargrey@thehomebrewnerd@tuethan1999

破坏性更改#

  • 进度回调函数参数已更改,进度现在以测量单位参数指定的单位报告,而不是总百分比。进度回调函数现在应接受以下五个参数:

    • 自上次调用以来的进度增量

    • 目前已完成的进度单位

    • 需要完成的总单位

    • 进度测量单位

    • 自计算开始以来经过的时间

  • DataFrame.ww.init 不再接受 make_index 参数

v0.4.1 2021年6月9日#

  • 增强
    • 添加了 concat_columns 工具函数,用于将多个 Woodwork 对象连接成一个,并保留类型信息 (GH#932)

    • 添加了将进度回调函数传递给互信息函数的可选功能 (GH#958)

    • 添加了可选的自动更新检查器 (GH#959, GH#970)

  • 修复
    • 修复了与带有空格和换行符的数据序列化/反序列化相关的问题 (GH#957)

    • 更新以允许使用 Ordinal 逻辑类型且不带顺序值来初始化 ColumnSchema 对象 (GH#972)

  • 变更
    • 更改 write_dataframe,仅在 DataFrame 包含 LatLong 时才复制 DataFrame (GH#955)

  • 测试变更
    • 修复了 test_list_logical_types_default 中的 bug (GH#954)

    • 更新最低单元测试,使其在所有拉取请求上运行 (GH#952)

    • 传递 token 以授权上传 codecov 报告 (GH#969)

感谢以下人员对本次发布的贡献:@frances-h@gsheni@tamargrey@thehomebrewnerd

v0.4.0 2021年5月26日#

  • 增强
    • 添加选项,使表访问器 select 方法返回 TableSchema 而不是 DataFrame (GH#916)

    • 添加读写 arrow/feather 文件的选项 (GH#948)

    • 添加就地删除和重命名列的功能 (GH#920)

    • 添加将进度回调函数传递给互信息函数的可选功能 (GH#943)

  • 修复
    • 修复通过访问器设置表名和元数据时的 bug (GH#942)

    • 修复反序列化时类别值的 dtype 未正确恢复的 bug (GH#949)

  • 变更
    • 添加逻辑类型方法以转换数据 (GH#915)

  • 测试变更
    • 更新最低单元测试的运行时间,以包含最低文本文件 (GH#917)

    • 为每个 CI 作业创建独立的工作流 (GH#919)

感谢以下人员对本次发布的贡献:@gsheni@jeff-hernandez@thehomebrewnerd@tuethan1999

v0.3.1 2021年5月12日#

警告

此 Woodwork 版本使用弱引用来维护从访问器到 DataFrame 的引用。因此,将 Woodwork 调用链接到创建新的 DataFrame 或 Series 对象的另一个调用可能会有问题。

请勿调用 pd.DataFrame({'id':[1, 2, 3]}).ww.init(),而是先将 DataFrame 存储在新变量中,然后再初始化 Woodwork

df = pd.DataFrame({'id':[1, 2, 3]})
df.ww.init()
  • 增强
    • 向 Woodwork Accessor 和 Schema 相等性检查添加 deep 参数 (GH#889)

    • woodwork.read_file 添加从 parquet 文件读取的支持 (GH#909)

  • 变更
    • 移除列出逻辑和语义标签的命令行函数 (GH#891)

    • 从表中选择单列时保留索引和时间索引标签 (GH#888)

    • 更新访问器以存储对数据的弱引用 (GH#894)

  • 文档变更
    • 更新 nbsphinx 版本以修复文档构建问题 (GH#911, GH#913)

  • 测试变更
    • 使用最低依赖项生成器 GitHub Action 并移除 tools 文件夹 (GH#897)

    • 将所有最新和最低依赖项移至 1 个文件夹 (GH#912)

感谢以下人员对本次发布的贡献:@gsheni@jeff-hernandez@tamargrey@thehomebrewnerd

破坏性更改#

  • 不再支持使用 df.ww.to_csvdf.ww.to_pickledf.ww.to_parquet 将 Woodwork 表保存到磁盘。请改用 df.ww.to_disk

read_csv 函数已被 read_file 替换。

  • 增强
    • v0.3.0 2021年5月3日#

    • 添加 is_schema_validget_invalid_schema_message 函数,用于检查模式有效性 (GH#834)

    • 添加 AgeAgeNullable 的逻辑类型 (GH#849)

    • 添加 Address 的逻辑类型 (GH#858)

    • 添加通用 to_disk 函数以保存 Woodwork 模式和数据 (GH#872)

  • 修复
    • 添加通用 read_file 函数以将文件读取为 Woodwork DataFrame (GH#878)

    • 当一列同时设置为索引和时间索引时引发错误 (GH#859)

    • 允许在模式验证检查中包含 NaNs (GH#862)

  • 变更
    • 修复无效转换为 Boolean 不会引发错误的 bug (GH#863)

    • 对于用户输入与 DataFrame/模式列之间的不匹配,始终使用 ColumnNotPresentError (GH#837)

    • 在初始化之前访问 Woodwork 属性时引发自定义 WoodworkNotInitError (GH#838)

    • 移除要求使用 Ordinal 实例初始化 ColumnSchema 对象的检查 (GH#870)

  • 文档变更
    • 增加 koalas 的最低版本至 1.8.0 (GH#885)

  • 测试变更
    • 改进发布说明的格式 (GH#874)

    • 移除 codecov 上传作业中不必要的参数 (GH#853)

    • 更改 GitHub Token 为重新生成的 GitHub PAT 依赖项检查器 (GH#855)

更新 README.md 中的代码示例,包含不可为空的 dtypes (GH#856)

感谢以下人员对本次发布的贡献:@frances-h@gsheni@jeff-hernandez@rwedge@tamargrey@thehomebrewnerd

  • 破坏性更改#

  • Woodwork 表不能再使用 df.ww.to_csvdf.ww.to_pickledf.ww.to_parquet 保存到磁盘。请改用 df.ww.to_disk

read_csv 函数已被 read_file 替换。

警告

v0.2.0 2021年4月20日#

  • 增强
    • 此 Woodwork 版本不支持 Python 3.6

    • 向 WoodworkTableAccessor 添加验证控制 (GH#736)

    • 在 WoodworkTableAccessor 上存储 make_index 值 (GH#780)

    • 向 WoodworkTableAccessor select 方法添加可选的 exclude 参数 (GH#783)

    • deserialize.read_woodwork_tableww.read_csv 添加验证控制 (GH#788)

    • 添加 WoodworkColumnAccessor.schema 并处理列模式的复制 (GH#799)

    • 允许使用 ColumnSchema 初始化 WoodworkColumnAccessor (GH#814)

    • ColumnSchema 添加 __repr__ (GH#817)

    • 添加 BooleanNullableIntegerNullable 逻辑类型 (GH#830)

  • 变更
    • WoodworkColumnAccessor 添加验证控制 (GH#833)

    • FullName 逻辑类型重命名为 PersonFullName (GH#740)

    • ZIPCode 逻辑类型重命名为 PostalCode (GH#741)

    • 修复 smart-open 版本 5.0.0 的问题 (GH#750, GH#758)

    • 更新 scikit-learn 的最低版本至 0.22 (GH#763)

    • 放弃对 Python 3.6 版本的支持 (GH#768)

    • 移除 ColumnNameMismatchWarning (GH#777)

    • get_column_dict 默认不使用标准标签 (GH#782)

    • 使 _get_column_dictlogical_typename 参数可选 (GH#786)

    • 重命名 Schema 对象和文件以匹配新的表-列模式结构 (GH#789)

    • 将列类型信息存储在 ColumnSchema 对象中,而不是字典中 (GH#791)

    • TableSchema 默认不使用标准标签 (GH#806)

    • use_standard_tags 存储在 ColumnSchema 上,而不是 TableSchema 上 (GH#809)

  • 文档变更
    • column_schema.py 中的函数移至 ColumnSchema 的方法中 (GH#829)

    • 更新 Pygments 版本要求 (GH#751)

  • 测试变更
    • 更新文档构建的 spark 配置 (GH#787, GH#801, GH#810)

    • 在 PRs 和 main 上添加针对 python 3.6 最低依赖项的单元测试 (GH#743, GH#753, GH#763)

    • 更新测试 fixture 的 spark 配置 (GH#787)

    • 将最新的单元测试分为 pandas、dask、koalas (GH#813)

    • 检查版本说明更新时忽略最新的依赖项分支 (GH#827)

    • 依赖项检查器从 GitHub PAT 更改为自动生成的 GitHub Token (GH#831)

    • 扩展 ColumnSchema 语义标签测试覆盖范围和 null logical_type 测试覆盖范围 (GH#832)

感谢以下人员对本次发布做出的贡献:@gsheni, @jeff-hernandez, @rwedge, @tamargrey, @thehomebrewnerd

重大变更#

  • ZIPCode 逻辑类型已重命名为 PostalCode

  • FullName 逻辑类型已重命名为 PersonFullName

  • Schema 对象已重命名为 TableSchema

  • 对于 ColumnSchema 对象,列的类型信息不再能通过 df.ww.columns[col_name]['logical_type'] 访问。请改用 df.ww.columns[col_name].logical_type

  • BooleanInteger 逻辑类型不再适用于包含 null 值的数据。如果存在 null 值,应使用新的 BooleanNullableIntegerNullable 逻辑类型。

v0.1.0 Mar 22, 2021#

  • 增强
    • 实现 Schema 和 Accessor API (GH#497)

    • 添加保存类型信息的 Schema 类 (GH#499)

    • 添加执行类型推断并存储 Schema 的 WoodworkTableAccessor 类 (GH#514)

    • 允许使用有效的 Schema 对象初始化 Accessor Schema (GH#522)

    • 添加读取 csv 并创建具有初始化 Woodwork Schema 的 DataFrame 的能力 (GH#534)

    • 添加从 Accessor 调用 pandas 方法的能力 (GH#538, GH#589)

    • 添加用于检查列是否为 Boolean, Datetime, numeric 或 categorical 之一的辅助函数 (GH#553)

    • 添加使用 Woodwork Accessor 加载演示零售数据集的能力 (GH#556)

    • 向 WoodworkTableAccessor 添加 select (GH#548)

    • 向 WoodworkTableAccessor 添加 mutual_information (GH#571)

    • 添加 WoodworkColumnAccessor 类 (GH#562)

    • 向 column accessor 添加语义标签更新方法 (GH#573)

    • 向 WoodworkTableAccessor 添加 describedescribe_dict (GH#579)

    • 添加用于初始化具有 dtype 更改的 series 的 init_series 工具函数 (GH#581)

    • 向 WoodworkColumnAccessor 添加 set_logical_type 方法 (GH#590)

    • 向 table schema 添加语义标签更新方法 (GH#591)

    • 如果传递了 schema 的额外参数,则添加警告 (GH#593)

    • 在初始化之前访问列属性时发出更好的警告 (GH#596)

    • 更新 column accessor 以处理 LatLong 列 (GH#598)

    • 向 WoodworkTableAccessor 添加 set_index (GH#603)

    • 为 WoodworkColumnAccessor 实现 lociloc (GH#613)

    • 向 WoodworkTableAccessor 添加 set_time_index (GH#612)

    • 为 WoodworkTableAccessor 实现 lociloc (GH#618)

    • 允许使用 set_types 更新逻辑类型并进行相关的 DataFrame 更改 (GH#619)

    • 允许将 WoodworkColumnAccessor 序列化为 csv, pickle 和 parquet 格式 (GH#624)

    • 添加 DaskColumnAccessor (GH#625)

    • 允许从 csv, pickle 和 parquet 格式反序列化到 Woodwork 表 (GH#626)

    • 向 WoodworkTableAccessor 添加 value_counts (GH#632)

    • 添加 KoalasColumnAccessor (GH#634)

    • 向 WoodworkTableAccessor 添加 pop (GH#636)

    • 向 WoodworkTableAccessor 添加 drop (GH#640)

    • 向 WoodworkTableAccessor 添加 rename (GH#646)

    • 添加 DaskTableAccessor (GH#648)

    • 向 WoodworkTableAccessor 添加 Schema 属性 (GH#651)

    • 添加 KoalasTableAccessor (GH#652)

    • 向 WoodworkTableAccessor 添加 __getitem__ (GH#633)

    • 更新 Koalas 最低版本并为更多新的 pandas dtypes 添加 Koalas 支持 (GH#678)

    • 向 WoodworkTableAccessor 添加 __setitem__ (GH#669)

  • 修复
    • 在 Accessors 上执行 pandas 操作时创建新的 Schema 对象 (GH#595)

    • 修复 _reset_semantic_tags 中的 bug,该 bug 导致列共享相同的语义标签集合 (GH#666)

    • 在 DataFrame 和 Woodwork repr 中保持列顺序 (GH#677)

  • 变更
    • 将互信息逻辑移至统计工具文件 (GH#584)

    • 将 Koalas 最低版本提高到 1.4.0 (GH#638)

    • 在未创建 Woodwork 索引时保留 pandas 底层索引 (GH#664)

    • 由于重大变更,将 Koalas 版本限制为 <1.7.0 (GH#674)

    • 清理 Woodwork 中的 dtype 使用 (GH#682)

    • 改进在初始化之前调用 accessor 属性或方法时的错误消息 (GH#683)

    • 从 Schema 字典中移除 dtype (GH#685)

    • 添加 include_index 参数并允许在 Accessor 互信息中包含唯一列 (GH#699)

    • 在 WoodworkTableAccessor 相等性检查中包含 DataFrame 相等性和 use_standard_tags (GH#700)

    • 移除 DataTableDataColumn 类,以转向 accessor 方法 (GH#713)

    • 更改 sample_series dtype 使其不再需要转换,并移除 convert_series 工具函数 (GH#720)

    • 由于 DataTable 已被移除,重命名 Accessor 方法 (GH#723)

  • 文档变更
    • 更新 README.md 和 Get Started 指南以使用 accessor (GH#655, GH#717)

    • 更新 Understanding Types and Tags 指南以使用 accessor (GH#657)

    • 更新 docstrings 和 API 参考页面 (GH#660)

    • 更新统计洞察指南以使用 accessor (GH#693)

    • 更新 Customizing Type Inference 指南以使用 accessor (GH#696)

    • 更新 Dask 和 Koalas 指南以使用 accessor (GH#701)

    • 更新 index notebook 和安装指南以使用 accessor (GH#715)

    • 在文档中添加关于 schema 有效性的部分 (GH#729)

    • 更新 README.md 和 Get Started 指南以使用 pd.read_csv (GH#730)

    • 对文档格式进行小改动 (GH#731)

  • 测试变更
    • 向 Accessor/Schema 添加之前未涵盖的测试 (GH#712, GH#716)

    • 在 notes update 检查中更新发布分支名称 (GH#719)

感谢以下人员对本次发布做出的贡献:@gsheni, @jeff-hernandez, @johnbridstrup, @tamargrey, @thehomebrewnerd

重大变更#

  • DataTableDataColumn 类已被移除,并替换为新的 WoodworkTableAccessorWoodworkColumnAccessor 类,在导入 Woodwork 后可通过 DataFrame 的 ww 命名空间使用。

v0.0.11 Mar 15, 2021#

  • 变更
    • 由于重大变更,将 Koalas 版本限制为 <1.7.0 (GH#674)

    • 在互信息计算中包含唯一列 (GH#687)

    • 添加参数以在互信息计算中包含索引列 (GH#692)

  • 文档变更
    • 更新以移除统计洞察指南中的警告消息 (GH#690)

  • 测试变更
    • 更新测试中的分支引用以在 main 上运行 (GH#641)

    • 将版本说明更新检查与单元测试分开 (GH#642)

    • 更新发布分支命名说明 (GH#644)

感谢以下人员对本次发布做出的贡献:@gsheni, @tamargrey, @thehomebrewnerd

v0.0.10 Feb 25, 2021#

  • 变更
    • 避免计算非唯一列的互信息 (GH#563)

    • 如果未指定索引列,保留底层 DataFrame 索引 (GH#588)

    • 添加空白 issue 模板用于创建 issue (GH#630)

  • 测试变更
    • 更新测试工作流中的分支引用 (GH#552, GH#601)

    • 修复安装页面上返回箭头的文本 (GH#564)

    • 重构 test_datatable.py (GH#574)

感谢以下人员对本次发布做出的贡献:@gsheni, @jeff-hernandez, @johnbridstrup, @tamargrey

v0.0.9 Feb 5, 2021#

  • 增强
    • 添加 Python 3.9 支持,不进行 Koalas 测试 (GH#511)

    • 添加 get_valid_mi_types 函数,用于列出可用于互信息计算的 LogicalTypes (GH#517)

  • 修复
    • 处理计算互信息时 Datetime 列中的缺失值 (GH#516)

    • 通过限制 koalas 版本并更改序列化错误消息来支持 numpy 1.20.0 (GH#532)

    • 将 Koalas 选项设置移至 DataTable 初始化,而不是导入时 (GH#543)

  • 文档变更
    • 添加 Alteryx OSS Twitter 链接 (GH#519)

    • 更新 logo 并添加新 favicon (GH#521)

    • 对 Getting Started 页面和指南进行了多项改进 (GH#527)

    • 清理 API 参考和 docstrings (GH#536)

    • 为 Twitter 和 Facebook 添加 Open Graph (GH#544)

感谢以下人员对本次发布做出的贡献:@gsheni, @tamargrey, @thehomebrewnerd

v0.0.8 Jan 25, 2021#

  • 增强
    • 添加 DataTable.df 属性,用于访问底层 DataFrame (GH#470)

    • 设置底层 DataFrame 的索引以匹配 DataTable 索引 (GH#464)

  • 修复
    • 排序 dataframe 时对底层 series 进行排序 (GH#468)

    • 允许将索引设置为当前索引,而不会产生副作用 (GH#474)

  • 变更
    • 修复包含 Github Actions CI 链接的发布文档 (GH#462)

    • 不允许注册同名的 LogicalTypes (GH#477)

    • str_to_logical_type 移至 TypeSystem 类 (GH#482)

    • 从核心依赖项中移除 pyarrow (GH#508)

感谢以下人员对本次发布做出的贡献:@gsheni, @tamargrey, @thehomebrewnerd

v0.0.7 Dec 14, 2020#

  • 增强
    • 允许在 TypeSystem 对象中定义用户定义的逻辑类型和推断函数 (GH#424)

    • 向 DataTable 添加 __repr__ (GH#425)

    • 允许使用 numpy 数组初始化 DataColumn (GH#430)

    • 向 DataTable 添加 drop (GH#434)

    • 将 CI 测试迁移到 Github Actions (GH#417, GH#441, GH#451)

    • 为用户定义的元数据向 DataColumn 添加 metadata (GH#447)

  • 修复
    • 在使用 setitem 设置无名称列时更新 DataColumn 名称 (GH#426)

    • 不允许 Koalas DataFrames 的 pickle 序列化 (GH#432)

    • 在相等性检查中检查 DataTable metadata (GH#449)

    • _new_dt_including 中传播 DataTable 的所有属性 (GH#454)

  • 变更
    • 更新链接以使用 alteryx 组织的 Github URL (GH#423)

    • 支持底层 DataFrame 允许的任何类型的列名 (GH#442)

    • 为 LatLong 列使用 object dtype,以便轻松访问经度和纬度值 (GH#414)

    • 限制 dask 版本以防止安装 2020.12.0 版本 (GH#453)

    • 降低 numpy 的最低要求到 1.15.4,并设置 pandas 的最低要求 1.1.1 (GH#459)

  • 测试变更
    • 修复缺失的测试覆盖范围 (GH#436)

感谢以下人员对本次发布的贡献:@gsheni@jeff-hernandez@tamargrey@thehomebrewnerd

v0.0.6 Nov 30, 2020#

  • 增强
    • 添加对从 Koalas DataFrame 创建 DataTable 的支持 (GH#327)

    • 添加使用 numpy 数组初始化 DataTable 的能力 (GH#367)

    • 向 DataTable 添加 describe_dict 方法 (GH#405)

    • 向 DataTable 添加 mutual_information_dict 方法 (GH#404)

    • 为用户定义的元数据向 DataTable 添加 metadata (GH#392)

    • 向 DataTable 添加 update_dataframe 方法以更新底层 DataFrame (GH#407)

    • 如果指定了 time_index,则对 dataframe 进行排序,使用 already_sorted 参数绕过排序。 (GH#410)

    • 向 DataColumn 添加 description 属性 (GH#416)

    • 实现 DataColumn.__len__DataTable.__len__ (GH#415)

  • 修复
    • data_column.py 重命名为 datacolumn.py (GH#386)

    • data_table.py 重命名为 datatable.py (GH#387)

    • get_mutual_information 重命名为 mutual_information (GH#390)

  • 变更
    • 降低 moto 测试对序列化/反序列化的要求 (GH#376)

    • 将 Koalas 设置为可通过 woodwork[koalas] 安装的可选依赖项 (GH#378)

    • 从 Woodwork 中移除 WholeNumber LogicalType (GH#380)

    • 更新 LogicalTypes 以支持 Koalas 1.4.0 (GH#393)

    • set_logical_typesset_semantic_tags 替换为 set_types (GH#379)

    • 从 DataTable 初始化中移除 copy_dataframe 参数 (GH#398)

    • 实现 DataTable.__sizeof__ 以返回底层 dataframe 的大小 (GH#401)

    • 在互信息计算中包含 Datetime 列 (GH#399)

    • 在 DataTable 操作中保持列顺序 (GH#406)

  • 测试变更
    • 将 pyarrow, dask 和 koalas 添加到自动化依赖项检查中 (GH#388)

    • 使用新版本的 pull request Github Action (GH#394)

    • 改进 test_datatable_equality 的参数化 (GH#409)

感谢以下人员对本次发布做出的贡献:@ctduffy, @gsheni, @tamargrey, @thehomebrewnerd

重大变更#

  • 移除了 DataTable.set_semantic_tags 方法。可以使用 DataTable.set_types 代替。

  • 移除了 DataTable.set_logical_types 方法。可以使用 DataTable.set_types 代替。

  • 从 LogicalTypes 中移除了 WholeNumber。之前被推断为 WholeNumber 的列现在将被推断为 Integer。

  • DataTable.get_mutual_information 重命名为 DataTable.mutual_information

  • 从 DataTable 初始化中移除了 copy_dataframe 参数。

v0.0.5 Nov 11, 2020#

  • 增强
    • 向 DataTable 和 DataColumn 添加 __eq__ 并更新 LogicalType 相等性 (GH#318)

    • 向 DataTable 添加 value_counts() 方法 (GH#342)

    • 支持通过 csv, pickle 或 parquet 序列化和反序列化 DataTable (GH#293)

    • 向 DataTable 和 DataColumn 添加 shape 属性 (GH#358)

    • 向 DataTable 和 DataColumn 添加 iloc 方法 (GH#365)

    • 添加 numeric_categorical_threshold 配置值,允许将数字列推断为 Categorical 类型 (GH#363)

    • 向 DataTable 添加 rename 方法 (GH#367)

  • 修复
    • 在验证时捕获非数字时间索引 (GH#332)

  • 变更
    • 支持从 Dask DataFrame 推断逻辑类型 (GH#248)

    • 修复验证检查和 make_index 以使用 Dask DataFrames (GH#260)

    • 跳过对 Dask DataFrames 的 Ordinal 排序值的验证 (GH#270)

    • 改进对 Dask 输入中 datetimes 的支持 (GH#286)

    • 更新 DataTable.describe 以处理 Dask 输入 (GH#296)

    • 更新 DataTable.get_mutual_information 以处理 Dask 输入 (GH#300)

    • 修改 to_pandas 函数以返回带有正确索引的 DataFrame (GH#281)

    • DataColumn.to_pandas 方法重命名为 DataColumn.to_series (GH#311)

    • DataTable.to_pandas 方法重命名为 DataTable.to_dataframe (GH#319)

    • 移除未找到匹配列时的 UserWarning (GH#325)

    • 移除 copy 参数从 DataTable.to_dataframeDataColumn.to_series (GH#338)

    • 允许将 pandas ExtensionArrays 作为 DataColumn 的输入 (GH#343)

    • 将警告移至单独的 exceptions 文件,并通过 UserWarning 子类调用 (GH#348)

    • 将 Dask 设置为可通过 woodwork[dask] 安装的可选依赖项 (GH#357)

  • 文档变更
    • 创建使用 Woodwork 和 Dask 的指南 (GH#304)

    • 添加 conda 安装说明 (GH#305, GH#309)

    • 修复 README.md badge 中的链接 (GH#314)

    • 简化 issue 模板,使其更易于使用 (GH#339)

    • 移除 Start notebook 中多余的输出单元 (GH#341)

  • 测试变更
    • 参数化数字时间索引测试 (GH#288)

    • 在 CI 测试环境中添加 DockerHub 凭据 (GH#326)

    • 修复序列化测试中移除文件的问题 (GH#350)

感谢以下人员对本次发布做出的贡献:@ctduffy, @gsheni, @tamargrey, @thehomebrewnerd

重大变更#

  • DataColumn.to_pandas 方法重命名为 DataColumn.to_series

  • DataTable.to_pandas 方法重命名为 DataTable.to_dataframe

  • copy 不再是 DataTable.to_dataframeDataColumn.to_series 的参数。

v0.0.4 Oct 21, 2020#

  • 增强
    • DataTable.describe() 添加可选的 include 参数以过滤结果 (GH#228)

    • DataTable.__init__ 添加 make_index 参数,以启用可选地创建新的索引列 (GH#238)

    • 添加支持为具有 Ordinal 逻辑类型的列设置排序顺序 (GH#240)

    • 添加 list_semantic_tags 函数和 CLI 以获取 woodwork semantic_tags 的 dataframe (GH#244)

    • 支持 DataTable 上的数字时间索引 (GH#267)

    • 向 DataTable 添加 pop 方法 (GH#289)

    • 向 setup.py 添加入口点以运行 CLI 命令 (GH#285)

  • 修复
    • 允许数字 datetime 时间索引 (GH#282)

  • 变更
    • 移除冗余方法 DataTable.select_ltypesDataTable.select_semantic_tags (GH#239)

    • 通过排序和移除自计算,使 get_mutual_information 的结果更清晰 (GH#247)

    • 降低 scikit-learn 最低版本到 0.21.3 (GH#297)

  • 文档变更
    • 添加 dt.describedt.get_mutual_information 的指南 (GH#245)

    • 更新 README.md,包含文档链接 (GH#261)

    • 向文档页面添加页脚,包含 Alteryx Open Source (GH#258)

    • 在 Understanding Types and Tags 指南中添加 types 和 tags 的一句话定义 (GH#271)

    • 添加 issue 和 pull request 模板 (GH#280, GH#284)

  • 测试变更
    • 添加自动化流程以检查最新依赖项 (GH#268)

    • 添加测试,用于验证使用指定字符串逻辑类型设置时间索引的功能 (GH#279)

感谢以下人员对本次发布做出的贡献:@ctduffy, @gsheni, @tamargrey, @thehomebrewnerd

v0.0.3 Oct 9, 2020#

  • 增强
    • 在 DataTable 上实现 setitem 以创建/覆盖现有 DataColumn (GH#165)

    • 向 DataColumn 添加 to_pandas 方法,用于访问底层 series (GH#169)

    • 添加 list_logical_types 函数和 CLI 以获取 woodwork LogicalTypes 的 dataframe (GH#172)

    • 向 DataTable 添加 describe 方法,用于生成底层数据的统计信息 (GH#181)

    • load_retail 添加可选的 return_dataframe 参数,用于返回 DataFrame 或 DataTable (GH#189)

    • 向 DataTable 添加 get_mutual_information 方法,用于生成列之间的互信息 (GH#203)

    • 添加 read_csv 函数,直接从 CSV 文件创建 DataTable (GH#222)

  • 修复
    • 修复导致 DataTable.describe 方法中四分位数数值不正确的 bug (GH#187)

    • 修复 DataTable.describe 中的 bug,该 bug 可能导致在不正确应用某些语义标签时出错 (GH#190)

    • 修复实例化 LogicalTypes 在与 issubclass 一起使用时损坏的 bug (GH#231)

  • 变更
    • 移除 DataTable 中不必要的 add_standard_tags 属性 (GH#171)

    • 从索引列中移除标准标签,并且不从 DataTable.describe 返回索引列的统计信息 (GH#196)

    • 更新 DataColumn.set_semantic_tagsDataColumn.add_semantic_tags 以返回新对象 (GH#205)

    • 更新各种 DataTable 方法以返回新对象而不是就地修改 (GH#210)

    • 将 datetime_format 移至 Datetime LogicalType (GH#216)

    • DataTable.get_mutual_information 中不与索引列计算互信息 (GH#221)

    • 将底层物理类型的设置从 DataTable 移至 DataColumn (GH#233)

  • 文档变更
    • 移除 sphinx conf.py 中未使用的代码,更新 Github URL (GH#160, GH#163)

    • 更新 README 和文档,包含新的 Woodwork logo 和更好的代码片段 (GH#161, GH#159)

    • 将 DataTable 和 DataColumn 添加到 API Reference (GH#162)

    • 向 LogicalType 类添加 docstrings (GH#168)

    • 将 Woodwork 图像添加到索引页,清除 docs 中 Jupyter notebook 的输出 (GH#173)

    • 更新 contributing.md 和 release.md,包含所有说明 (GH#176)

    • 向 Start notebook 添加设置索引和时间索引的部分 (GH#179)

    • 将 changelog 重命名为 Release Notes (GH#193)

    • 向 Start notebook 添加标准标签的部分 (GH#188)

    • 添加 Understanding Types and Tags 用户指南 (GH#201)

    • 添加 list_logical_types 中缺失的 docstring (GH#202)

    • 添加 Woodwork 全局配置选项指南 (GH#215)

  • 测试变更
    • 添加测试,确认 DataTable 初始化后 dtypes 符合预期 (GH#152)

    • 移除未使用的 none_df 测试 fixture (GH#224)

    • 添加 LogicalType.__str__ 方法的测试 (GH#225)

感谢以下人员对本次发布做出的贡献:@gsheni, @tamargrey, @thehomebrewnerd

v0.0.2 Sep 28, 2020#

  • 修复
    • 修复打印全局配置变量时的格式问题 (GH#138)

  • 变更
    • 将 add_standard_tags 改为 use_standard_Tags 以更好地描述其行为 (GH#149)

    • 将访问底层 dataframe 的方式更改为通过 to_pandas,并使用类上的 ._dataframe 字段 (GH#146)

    • 移除 DataTables 的 replace_none 参数 (GH#146)

  • 文档变更
    • 向 README 添加工作代码示例并创建 Using Woodwork 页面 (GH#103)

感谢以下人员对本次发布做出的贡献:@gsheni, @tamargrey, @thehomebrewnerd

v0.1.0 Sep 24, 2020#

  • 添加 natural_language_threshold 全局配置选项,用于 Categorical/NaturalLanguage 类型推断 (GH#135)

  • 添加全局配置选项,并添加 datetime_format 选项用于类型推断 (GH#134)

  • 修复包含 pd.NA 值的列中 Integer 和 WholeNumber 推断的 bug (GH#133)

  • 添加 DataTable.ltypes 属性以返回逻辑类型的 series (GH#131)

  • 添加能力,使用 dt[[columns]] 从指定列创建新的 datatable (GH#127)

  • 处理索引列和时间索引列的设置和标记 (GH#125)

  • 添加组合的 tag 和 ltype 选择 (GH#124)

  • 添加 changelog,并更新 CI 中的 changelog 检查 (GH#123)

  • 实现 reset_semantic_tags (GH#118)

  • 实现 DataTable getitem (GH#119)

  • 添加 remove_semantic_tags 方法 (GH#117)

  • 添加 semantic tag selection (GH#106)

  • 添加 github action,重命名为 woodwork (GH#113)

  • 向 setup.py 添加 license (GH#112)

  • 在 logical type 更改时重置 semantic tags (GH#107)

  • 添加标准的 numeric 和 category 标签 (GH#100)

  • semantic_types 改为 semantic_tags,一个字符串集合 (GH#100)

  • 根据 logical types 更新 dataframe dtypes (GH#94)

  • 向 DataTable 添加 select_logical_types (GH#96)

  • 向 dev-requirements.txt 添加 pygments (GH#97)

  • 在 DataTable init 中添加将 None 替换为 np.nan 的功能 (GH#87)

  • 重构 DataColumn,将 semantic_typeslogical_type 设为私有 (GH#86)

  • 为每个 Logical Type 添加 pandas_dtype,并移除 DataColumn 上的 dtype 属性 (GH#85)

  • 在 DataTable 和 DataColumn 上添加 set_semantic_types 方法 (GH#75)

  • 支持传递 camel case 或 snake case 字符串来设置 logical types (GH#74)

  • 提高设置 semantic types 时的灵活性 (GH#72)

  • 添加 Whole Number Logical Types 推断 (GH#66)

  • 向 DataTables 添加 dtypes 属性,并添加 DataColumn 的 repr (GH#61)

  • 允许在 DataTable 创建期间指定 semantic types (GH#69)

  • 在 DataTable 上实现 set_logical_types (GH#65)

  • 向测试添加 init 文件以修复代码覆盖率 (GH#60)

  • 添加 AutoAssign bot (GH#59)

  • 在 DataTables 中添加 logical types 验证 (GH#49)

  • 修复 CI 中的 working_directory (GH#57)

  • 为 DataColumn 添加 infer_logical_types (GH#45)

  • 修复 ReadME 库名称和代码覆盖率 badge (GH#56, GH#56)

  • 添加代码覆盖率 (GH#51)

  • 改进和重构 DataTable 初始化时的验证检查 (GH#40)

  • 向 DataTable 添加 dataframe 属性 (GH#39)

  • 更新 ReadME,包含一些使用细节 (GH#37)

  • 添加 License (GH#34)

  • 从 datatables 重命名为 datatables (GH#4)

  • 添加 Logical Types, DataTable, DataColumn (GH#3)

  • 添加 Makefile, setup.py, requirements.txt (GH#2)

  • 初次发布 (GH#1)

感谢以下人员对本次发布做出的贡献:@gsheni, @tamargrey, @thehomebrewnerd