发布说明#
v0.31.0 2024年5月13日#
- 增强
增加对 Python 3.12 的支持 GH#1855
感谢以下人员为本次发布做出的贡献:@thehomebrewnerd
重大变更#
从本次发布开始,Woodwork 将不再支持与 Dask 或 Pyspark 数据帧一起使用。使用 pandas 数据帧时的行为保持不变。
v0.30.0 2024年4月10日#
警告
计划在 Woodwork 的后续版本中移除对与 Dask 和 Pyspark 数据帧一起使用的支持。
感谢以下人员为本次发布做出的贡献:@thehomebrewnerd
v0.29.0 2024年2月26日#
感谢以下人员为本次发布做出的贡献:@thehomebrewnerd
v0.28.0 2024年2月5日#
警告
此版本的 Woodwork 将不再支持 Python 3.8
- 变更
将 numpy 升级到 < 2.0.0 GH#1799
- 文档变更
在 Dask 文档的“其他限制”部分添加了 dask 字符串存储的注意事项 GH#1799
- 测试变更
升级了 moto 和 boto3 GH#1799
感谢以下人员为本次发布做出的贡献:@cp2boston, @gsheni, @tamargrey
v0.27.0 2023年12月12日#
变更 * 由于序列化问题,临时限制 pyarrow 版本 (GH#1768) * 更新 pandas 分类类型调用并移除 black 替换为 ruff 格式化程序 (GH#1794)
测试变更 * 移除了旧的性能测试工作流程 (GH#1776)
感谢以下人员为本次发布做出的贡献:@eccabay, @gsheni, @thehomebrewnerd, @petejanuszewski1
v0.26.0 2023年8月22日#
v0.25.1 2023年7月18日#
- 修复
限制
numpy
版本以解决 v1.25.0 中的布尔推断问题 GH#1735感谢以下人员为本次发布做出的贡献:@thehomebrewnerd
v0.25.0 2023年7月17日#
感谢以下人员为本次发布做出的贡献:@christopherbunn, @thehomebrewnerd
v0.24.0 2023年5月24日#
- 变更
停止计算包含整数值的 Double 列的
top_values
(GH#1692)感谢以下人员为本次发布做出的贡献:@bchen1116, @gsheni, @ParthivNaresh, @petejanuszewski1, @simha104, @tamargrey
v0.23.0 2023年4月12日#
- 修复
更新了
Datetime
格式推断,使其包含带有时区和两位数年份的格式 (GH#1666)感谢以下人员为本次发布做出的贡献:@gsheni, @jeff-hernandez, @ParthivNaresh, @simha104
v0.22.0 2023年3月13日#
感谢以下人员为本次发布做出的贡献:@bchen1116, @gsheni, @ParthivNaresh
v0.21.2 2023年1月11日#
感谢以下人员为本次发布做出的贡献:@ParthivNaresh, @sbadithe, @thehomebrewnerd
v0.21.1 2022年12月16日#
v0.21.0 2022年12月1日#
- 修复
解决了
_get_box_plot_info_for_column
中的 FutureWarning (GH#1563)修复了 logical_types.py 中 validate 方法的错误消息 (GH#1565)
通过检查值是否在有效的
Int64
边界内,修复了IntegerNullable
推断 (GH#1572)更新演示数据集链接以指向新的端点 (GH#1570)
修复
type_system.py
中的 DivisionByZero 错误 (GH#1571)修复
PostalCode
逻辑类型的 Categorical dtype 推断问题 (GH#1574)修复了在 0.0 和 1.0 组成的列上强制使用
Boolean
逻辑类型导致转换不正确的问题 (GH#1576)
- 文档变更
更新了文档,使其包含
get_outliers
和medcouple_dict
(GH#1547)
- 测试变更
在合并时运行 looking glass 性能测试 (GH#1567)
感谢以下人员为本次发布做出的贡献:@bchen1116, @gsheni, @ParthivNaresh, @sbadithe, @simha104
重大变更#
GH#1549 将自动推断更多值作为
Boolean
或BooleanNullable
类型,包括但不限于[0, 1]
、['yes', 'no']
和["True", "False"]
。
v0.20.0 2022年10月31日#
v0.19.0 2022年9月27日#
- 修复
修复了当提供
datetime_format
时,将日期时间枢轴点设置为当前年份 + 10,而不是针对两位数年份的默认值的问题 (GH#1512)
- 测试变更
添加了从发布版本创建 conda forge 拉取请求的启动步骤 (GH#1515)
感谢以下人员对本次发布的贡献:@bchen1116、@gsheni、@ParthivNaresh、@thehomebrewnerd
v0.18.0 2022年8月31日#
- 增强
更新了
dependence_dict
和mutual_information
,以便在计算互信息时删除具有大量唯一值的分类列,仅限于非 dask 情况。 (GH#1501)
- 修复
修复了将 LatLong.transform 应用于空 dask 数据的问题 (GH#1507)
- 测试变更
更新开发要求,并为文档使用最新版本 (GH#1499)
感谢以下人员对本次发布的贡献:@bchen1116、@gsheni、@jeff-hernandez、@ParthivNaresh、@rwedge
v0.17.2 2022年8月5日#
v0.17.1 2022年7月29日#
- 测试变更
允许手动启动最低依赖项检查器 (GH#1476)
感谢以下人员对本次发布的贡献:@bchen1116、@gsheni
v0.17.0 2022年7月14日#
警告
此 Woodwork 版本将不再支持 Python 3.7
- 增强
为
Double
逻辑类型添加了将无效值设为 null 的功能 (GH#1449)为
BooleanNullable
逻辑类型添加了将无效值设为 null 的功能 (GH#1455)为
IntegerNullable
逻辑类型添加了将无效值设为 null 的功能 (GH#1456)为
EmailAddress
逻辑类型添加了将无效值设为 null 的功能 (GH#1457)为
URL
逻辑类型添加了将无效值设为 null 的功能 (GH#1459)为
PhoneNumber
逻辑类型添加了将无效值设为 null 的功能 (GH#1460)为
AgeFractional
和AgeNullable
逻辑类型添加了将无效值设为 null 的功能 (GH#1462)为
LatLong
逻辑类型添加了将无效值设为 null 的功能 (GH#1465)为
PostalCode
逻辑类型(仅限美国)添加了将无效值设为 null 的功能 (GH#1467)为
IntegerNullable
和BooleanNullable
类型添加了更智能的推断 (GH#1458)
- 修复
修复了将所有 null 字符串值推断为
Unknown
而非Datetime
的问题 (GH#1458)感谢以下人员对本次发布的贡献:@gsheni、@jeff-hernandez、@ParthivNaresh
v0.16.4 2022年6月23日#
- 变更
限制 pyspark 版本低于 3.3.0 (GH#1450)
感谢以下人员对本次发布的贡献:@bchen1116、@gsheni、@jeff-hernandez、@ParthivNaresh
v0.16.3 2022年5月4日#
- 修复
修复了
col_is_datetime
推断函数不会将数字 dtype 推断为 datetime 的问题 (GH#1413)
- 变更
删除 setup.py、MANIFEST.in 并将配置移至 pyproject.toml (GH#1409)
感谢以下人员为本次发布做出的贡献:@bchen1116, @gsheni, @ParthivNaresh
v0.16.2 2022年4月25日#
- 修复
修复了与
pyarrow
相关的导入问题,并将python-dateutil>=2.8.1
设置为必需依赖项 (GH#1397)感谢以下人员对本次发布的贡献:@ParthivNaresh
v0.16.1 2022年4月25日#
- 修复
恢复使用
string[pyarrow]
直到找到 pandas 问题的修复方法 (GH#1391)感谢以下人员对本次发布的贡献:@ParthivNaresh
v0.16.0 2022年4月21日#
感谢以下人员对本次发布的贡献:@bchen1116、@gsheni、@jeff-hernandez、@ParthivNaresh、@rwedge、@thehomebrewnerd
v0.15.0 2022年3月24日#
- 修复
更新了
Ordinal
逻辑类型的__str__
输出 (GH#1340)
- 文档变更
更新 release.md,包含正确的版本更新信息 (GH#1358)
- 测试变更
更新了计划工作流,仅在 Alteryx 拥有的仓库上运行 (GH#1351)
感谢以下人员对本次发布的贡献:@bchen1116、@dvreed77、@jeff-hernandez、@ParthivNaresh、@thehomebrewnerd
v0.14.0 2022年3月15日#
- 修复
更改列逻辑类型时保留自定义语义标签 (GH#1300)
感谢以下人员对本次发布的贡献:@gsheni、@jeff-hernandez、@rwedge、@tamargrey、@thehomebrewnerd、@mingdavidqi
破坏性更改#
GH#1325: API 中已删除以下序列化函数:
woodwork.serialize.write_dataframe
、woodwork.serialize.write_typing_info
和woodwork.serialize.write_woodwork_table
。此外,函数woodwork.serialize.typing_info_to_dict
已移至woodwork.serializers.serializer_base.typing_info_to_dict
。
v0.13.0 2022年2月16日#
警告
Woodwork 在下一个非 bugfix 版本中可能不再支持 Python 3.7。
- 测试变更
使用 unittest.mock 替换 mock (GH#1304)
感谢以下人员对本次发布的贡献:@dvreed77、@gsheni、@jeff-hernandez、@rwedge、@tamargrey、@thehomebrewnerd
v0.12.0 2022年1月27日#
- 增强
在 GitHub 问题创建模板中添加 Slack 链接 (GH#1242)
感谢以下人员对本次发布的贡献:@dvreed77、@gsheni、@jeff-hernandez、@rwedge、@tamargrey、@thehomebrewnerd
v0.11.2 2022年1月28日#
- 修复
在
box_plot_dict
中,如果没有异常值,则将高低界限设置为最大值和最小值(GH#1269 的 backport)感谢以下人员对本次发布的贡献:@tamargrey
注意#
已限制 Koalas 的 pandas 版本,并且对 pandas
replace
调用进行了更改,以适应最近发布的 pandas 1.4.0 版本。
v0.11.1 2022年1月4日#
感谢以下人员对本次发布的贡献:@gsheni、@thehomebrewnerd、@willsmithorg
v0.11.0 2021年12月22日#
感谢以下人员对本次发布的贡献:@jeff-hernandez、@thehomebrewnerd、@tuethan1999
v0.10.0 2021年11月30日#
- 变更
将直方图 bin 作为浮点数列表返回,而不是
pandas.Interval
对象 (GH#1207)感谢以下人员对本次发布的贡献:@tamargrey、@thehomebrewnerd
破坏性更改#
:pr:
1207
: 使用extra_stats=True
时,describe_dict
的行为已更改。之前,直方图 bin 作为pandas.Interval
对象返回。现在已更新,直方图 bin 表示为包含两个元素的浮点数列表,第一个元素是 bin 的左边界,第二个元素是右边界。
v0.9.1 2021年11月19日#
- 修复
修复了导致
mutual_information
在某些索引类型下失败的 bug (GH#1199)
- 变更
将 pip 更新至 21.3.1 以满足测试要求 (GH#1196)
- 文档变更
更新安装页面,包含更新的最低可选依赖项 (GH#1193)
感谢以下人员对本次发布的贡献:@gsheni、@thehomebrewnerd
v0.9.0 2021年11月11日#
- 增强
添加了
read_file
参数,用于将空字符串值替换为 NaN 值 (GH#1161)
- 变更
使
box_plot_dict
中返回箱线图低/高索引/值成为可选 (GH#1184)
- 文档变更
更新文档依赖项 (GH#1176)
感谢以下人员对本次发布的贡献:@bchen1116、@davesque、@gsheni、@rwedge、@tamargrey、@thehomebrewnerd
v0.8.2 2021年10月12日#
感谢以下人员对本次发布的贡献:@bchen1116、@davesque、@jeff-hernandez、@thehomebrewnerd
v0.8.1 2021年9月16日#
- 变更
更新
Datetime.transform
,以便在调用_infer_datetime_format
时使用默认的 nrows 值 (GH#1137)
- 文档变更
在使用 Dask 和 Koalas 指南中隐藏 spark 配置 (GH#1139)
感谢以下人员对本次发布的贡献:@jeff-hernandez、@simha104、@thehomebrewnerd
v0.8.0 2021年9月9日#
- 变更
更新
get_invalid_schema_message
以提高性能 (GH#1132)感谢以下人员对本次发布的贡献:@ajaypallekonda、@davesque、@jeff-hernandez、@thehomebrewnerd
v0.7.1 2021年8月25日#
感谢以下人员对本次发布的贡献:@tamargrey
v0.7.0 2021年8月25日#
感谢以下人员对本次发布的贡献:@davesque、@jeff-hernandez、@tamargrey、@tuethan1999
破坏性更改#
:pr:
1100
:init
的行为已更改。完整模式是指包含 DataFrame 所有列的模式,而部分模式仅包含 DataFrame 的子集。完整模式还需要模式有效,并且无需对 DataFrame 进行任何更改。在此之前,init
方法仅允许完整模式,因此传递部分模式会出错。此外,如果传递模式,任何参数(例如logical_types
)都将被忽略。现在,将部分模式传递给init
方法会调用init_with_partial_schema
方法,而不是引发错误。关键字参数中的信息将覆盖部分模式中的信息。例如,如果列a
在部分模式中具有 Integer 逻辑类型,则可以通过传递{'a': None}
来重新推断其逻辑类型,或通过传递{'a': Double}
来强制指定类型。这些更改意味着 Woodwork 的初始化限制更少。如果未进行类型推断且初始化时无需对 DataFrame 进行任何更改,则应使用init_with_full_schema
而不是init
。init_with_full_schema
保持了将模式传递给旧版init
时的相同功能。
v0.6.0 2021年8月4日#
- 修复
修复
_infer_datetime_format
在所有np.nan
输入下存在的 bug (GH#1089)感谢以下人员对本次发布的贡献:@davesque、@gsheni、@jeff-hernandez、@rwedge、@tamargrey、@thehomebrewnerd、@tuethan1999
破坏性更改#
GH#1065: 分类类型推断的标准已更改。与之相关的是,
categorical_threshold
和numeric_categorical_threshold
设置的含义也已更改。现在,当系列具有“categorical”pandas dtype 或唯一值计数(不包括 nan)与总值计数(也不包括 nan)的比率小于或等于某个分数时,会发出分类匹配信号。用于此分数的值由categorical_threshold
设置决定,该设置的默认值现在为0.2
。如果为numeric_categorical_threshold
设置了分数,则具有浮点或整数 dtype 的系列可能会通过应用上述逻辑(使用numeric_categorical_threshold
分数)被推断为分类类型。否则,numeric_categorical_threshold
设置默认为None
,表示不应将具有数字类型的系列推断为分类类型。覆盖了categorical_threshold
或numeric_categorical_threshold
设置的用户需要相应地调整其设置。GH#1083: 更新了用于逻辑类型推断的系列采样过程,使其更加一致。之前,初始采样进行推断的方式因集合类型(pandas、dask 或 koalas)而异。此外,在分类推断的某些情况下和电子邮件推断的所有情况下(无论集合类型如何),都会执行进一步的随机二次采样。总的来说,采样的进行方式是不一致且不可预测的。现在,无论集合类型如何,都对列的前 100,000 条记录进行逻辑类型推断采样,但只会使用来自 dask 数据集第一个分区的记录。已删除单个类型推断函数执行的二次采样。这些更改的影响是推断的类型现在可能有所不同,尽管在许多情况下它们将更准确。
v0.5.1 2021年7月22日#
感谢以下人员对本次发布的贡献:@davesque、@frances-h、@jeff-hernandez、@simha104、@tamargrey、@thehomebrewnerd
v0.5.0 2021年7月7日#
- 修复
向 ww.init_series 添加输入验证 (GH#1015)
感谢以下人员对本次发布的贡献:@jeff-hernandez、@simha104、@tamargrey、@thehomebrewnerd、@tuethan1999
破坏性更改#
默认逻辑类型现在是
Unknown
类型,而不是NaturalLanguage
类型。全局配置natural_language_threshold
已重命名为categorical_threshold
。
v0.4.2 2021年6月23日#
感谢以下人员对本次发布的贡献:@frances-h、@gsheni、@jeff-hernandez、@tamargrey、@thehomebrewnerd、@tuethan1999
破坏性更改#
进度回调函数参数已更改,进度现在以测量单位参数指定的单位报告,而不是总百分比。进度回调函数现在应接受以下五个参数:
自上次调用以来的进度增量
目前已完成的进度单位
需要完成的总单位
进度测量单位
自计算开始以来经过的时间
DataFrame.ww.init
不再接受 make_index 参数
v0.4.1 2021年6月9日#
- 变更
更改 write_dataframe,仅在 DataFrame 包含 LatLong 时才复制 DataFrame (GH#955)
感谢以下人员对本次发布的贡献:@frances-h、@gsheni、@tamargrey、@thehomebrewnerd
v0.4.0 2021年5月26日#
- 变更
添加逻辑类型方法以转换数据 (GH#915)
感谢以下人员对本次发布的贡献:@gsheni、@jeff-hernandez、@thehomebrewnerd、@tuethan1999
v0.3.1 2021年5月12日#
警告
此 Woodwork 版本使用弱引用来维护从访问器到 DataFrame 的引用。因此,将 Woodwork 调用链接到创建新的 DataFrame 或 Series 对象的另一个调用可能会有问题。
请勿调用
pd.DataFrame({'id':[1, 2, 3]}).ww.init()
,而是先将 DataFrame 存储在新变量中,然后再初始化 Woodworkdf = pd.DataFrame({'id':[1, 2, 3]}) df.ww.init()
感谢以下人员对本次发布的贡献:@gsheni、@jeff-hernandez、@tamargrey、@thehomebrewnerd
破坏性更改#
不再支持使用
df.ww.to_csv
、df.ww.to_pickle
或df.ww.to_parquet
将 Woodwork 表保存到磁盘。请改用df.ww.to_disk
。
read_csv
函数已被 read_file
替换。
感谢以下人员对本次发布的贡献:@frances-h、@gsheni、@jeff-hernandez、@rwedge、@tamargrey、@thehomebrewnerd
破坏性更改#
Woodwork 表不能再使用
df.ww.to_csv
、df.ww.to_pickle
或df.ww.to_parquet
保存到磁盘。请改用df.ww.to_disk
。
read_csv
函数已被 read_file
替换。
警告
v0.2.0 2021年4月20日#
- 增强
此 Woodwork 版本不支持 Python 3.6
向 WoodworkTableAccessor 添加验证控制 (GH#736)
在 WoodworkTableAccessor 上存储
make_index
值 (GH#780)向 WoodworkTableAccessor
select
方法添加可选的exclude
参数 (GH#783)向
deserialize.read_woodwork_table
和ww.read_csv
添加验证控制 (GH#788)添加
WoodworkColumnAccessor.schema
并处理列模式的复制 (GH#799)允许使用
ColumnSchema
初始化WoodworkColumnAccessor
(GH#814)向
ColumnSchema
添加__repr__
(GH#817)添加
BooleanNullable
和IntegerNullable
逻辑类型 (GH#830)
- 变更
向
WoodworkColumnAccessor
添加验证控制 (GH#833)将
FullName
逻辑类型重命名为PersonFullName
(GH#740)将
ZIPCode
逻辑类型重命名为PostalCode
(GH#741)更新 scikit-learn 的最低版本至 0.22 (GH#763)
放弃对 Python 3.6 版本的支持 (GH#768)
移除
ColumnNameMismatchWarning
(GH#777)
get_column_dict
默认不使用标准标签 (GH#782)使
_get_column_dict
的logical_type
和name
参数可选 (GH#786)重命名 Schema 对象和文件以匹配新的表-列模式结构 (GH#789)
将列类型信息存储在
ColumnSchema
对象中,而不是字典中 (GH#791)
TableSchema
默认不使用标准标签 (GH#806)将
use_standard_tags
存储在ColumnSchema
上,而不是TableSchema
上 (GH#809)感谢以下人员对本次发布做出的贡献:@gsheni, @jeff-hernandez, @rwedge, @tamargrey, @thehomebrewnerd
重大变更#
ZIPCode
逻辑类型已重命名为PostalCode
FullName
逻辑类型已重命名为PersonFullName
Schema
对象已重命名为TableSchema
对于
ColumnSchema
对象,列的类型信息不再能通过df.ww.columns[col_name]['logical_type']
访问。请改用df.ww.columns[col_name].logical_type
。
Boolean
和Integer
逻辑类型不再适用于包含 null 值的数据。如果存在 null 值,应使用新的BooleanNullable
和IntegerNullable
逻辑类型。
v0.1.0 Mar 22, 2021#
- 增强
实现 Schema 和 Accessor API (GH#497)
添加保存类型信息的 Schema 类 (GH#499)
添加执行类型推断并存储 Schema 的 WoodworkTableAccessor 类 (GH#514)
允许使用有效的 Schema 对象初始化 Accessor Schema (GH#522)
添加读取 csv 并创建具有初始化 Woodwork Schema 的 DataFrame 的能力 (GH#534)
添加用于检查列是否为 Boolean, Datetime, numeric 或 categorical 之一的辅助函数 (GH#553)
添加使用 Woodwork Accessor 加载演示零售数据集的能力 (GH#556)
向 WoodworkTableAccessor 添加
select
(GH#548)向 WoodworkTableAccessor 添加
mutual_information
(GH#571)添加 WoodworkColumnAccessor 类 (GH#562)
向 column accessor 添加语义标签更新方法 (GH#573)
向 WoodworkTableAccessor 添加
describe
和describe_dict
(GH#579)添加用于初始化具有 dtype 更改的 series 的
init_series
工具函数 (GH#581)向 WoodworkColumnAccessor 添加
set_logical_type
方法 (GH#590)向 table schema 添加语义标签更新方法 (GH#591)
如果传递了 schema 的额外参数,则添加警告 (GH#593)
在初始化之前访问列属性时发出更好的警告 (GH#596)
更新 column accessor 以处理 LatLong 列 (GH#598)
向 WoodworkTableAccessor 添加
set_index
(GH#603)为 WoodworkColumnAccessor 实现
loc
和iloc
(GH#613)向 WoodworkTableAccessor 添加
set_time_index
(GH#612)为 WoodworkTableAccessor 实现
loc
和iloc
(GH#618)允许使用
set_types
更新逻辑类型并进行相关的 DataFrame 更改 (GH#619)允许将 WoodworkColumnAccessor 序列化为 csv, pickle 和 parquet 格式 (GH#624)
添加 DaskColumnAccessor (GH#625)
允许从 csv, pickle 和 parquet 格式反序列化到 Woodwork 表 (GH#626)
向 WoodworkTableAccessor 添加
value_counts
(GH#632)添加 KoalasColumnAccessor (GH#634)
向 WoodworkTableAccessor 添加
pop
(GH#636)向 WoodworkTableAccessor 添加
drop
(GH#640)向 WoodworkTableAccessor 添加
rename
(GH#646)添加 DaskTableAccessor (GH#648)
向 WoodworkTableAccessor 添加 Schema 属性 (GH#651)
添加 KoalasTableAccessor (GH#652)
向 WoodworkTableAccessor 添加
__getitem__
(GH#633)更新 Koalas 最低版本并为更多新的 pandas dtypes 添加 Koalas 支持 (GH#678)
向 WoodworkTableAccessor 添加
__setitem__
(GH#669)
- 变更
将互信息逻辑移至统计工具文件 (GH#584)
将 Koalas 最低版本提高到 1.4.0 (GH#638)
在未创建 Woodwork 索引时保留 pandas 底层索引 (GH#664)
由于重大变更,将 Koalas 版本限制为
<1.7.0
(GH#674)清理 Woodwork 中的 dtype 使用 (GH#682)
改进在初始化之前调用 accessor 属性或方法时的错误消息 (GH#683)
从 Schema 字典中移除 dtype (GH#685)
添加
include_index
参数并允许在 Accessor 互信息中包含唯一列 (GH#699)在 WoodworkTableAccessor 相等性检查中包含 DataFrame 相等性和
use_standard_tags
(GH#700)移除
DataTable
和DataColumn
类,以转向 accessor 方法 (GH#713)更改
sample_series
dtype 使其不再需要转换,并移除convert_series
工具函数 (GH#720)由于
DataTable
已被移除,重命名 Accessor 方法 (GH#723)
- 文档变更
更新 Understanding Types and Tags 指南以使用 accessor (GH#657)
更新 docstrings 和 API 参考页面 (GH#660)
更新统计洞察指南以使用 accessor (GH#693)
更新 Customizing Type Inference 指南以使用 accessor (GH#696)
更新 Dask 和 Koalas 指南以使用 accessor (GH#701)
更新 index notebook 和安装指南以使用 accessor (GH#715)
在文档中添加关于 schema 有效性的部分 (GH#729)
更新 README.md 和 Get Started 指南以使用
pd.read_csv
(GH#730)对文档格式进行小改动 (GH#731)
感谢以下人员对本次发布做出的贡献:@gsheni, @jeff-hernandez, @johnbridstrup, @tamargrey, @thehomebrewnerd
重大变更#
DataTable
和DataColumn
类已被移除,并替换为新的WoodworkTableAccessor
和WoodworkColumnAccessor
类,在导入 Woodwork 后可通过 DataFrame 的ww
命名空间使用。
v0.0.11 Mar 15, 2021#
- 文档变更
更新以移除统计洞察指南中的警告消息 (GH#690)
感谢以下人员对本次发布做出的贡献:@gsheni, @tamargrey, @thehomebrewnerd
v0.0.10 Feb 25, 2021#
感谢以下人员对本次发布做出的贡献:@gsheni, @jeff-hernandez, @johnbridstrup, @tamargrey
v0.0.9 Feb 5, 2021#
感谢以下人员对本次发布做出的贡献:@gsheni, @tamargrey, @thehomebrewnerd
v0.0.8 Jan 25, 2021#
感谢以下人员对本次发布做出的贡献:@gsheni, @tamargrey, @thehomebrewnerd
v0.0.7 Dec 14, 2020#
- 测试变更
修复缺失的测试覆盖范围 (GH#436)
感谢以下人员对本次发布的贡献:@gsheni、@jeff-hernandez、@tamargrey、@thehomebrewnerd
v0.0.6 Nov 30, 2020#
- 增强
添加对从 Koalas DataFrame 创建 DataTable 的支持 (GH#327)
添加使用 numpy 数组初始化 DataTable 的能力 (GH#367)
向 DataTable 添加
describe_dict
方法 (GH#405)向 DataTable 添加
mutual_information_dict
方法 (GH#404)为用户定义的元数据向 DataTable 添加
metadata
(GH#392)向 DataTable 添加
update_dataframe
方法以更新底层 DataFrame (GH#407)如果指定了
time_index
,则对 dataframe 进行排序,使用already_sorted
参数绕过排序。 (GH#410)向 DataColumn 添加
description
属性 (GH#416)实现
DataColumn.__len__
和DataTable.__len__
(GH#415)
- 变更
降低 moto 测试对序列化/反序列化的要求 (GH#376)
将 Koalas 设置为可通过 woodwork[koalas] 安装的可选依赖项 (GH#378)
从 Woodwork 中移除 WholeNumber LogicalType (GH#380)
更新 LogicalTypes 以支持 Koalas 1.4.0 (GH#393)
将
set_logical_types
和set_semantic_tags
替换为set_types
(GH#379)从 DataTable 初始化中移除
copy_dataframe
参数 (GH#398)实现
DataTable.__sizeof__
以返回底层 dataframe 的大小 (GH#401)在互信息计算中包含 Datetime 列 (GH#399)
在 DataTable 操作中保持列顺序 (GH#406)
感谢以下人员对本次发布做出的贡献:@ctduffy, @gsheni, @tamargrey, @thehomebrewnerd
重大变更#
移除了
DataTable.set_semantic_tags
方法。可以使用DataTable.set_types
代替。移除了
DataTable.set_logical_types
方法。可以使用DataTable.set_types
代替。从 LogicalTypes 中移除了
WholeNumber
。之前被推断为 WholeNumber 的列现在将被推断为 Integer。将
DataTable.get_mutual_information
重命名为DataTable.mutual_information
。从 DataTable 初始化中移除了
copy_dataframe
参数。
v0.0.5 Nov 11, 2020#
- 增强
向 DataTable 和 DataColumn 添加
__eq__
并更新 LogicalType 相等性 (GH#318)向 DataTable 添加
value_counts()
方法 (GH#342)支持通过 csv, pickle 或 parquet 序列化和反序列化 DataTable (GH#293)
向 DataTable 和 DataColumn 添加
shape
属性 (GH#358)向 DataTable 和 DataColumn 添加
iloc
方法 (GH#365)添加
numeric_categorical_threshold
配置值,允许将数字列推断为 Categorical 类型 (GH#363)向 DataTable 添加
rename
方法 (GH#367)
- 修复
在验证时捕获非数字时间索引 (GH#332)
- 变更
支持从 Dask DataFrame 推断逻辑类型 (GH#248)
修复验证检查和
make_index
以使用 Dask DataFrames (GH#260)跳过对 Dask DataFrames 的 Ordinal 排序值的验证 (GH#270)
改进对 Dask 输入中 datetimes 的支持 (GH#286)
更新
DataTable.describe
以处理 Dask 输入 (GH#296)更新
DataTable.get_mutual_information
以处理 Dask 输入 (GH#300)修改
to_pandas
函数以返回带有正确索引的 DataFrame (GH#281)将
DataColumn.to_pandas
方法重命名为DataColumn.to_series
(GH#311)将
DataTable.to_pandas
方法重命名为DataTable.to_dataframe
(GH#319)移除未找到匹配列时的 UserWarning (GH#325)
移除
copy
参数从DataTable.to_dataframe
和DataColumn.to_series
(GH#338)允许将 pandas ExtensionArrays 作为 DataColumn 的输入 (GH#343)
将警告移至单独的 exceptions 文件,并通过 UserWarning 子类调用 (GH#348)
将 Dask 设置为可通过 woodwork[dask] 安装的可选依赖项 (GH#357)
感谢以下人员对本次发布做出的贡献:@ctduffy, @gsheni, @tamargrey, @thehomebrewnerd
重大变更#
将
DataColumn.to_pandas
方法重命名为DataColumn.to_series
。将
DataTable.to_pandas
方法重命名为DataTable.to_dataframe
。
copy
不再是DataTable.to_dataframe
或DataColumn.to_series
的参数。
v0.0.4 Oct 21, 2020#
- 增强
为
DataTable.describe()
添加可选的include
参数以过滤结果 (GH#228)向
DataTable.__init__
添加make_index
参数,以启用可选地创建新的索引列 (GH#238)添加支持为具有 Ordinal 逻辑类型的列设置排序顺序 (GH#240)
添加
list_semantic_tags
函数和 CLI 以获取 woodwork semantic_tags 的 dataframe (GH#244)支持 DataTable 上的数字时间索引 (GH#267)
向 DataTable 添加 pop 方法 (GH#289)
向 setup.py 添加入口点以运行 CLI 命令 (GH#285)
- 修复
允许数字 datetime 时间索引 (GH#282)
感谢以下人员对本次发布做出的贡献:@ctduffy, @gsheni, @tamargrey, @thehomebrewnerd
v0.0.3 Oct 9, 2020#
- 增强
在 DataTable 上实现 setitem 以创建/覆盖现有 DataColumn (GH#165)
向 DataColumn 添加
to_pandas
方法,用于访问底层 series (GH#169)添加 list_logical_types 函数和 CLI 以获取 woodwork LogicalTypes 的 dataframe (GH#172)
向 DataTable 添加
describe
方法,用于生成底层数据的统计信息 (GH#181)向
load_retail
添加可选的return_dataframe
参数,用于返回 DataFrame 或 DataTable (GH#189)向 DataTable 添加
get_mutual_information
方法,用于生成列之间的互信息 (GH#203)添加
read_csv
函数,直接从 CSV 文件创建 DataTable (GH#222)
- 变更
移除 DataTable 中不必要的
add_standard_tags
属性 (GH#171)从索引列中移除标准标签,并且不从
DataTable.describe
返回索引列的统计信息 (GH#196)更新
DataColumn.set_semantic_tags
和DataColumn.add_semantic_tags
以返回新对象 (GH#205)更新各种 DataTable 方法以返回新对象而不是就地修改 (GH#210)
将 datetime_format 移至 Datetime LogicalType (GH#216)
在
DataTable.get_mutual_information
中不与索引列计算互信息 (GH#221)将底层物理类型的设置从 DataTable 移至 DataColumn (GH#233)
- 文档变更
将 DataTable 和 DataColumn 添加到 API Reference (GH#162)
向 LogicalType 类添加 docstrings (GH#168)
将 Woodwork 图像添加到索引页,清除 docs 中 Jupyter notebook 的输出 (GH#173)
更新 contributing.md 和 release.md,包含所有说明 (GH#176)
向 Start notebook 添加设置索引和时间索引的部分 (GH#179)
将 changelog 重命名为 Release Notes (GH#193)
向 Start notebook 添加标准标签的部分 (GH#188)
添加 Understanding Types and Tags 用户指南 (GH#201)
添加
list_logical_types
中缺失的 docstring (GH#202)添加 Woodwork 全局配置选项指南 (GH#215)
感谢以下人员对本次发布做出的贡献:@gsheni, @tamargrey, @thehomebrewnerd
v0.0.2 Sep 28, 2020#
感谢以下人员对本次发布做出的贡献:@gsheni, @tamargrey, @thehomebrewnerd
v0.1.0 Sep 24, 2020#
添加
natural_language_threshold
全局配置选项,用于 Categorical/NaturalLanguage 类型推断 (GH#135)添加全局配置选项,并添加
datetime_format
选项用于类型推断 (GH#134)修复包含
pd.NA
值的列中 Integer 和 WholeNumber 推断的 bug (GH#133)添加
DataTable.ltypes
属性以返回逻辑类型的 series (GH#131)添加能力,使用
dt[[columns]]
从指定列创建新的 datatable (GH#127)处理索引列和时间索引列的设置和标记 (GH#125)
添加组合的 tag 和 ltype 选择 (GH#124)
添加 changelog,并更新 CI 中的 changelog 检查 (GH#123)
实现
reset_semantic_tags
(GH#118)实现 DataTable getitem (GH#119)
添加
remove_semantic_tags
方法 (GH#117)添加 semantic tag selection (GH#106)
添加 github action,重命名为 woodwork (GH#113)
向 setup.py 添加 license (GH#112)
在 logical type 更改时重置 semantic tags (GH#107)
添加标准的 numeric 和 category 标签 (GH#100)
将
semantic_types
改为semantic_tags
,一个字符串集合 (GH#100)根据 logical types 更新 dataframe dtypes (GH#94)
向 DataTable 添加
select_logical_types
(GH#96)向 dev-requirements.txt 添加 pygments (GH#97)
在 DataTable init 中添加将 None 替换为 np.nan 的功能 (GH#87)
重构 DataColumn,将
semantic_types
和logical_type
设为私有 (GH#86)为每个 Logical Type 添加 pandas_dtype,并移除 DataColumn 上的 dtype 属性 (GH#85)
在 DataTable 和 DataColumn 上添加 set_semantic_types 方法 (GH#75)
支持传递 camel case 或 snake case 字符串来设置 logical types (GH#74)
提高设置 semantic types 时的灵活性 (GH#72)
添加 Whole Number Logical Types 推断 (GH#66)
向 DataTables 添加
dtypes
属性,并添加 DataColumn 的repr
(GH#61)允许在 DataTable 创建期间指定 semantic types (GH#69)
在 DataTable 上实现
set_logical_types
(GH#65)向测试添加 init 文件以修复代码覆盖率 (GH#60)
添加 AutoAssign bot (GH#59)
在 DataTables 中添加 logical types 验证 (GH#49)
修复 CI 中的 working_directory (GH#57)
为 DataColumn 添加
infer_logical_types
(GH#45)添加代码覆盖率 (GH#51)
改进和重构 DataTable 初始化时的验证检查 (GH#40)
向 DataTable 添加 dataframe 属性 (GH#39)
更新 ReadME,包含一些使用细节 (GH#37)
添加 License (GH#34)
从 datatables 重命名为 datatables (GH#4)
添加 Logical Types, DataTable, DataColumn (GH#3)
添加 Makefile, setup.py, requirements.txt (GH#2)
初次发布 (GH#1)
感谢以下人员对本次发布做出的贡献:@gsheni, @tamargrey, @thehomebrewnerd