pandas 数据规整化 —— 合并、清理与转换

xiaoxiao2021-08-21 125

日期处理：

pd.to_datetime()

df.reset_index()：增加属性名为 index 的属性列

>> data = [[1,2,3],[4,5,6]] >> df = pd.DataFrame(data) >> df.index RangeIndex(start=0, stop=2, step=1) >> df.columns RangeIndex(start=0, stop=3, step=1) >> df.reset_index() index 0 1 2 0 0 1 2 3 1 1 4 5 6

0. 基本处理

修改列名：df.rename({'old_col_name': 'new_col_name'}, inplace=True)

1. 清理

pd.isnull()/pd.notnull()：用于检测缺失数据；drop(labels, axis=0, level=None, inplace=False, errors=‘raise’) 注意第一个参数（labels）与第二个参数（axis）的关系，要删除的 labels 必须在 axis 上；也即默认情况下，axis=0，为纵轴（也即第一列，行名），axis=1，则为横轴（第一行，为行名）

2. 合并（merge）

>> df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'], 'data1': range(7)}) key data1 0 b 0 1 b 1 2 a 2 3 c 3 4 a 4 5 a 5 6 b 6 >> df2 = pd.DataFrame({'key':['a', 'b', 'd', 'a'], 'data2': range(4)}) key data2 0 a 0 1 b 1 2 d 2 3 a 3

数据集的合并（merge）或链接（join）运算可通过一个或多个键将行连接起来。如果不显式地指定，merge 会默认将重叠列的列名作键。

>> pd.merge(df1, df2, on='key') # 等价于 pd.merge(df1, df2) key data1 data2 0 b 0 1 1 b 1 1 2 b 6 1 3 a 2 0 4 a 2 3 5 a 4 0 6 a 4 3 7 a 5 0 8 a 5 3

注意：

默认连接方式为：inner（how='inner'），也即

df1 中的 c，df2 中的 d均未出现在 merge 后的 df 中；对于 b，df2是一对一的关系；对于 a，df2中一对2，最终拼接的形式是笛卡尔积的形式；

此外还有 right/left/outer（外链接取的是键的并集，组合了左连接和右连接的效果：

>> pd.merge(df1, df2, on='key', how='left') key data1 data2 0 b 0 1.0 1 b 1 1.0 2 a 2 0.0 3 a 2 3.0 4 c 3 NaN 5 a 4 0.0 6 a 4 3.0 7 a 5 0.0 8 a 5 3.0 9 b 6 1.0

转载请注明原文地址: https://ju.6miu.com/read-676773.html

专利

最新回复(0)