基本信息
文件名称:Python数据分析基础与应用(微课版)课件 5.5 Pandas数据变换.pptx
文件大小:244.62 KB
总页数:8 页
更新时间:2025-06-20
总字数:约1.13千字
文档摘要

Python数据分析基础与应用模块5Pandas数据预处理

5.5Pandas数据变换

5.5.1重命名索引的标签名称Pandas中提供了一个rename()方法来重命名个别列索引或行索引的标签或名称。rename()方法的语法格式如下:rename(mapper=None,index=None,columns=None,axis=None,copy=True,inplace=False,level=None)

5.5.1重命名索引的标签名称该方法中常用的函数参数说明如下:?index:表示待转换的行索引。?columns:表示待转换的列索引。?axis:表示轴的名称,可以使用index或columns,也可以使用数字0或1。?copy:表示是否复制底层的数据,默认值为False。?inplace:表示重命名索引时是否创建数据集副本。默认值为False,表示创建数据集副本后重命名索引;如果设置为True,则表示直接在原数据集重命名索引。?level:表示级别名称,默认值为None。对于多级索引,只重命名指定的标签。rename()方法参数index、columns使用方式相同,都可以接收一个字典,其中字典的键代表原索引名称,字典的值代表新索引名称。

5.5.2离散化连续数据将有关连续数据进行离散化处理,通俗来说就是将连续数据分为几个区间。Pandas提供的cut()函数能够实现离散化操作,其语法格式如下:cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False,duplicates=raise)

5.5.2离散化连续数据函数中常用函数参数说明如下:?x:表示要分组(区间)的数组,必须是一维的。?bins:接受int和序列类型的数据。如果传入的是int类型的值,则表示在x范围内的等宽单元的数量(划分为多少个等间距区间);如果传入的是一个序列,则表示将x划分在指定的序列中,如果不在序列中,则为NaN。

5.5.2离散化连续数据?right:是否包含右端点,决定区间的开或闭,默认值为True,表示包含右端点,如果值设置为False,表示不包含右端点。?include_lowest:是否包含左端点,其值设置为True,表示包含左端点。默认值为False,表示不包含左端点。?labels:用于设置生成区间的自定义标签,可选参数。?retbins:是否返回bin。?precision:表示精度,默认保留三位小数。

快乐学习高效学习祝学习进步!