基本信息
文件名称:Python数据分析基础与应用(微课版)课件 5.3 Pandas数据抽取.pptx
文件大小:252.76 KB
总页数:11 页
更新时间:2025-06-20
总字数:约1.54千字
文档摘要

Python数据分析基础与应用模块5Pandas数据预处理

5.3Pandas数据抽取

5.3.1字段抽取字段抽取是根据已知列数据的开始和结束位置,抽取出新的数据。字段抽取采用slice()函数,该函数的语法格式如下:Series.str.slice(start=None,stop=None)函数参数说明如下:?start:表示字段抽取的开始位置。?stop:表示字段抽取的结束位置。

5.3.2字段拆分字段拆分是指按照约定规则拆分已有的字符串,字符分割函数有正序分割列split()函数和逆序分割列rsplit()函数。split()函数的语法格式如下:Series.str.split(sep=None,n=-1,expand=False)该函数参数说明如下:?sep:表示字符串中分隔字符的分隔符,默认分隔符为空格。?n:接收整数,默认值为-1,表示分割的列数。?expand:接收布尔值,默认值为False,表示返回序列(Series)或者索引(Index);如果值设置为True,则返回DataFrame对象或复杂索引(MultiIndex)。

5.3.3数据记录抽取数据记录抽取是指根据一定的条件,对数据记录进行抽取。记录抽取函数的语法格式如下:datafram[condition]函数返回值是DataFram。

5.3.3数据记录抽取函数参数condition为过滤条件,常用条件类型如下:①比较运算:大于()、小于()、大于等于(=)、小于等于(=)、不等于(!=)。②范围运算:between(left,right)。③空值匹配:pandas.isnull(column)。④字符匹配:str.contains(patten,na=False),其中na参数是指空值的处理方式,如果值设置为False,则不匹配空值。⑤逻辑运算:与(),或(|),取反(not)。

5.3.4日期转换与日期抽取Pandas处理日期和时间数据的方式有多种,其中日期转换、日期格式化和日期抽取是常见的3项功能。1.日期转换日期转换是指将字符型的日期格式的数据转换成为日期型数据。日期转换函数to_datetime()的语法格式如下:pandas.to_datetime(strDate,format,errors=raise)

5.3.4日期转换与日期抽取该函数参数说明如下:?strDate:表示字符型时间列;?format:表示日期时间格式符。?errors:取值范围为{ignore,raise,coerce},默认为raise。?如果取值为“raise”,则无效的数据将引发异常。?如果取值为“coerce”,则无效的数据将设置为NaN。?如果取值为“ignore”,则无效的数据将返回输入。

5.3.4日期转换与日期抽取2.日期格式化日期格式化是将日期时间型数据,按照指定格式,转为字符型数据。日期格式化函数的语法格式如下:df_dt.apply(lambdax:datetime.strftime(x,format))或df_dt.dt.strftime(format)该函数参数说明如下:?df_dt:表示数据集中日期时间列名。?format:表示时间日期格式符,如表5-2所示。

5.3.4日期转换与日期抽取3.日期抽取日期抽取是指从日期格式中抽取出需要的部分内容,日期抽取语法格式如下:df_dt.dt.property该函数参数说明如下:?df_dt:表示数据集中日期时间列名。?property:表示时间属性。

快乐学习高效学习祝学习进步!