Python数据分析与可视化课件第三章 Pandas简介与核心数据结构.pptx

基本信息

文件名称：Python数据分析与可视化课件第三章 Pandas简介与核心数据结构.pptx

文件大小：1.58 MB

总页数：41 页

更新时间：2025-06-10

总字数：约6.66千字

文档摘要

Pandas简介与核心数据结构掌握数据分析的基础工具

CONTENT目录Pandas简介01核心数据结构02Pandas数据导入和导出03数据处理04数据分析05数据可视化06期末成绩处理07本章小结08

01Pandas简介

核心功能概述数据结构的理解Pandas通过DataFrame和Series这两种核心数据结构，为数据处理和分析提供了强大的支持。DataFrame是一个二维的、大小可变且潜在异质的表格型数据结构，而Series是一维的标签数组，可以看作是DataFrame的单列数据。数据的读取与存储Pandas支持多种格式的数据读取和存储，如CSV、Excel、SQL数据库等。这使得用户可以方便地从各种数据源中导入数据，同时也可以将处理后的数据保存到不同的目标位置。数据清洗与准备Pandas提供丰富的函数和方法处理缺失值、异常值、重复值等数据清洗任务。这些功能可以帮助用户对原始数据进行预处理，确保数据的质量，为后续的分析工作打下坚实的基础。

02核心数据结构

Series对象属性基础数据维度Series对象的ndim属性始终为1，表示其基础数据是一维的。这一特性使得Series对象在处理一维数据时具有天然的优势，能够高效地进行各种数据处理和分析操作。数据形状与类型Series对象的shape属性返回一个元组，表示基础数据的形状；dtype属性则返回基础数据的dtype对象，即数据类型。这两个属性共同决定了Series对象的数据结构和存储方式。索引与值Series对象的index属性是行标签，用于标识每一行数据；values属性则将Series对象转换为ndarray或类ndarray形式，方便进行数值计算和数组操作。这两个属性是Series对象的核心组成部分，分别代表了数据的标签和内容。

Series对象创建010203通过列表、元组和Numpy的ndarray创建Series对象使用pd.Series()函数，可以基于列表、元组或Numpy的ndarray快速生成Series对象。这些数据结构提供了灵活的数据源选择，允许用户根据具体需求定制数据的存储和索引方式。根据字典创建Series对象利用字典创建Series对象时，字典的键自动作为索引，值则作为数据。这种方法特别适合于需要预先定义好索引的场景，简化了数据与索引的关联过程。Series对象的属性和方法Series对象提供了一系列属性和方法来访问和操作数据，如ndim、shape、dtype等属性帮助理解数据的维度和类型，而values属性则直接获取数据内容，增强了数据处理的灵活性。

Series对象访问索引形式访问通过索引或切片方式访问Series对象中的元素，类似于Python的序列操作，允许快速定位和提取特定位置的数据。条件筛选与替换使用`where()`方法根据条件筛选数据，并将不满足条件的数据替换为指定值，提供了灵活的数据清洗和预处理手段。布尔索引应用利用布尔索引可以精确地筛选出DataFrame中符合特定条件的数据，是进行复杂数据选择和分析的强大工具。

DataFrame对象属性DataFrame的维度与形状DataFrame对象的ndim属性揭示了其基础数据的维数，通常为2，表示行和列。shape属性则以元组形式返回这些维度的具体大小，直观展示数据框架的结构。数据类型与元素计数dtypes属性提供了DataFrame中各列的数据类型信息，有助于理解数据的存储格式。size属性则计算并返回DataFrame中元素的总数，即行数与列数的乘积。

DataFrame对象创建01从字典创建DataFrame通过字典创建DataFrame是一种常见方法，字典的键作为列名，值作为数据。这种方法直观且易于理解，适用于小规模数据集的快速构建和展示。02从列表创建DataFrame使用列表创建DataFrame时，每个列表元素代表一行数据。需指定列名，以便明确每列的数据含义。此方法适合处理结构化数据，便于后续分析。03自定义索引创建DataFrame在创建DataFrame时，可以自定义索引以增强数据的可读性和操作性。自定义索引不仅有助于标识数据行，还能在数据操作中提供便利，如筛选、排序等。

DataFrame对象访问020301使用iloc访问DataFrame数据iloc通过行号和列号来精确定位并访问DataFrame中的数据，这种方法适用于需要基于位置进行数据选择的场景，如获取第一行第一列的数据。利用loc按标签访问数据loc允许用户通过行标签和列标签来访问DataFrame中的数据，这种方式适合于根据数据的标签（如索引或列名）进行筛选和提取。通过列名访问列数据在DataFrame中，可以通过列名直接访问整列数据，这种方法简单直接，但仅限于列数据的访问，不能用于行数