pd.read_csv() 是 Pandas 库中用于读取 CSV 文件并返回一个 DataFrame 对象的函数。DataFrame 是 Pandas 的核心数据结构,类似于 Excel 表格或 SQL 表,用于存储和操作结构化数据。
1. df = pd.read_csv("book_data.csv") 的作用 #
- 从当前目录(或指定路径)读取名为
book_data.csv的 CSV 文件。 - 将文件内容解析为一个 Pandas DataFrame,并赋值给变量
df。
2. DataFrame 的基本结构 #
DataFrame 是一个二维表格,包含:
- 行(Rows):每条记录(例如一本书的信息)。
- 列(Columns):每个字段(例如书名、作者、价格等)。
- 索引(Index):默认从 0 开始的整数标签,也可自定义。
示例数据(假设 book_data.csv 内容):
title,author,price,rating
Python入门,John Doe,39.99,4.5
数据分析实战,Jane Smith,59.99,4.7
机器学习基础,Alan Lee,49.99,4.3对应的 DataFrame:
| title | author | price | rating | |
|---|---|---|---|---|
| 0 | Python入门 | John Doe | 39.99 | 4.5 |
| 1 | 数据分析实战 | Jane Smith | 59.99 | 4.7 |
| 2 | 机器学习基础 | Alan Lee | 49.99 | 4.3 |
3. DataFrame 的常用属性和方法 #
3.1 查看数据 #
df.head(n):显示前n行(默认 5 行)。df.tail(n):显示最后n行。df.shape:返回行数和列数,例如(3, 4)。df.columns:查看列名列表。df.info():显示数据类型、非空值数量等摘要。
3.2 数据选取 #
- 按列选取:
df['author']或df.author(返回 Series 对象)。 - 按行选取:
df.iloc[0](通过位置)或df.loc[0](通过索引)。 - 条件筛选:
df[df['price'] > 40] # 筛选价格大于40的书籍
3.3 统计信息 #
df.describe():数值列的统计摘要(均值、标准差、分位数等)。df['rating'].mean():计算评分的平均值。
4. 常见参数 #
read_csv() 支持许多参数以适应不同格式的 CSV 文件,例如:
sep:分隔符(默认,),如sep=';'。header:指定表头行(默认0,即第一行),无表头时设为None。index_col:将某列设为索引,如index_col='title'。encoding:文件编码,如encoding='utf-8'(中文常用)。
示例:
df = pd.read_csv("book_data.csv", sep=',', header=0, encoding='utf-8')5. 注意事项 #
- 文件路径:如果 CSV 不在当前目录,需写完整路径(如
C:/data/book_data.csv)。 - 缺失值:CSV 中的空值会被解析为
NaN(Pandas 的缺失值标识)。 - 大数据:对于大型文件,可用
chunksize参数分块读取。
通过 DataFrame,你可以方便地进行数据清洗、分析和可视化。如果需要进一步操作(如排序、分组、合并等),Pandas 提供了丰富的功能支持。