ai

1. df = pd.read_csv("book_data.csv") 的作用
2. DataFrame 的基本结构
3. DataFrame 的常用属性和方法
4. 常见参数
5. 注意事项

pd.read_csv() 是 Pandas 库中用于读取 CSV 文件并返回一个 DataFrame 对象的函数。DataFrame 是 Pandas 的核心数据结构，类似于 Excel 表格或 SQL 表，用于存储和操作结构化数据。

1. df = pd.read_csv("book_data.csv") 的作用 #

从当前目录（或指定路径）读取名为 book_data.csv 的 CSV 文件。
将文件内容解析为一个 Pandas DataFrame，并赋值给变量 df。

2. DataFrame 的基本结构 #

DataFrame 是一个二维表格，包含：

行（Rows）：每条记录（例如一本书的信息）。
列（Columns）：每个字段（例如书名、作者、价格等）。
索引（Index）：默认从 0 开始的整数标签，也可自定义。

示例数据（假设 book_data.csv 内容）：

title,author,price,rating
Python入门,John Doe,39.99,4.5
数据分析实战,Jane Smith,59.99,4.7
机器学习基础,Alan Lee,49.99,4.3

对应的 DataFrame：

	title	author	price	rating
0	Python入门	John Doe	39.99	4.5
1	数据分析实战	Jane Smith	59.99	4.7
2	机器学习基础	Alan Lee	49.99	4.3

3. DataFrame 的常用属性和方法 #

3.1 查看数据 #

df.head(n)：显示前 n 行（默认 5 行）。
df.tail(n)：显示最后 n 行。
df.shape：返回行数和列数，例如 (3, 4)。
df.columns：查看列名列表。
df.info()：显示数据类型、非空值数量等摘要。

3.2 数据选取 #

按列选取：df['author'] 或 df.author（返回 Series 对象）。
按行选取：df.iloc[0]（通过位置）或 df.loc[0]（通过索引）。

条件筛选：

df[df['price'] > 40]  # 筛选价格大于40的书籍

3.3 统计信息 #

df.describe()：数值列的统计摘要（均值、标准差、分位数等）。
df['rating'].mean()：计算评分的平均值。

4. 常见参数 #

read_csv() 支持许多参数以适应不同格式的 CSV 文件，例如：

sep：分隔符（默认 ,），如 sep=';'。
header：指定表头行（默认 0，即第一行），无表头时设为 None。
index_col：将某列设为索引，如 index_col='title'。
encoding：文件编码，如 encoding='utf-8'（中文常用）。

示例：

df = pd.read_csv("book_data.csv", sep=',', header=0, encoding='utf-8')

5. 注意事项 #

文件路径：如果 CSV 不在当前目录，需写完整路径（如 C:/data/book_data.csv）。
缺失值：CSV 中的空值会被解析为 NaN（Pandas 的缺失值标识）。
大数据：对于大型文件，可用 chunksize 参数分块读取。

通过 DataFrame，你可以方便地进行数据清洗、分析和可视化。如果需要进一步操作（如排序、分组、合并等），Pandas 提供了丰富的功能支持。