ai
  • index
  • cursor
  • vector
  • crawl
  • crawl-front
  • DrissionPage
  • logging
  • mysql
  • pprint
  • sqlalchemy
  • contextmanager
  • dotenv
  • Flask
  • python
  • job
  • pdfplumber
  • python-docx
  • redbook
  • douyin
  • ffmpeg
  • json
  • numpy
  • opencv-python
  • pypinyin
  • re
  • requests
  • subprocess
  • time
  • uuid
  • watermark
  • milvus
  • pymilvus
  • search
  • Blueprint
  • flash
  • Jinja2
  • secure_filename
  • url_for
  • Werkzeug
  • chroma
  • HNSW
  • pillow
  • pandas
  • beautifulsoup4
  • langchain-community
  • langchain-core
  • langchain
  • langchain_unstructured
  • libreoffice
  • lxml
  • openpyxl
  • pymupdf
  • python-pptx
  • RAGFlow
  • tabulate
  • sentence_transformers
  • jsonl
  • collections
  • jieba
  • rag_optimize
  • rag
  • rank_bm25
  • Hugging_Face
  • modelscope
  • all-MiniLM-L6-v2
  • ollama
  • rag_measure
  • ragas
  • ASGI
  • FastAPI
  • FastChat
  • Jupyter
  • PyTorch
  • serper
  • uvicorn
  • markdownify
  • NormalizedLevenshtein
  • raq-action
  • CrossEncoder
  • Bi-Encoder
  • neo4j
  • neo4j4python
  • matplotlib
  • Plotly
  • Streamlit
  • py2neo
  • abc
  • read_csv
  • neo4jinstall
  • APOC
  • neo4jproject
  • uv
  • GDS
  • heapq
  • 1. df = pd.read_csv("book_data.csv") 的作用
  • 2. DataFrame 的基本结构
  • 3. DataFrame 的常用属性和方法
    • 3.1 查看数据
    • 3.2 数据选取
    • 3.3 统计信息
  • 4. 常见参数
  • 5. 注意事项

pd.read_csv() 是 Pandas 库中用于读取 CSV 文件并返回一个 DataFrame 对象的函数。DataFrame 是 Pandas 的核心数据结构,类似于 Excel 表格或 SQL 表,用于存储和操作结构化数据。

1. df = pd.read_csv("book_data.csv") 的作用 #

  • 从当前目录(或指定路径)读取名为 book_data.csv 的 CSV 文件。
  • 将文件内容解析为一个 Pandas DataFrame,并赋值给变量 df。

2. DataFrame 的基本结构 #

DataFrame 是一个二维表格,包含:

  • 行(Rows):每条记录(例如一本书的信息)。
  • 列(Columns):每个字段(例如书名、作者、价格等)。
  • 索引(Index):默认从 0 开始的整数标签,也可自定义。

示例数据(假设 book_data.csv 内容):

title,author,price,rating
Python入门,John Doe,39.99,4.5
数据分析实战,Jane Smith,59.99,4.7
机器学习基础,Alan Lee,49.99,4.3

对应的 DataFrame:

title author price rating
0 Python入门 John Doe 39.99 4.5
1 数据分析实战 Jane Smith 59.99 4.7
2 机器学习基础 Alan Lee 49.99 4.3

3. DataFrame 的常用属性和方法 #

3.1 查看数据 #

  • df.head(n):显示前 n 行(默认 5 行)。
  • df.tail(n):显示最后 n 行。
  • df.shape:返回行数和列数,例如 (3, 4)。
  • df.columns:查看列名列表。
  • df.info():显示数据类型、非空值数量等摘要。

3.2 数据选取 #

  • 按列选取:df['author'] 或 df.author(返回 Series 对象)。
  • 按行选取:df.iloc[0](通过位置)或 df.loc[0](通过索引)。
  • 条件筛选:
    df[df['price'] > 40]  # 筛选价格大于40的书籍

3.3 统计信息 #

  • df.describe():数值列的统计摘要(均值、标准差、分位数等)。
  • df['rating'].mean():计算评分的平均值。

4. 常见参数 #

read_csv() 支持许多参数以适应不同格式的 CSV 文件,例如:

  • sep:分隔符(默认 ,),如 sep=';'。
  • header:指定表头行(默认 0,即第一行),无表头时设为 None。
  • index_col:将某列设为索引,如 index_col='title'。
  • encoding:文件编码,如 encoding='utf-8'(中文常用)。

示例:

df = pd.read_csv("book_data.csv", sep=',', header=0, encoding='utf-8')

5. 注意事项 #

  • 文件路径:如果 CSV 不在当前目录,需写完整路径(如 C:/data/book_data.csv)。
  • 缺失值:CSV 中的空值会被解析为 NaN(Pandas 的缺失值标识)。
  • 大数据:对于大型文件,可用 chunksize 参数分块读取。

通过 DataFrame,你可以方便地进行数据清洗、分析和可视化。如果需要进一步操作(如排序、分组、合并等),Pandas 提供了丰富的功能支持。

访问验证

请输入访问令牌

Token不正确,请重新输入