提示信息

pandas dataframe 用法

黛儿 已关注

Pandas 是一个强大的 Python 数据分析库,而 DataFrame 是 Pandas 中最重要的数据结构之一。DataFrame 就像电子表格或 SQL 表格,它允许你以一种便捷的方式对数据进行操作、查询和分析。

创建 DataFrame

  • 从字典创建
  1. import pandas as pd
  2. data = {
  3. 'Name': ['Alice', 'Bob', 'Charlie'],
  4. 'Age': [25, 32, 37],
  5. 'City': ['New York', 'Los Angeles', 'Chicago']
  6. }
  7. df = pd.DataFrame(data)
  • 从 CSV 文件读取
  1. df = pd.read_csv('data.csv')
  • 从 Excel 文件读取
  1. df = pd.read_excel('data.xlsx')

查看数据

  • 查看前几行
  1. print(df.head()) # 默认查看前5行
  2. print(df.head(10)) # 查看前10行
  • 查看数据类型
  1. print(df.dtypes)
  • 查看基本统计信息
  1. print(df.describe())

选择和过滤数据

  • 选择列
  1. ages = df['Age']
  2. print(ages)
  • 选择多列
  1. subset = df[['Name', 'City']]
  2. print(subset)
  • 选择行(按索引)
  1. first_row = df.iloc[0] # 按位置选择
  2. specific_rows = df.iloc[1:3] # 选择一段范围
  • 选择行(按条件)
  1. adults = df[df['Age'] > 30]
  2. print(adults)

数据操作

  • 添加新列
  1. df['Salary'] = [70000, 80000, 120000]
  • 删除列
  1. df = df.drop('Salary', axis=1) # axis=1 表示列
  • 修改数据
  1. df.loc[0, 'Name'] = 'Alicia'
  • 缺失值处理
  1. df = df.dropna() # 删除包含 NaN 的行
  2. df = df.fillna(value=0) # 用指定值填充 NaN

分组和聚合

  • 按列分组
  1. grouped = df.groupby('City')
  2. print(grouped['Age'].mean()) # 计算每个城市的平均年龄
  • 聚合操作
  1. result = df.groupby('City').agg({'Age': 'mean', 'Salary': 'sum'})
  2. print(result)

数据排序

  • 按列排序
  1. df = df.sort_values(by='Age') # 升序
  2. df = df.sort_values(by='Age', ascending=False) # 降序

保存和导出

  • 保存到 CSV 文件
  1. df.to_csv('new_data.csv', index=False)
  • 保存到 Excel 文件
  1. df.to_excel('new_data.xlsx', index=False)

这些操作展示了 Pandas DataFrame 的基础用法。在实际的分析中,Pandas 还支持更复杂的操作和与其他数据源的整合。探索 Pandas 的文档(Pandas Documentation)可以帮助你发掘更多的功能。

    遇到难题? "AI大模型GPT4.0、GPT" 是你的私人解答专家! 点击按钮去提问......
黛儿 关注 已关注

最近一次登录:2025-03-19 11:49:49   

暂时还没有签名,请关注我或评论我的文章
×
免费图表工具,画流程图、架构图