Python pandas库的基本操作:数据分析入门
Python 的 pandas 库是进行数据分析的强大工具,特别适合处理结构化数据。以下是 pandas 库的一些基本操作,帮助你快速入门数据分析:
1. 安装和导入 pandas
首先,你需要确保已经安装了 pandas。可以使用以下命令通过 pip 安装:
pip install pandas
然后在你的 Python 脚本中导入 pandas:
import pandas as pd
2. 创建数据结构
- Series:一维数据结构,类似于一列数据。
s = pd.Series([1, 3, 5, 7, 9])
print(s)
- DataFrame:二维数据结构,是 pandas 最常用的数据结构,类似于一个表格。
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)
3. 数据导入和导出
- 读取 CSV 文件:
df = pd.read_csv('file.csv')
print(df)
- 导出为 CSV 文件:
df.to_csv('output.csv', index=False)
4. 数据查看和选择
- 查看前几行数据:
print(df.head()) # 默认显示前5行
- 查看数据维度:
print(df.shape)
- 选择列:
print(df['Name'])
- 选择行:
print(df.iloc[0]) # 通过索引选择
print(df.loc[0]) # 通过标签选择
5. 数据清洗
- 处理缺失值:
df = df.dropna() # 丢弃缺失值
df = df.fillna(0) # 用 0 填充缺失值
- 数据类型转换:
df['Age'] = df['Age'].astype(float)
6. 数据操作
- 添加新列:
df['Salary'] = [50000, 60000, 75000]
- 数据过滤:
filtered_df = df[df['Age'] > 28]
- 排序:
df = df.sort_values('Age')
7. 数据分析
- 基本统计信息:
print(df.describe())
- 分组与聚合:
grouped = df.groupby('City').mean()
print(grouped)
8. 可视化
虽然 pandas 主要用于数据操作,但它与 matplotlib 结合非常好,可以简单绘图:
import matplotlib.pyplot as plt
df['Age'].plot(kind='bar')
plt.show()
以上介绍了 pandas 的一些基本操作,能帮助你开始数据分析的过程。随着对 pandas 掌握程度的深入,你可以探索更多功能,如时间序列分析、连接合并数据等。希望这些信息对你有所帮助!