深入学习 Python 第三方库 Pandas(第 1 部分)
Pandas 是 Python 中最流行和强大的数据分析与数据处理库之一。它提供了高效、快捷的数据结构和数据分析工具,可以轻松地进行数据清洗、分析和建模。以下是 Pandas 的一些基础知识,帮助你更好地理解和使用这个库。
1. 安装 Pandas
要在你的 Python 环境中使用 Pandas,你需要首先进行安装。通常可以使用 pip 安装:
pip install pandas
2. 基本数据结构
Pandas 提供了两种核心的数据结构:Series
和 DataFrame
。
Series: 一种类似于一维数组的对象。它由一组数据(各种 NumPy 数据类型)以及一组与之相关的数据标签(即索引)组成。
import pandas as pd
# 创建一个简单的 Series
s = pd.Series([1, 3, 5, 7, 9])
print(s)
DataFrame: 一个表格型的数据结构,类似于电子表格或 SQL 表中的一个数据表,是一个由多列组成的二维数组。每列可以是不同的数据类型。
# 创建一个简单的 DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)
3. 读取和写入数据
Pandas 支持多种数据格式的读写操作,如 CSV、Excel、SQL 及 JSON 等。
读取 CSV 文件:
df = pd.read_csv('data.csv')
写入 CSV 文件:
df.to_csv('output.csv', index=False)
4. 数据操作
选择数据:
通过列标签或者条件进行选择:
# 选择某一列
ages = df['Age']
# 选择多列
df_subset = df[['Name', 'City']]
# 条件选择
df_filtered = df[df['Age'] > 28]
数据操作:
Pandas 提供了一系列的函数用于数据的基本操作。
- 添加新列:
df['Salary'] = [50000, 60000, 70000]
- 删除列:
df.drop(columns=['Salary'], inplace=True)
- 统计计算:
mean_age = df['Age'].mean()
5. 数据清洗
数据在分析前通常需要清洗和处理。Pandas 提供了诸如填充、替换、去重等方法:
处理缺失值:
# 检查缺失值
df.isnull().sum()
# 填充缺失值
df.fillna('Unknown', inplace=True)
# 删除缺失值
df.dropna(inplace=True)
去重:
df.drop_duplicates(inplace=True)
总结
Pandas 是进行数据分析和数据整理的强大工具,掌握好它可以帮助你在数据科学的道路上走得更远。这只是 Pandas 基础探讨的第 1 部分,后续的部分将深入探讨 Pandas 的高级特性和应用场景。学习 Pandas 的过程中,实践和练习是最好的方式,希望你能通过动手做例子应用这些知识。