Python酷库之旅:第三方库Pandas(157)
Python 酷库之旅:第三方库 Pandas
Pandas 是 Python 中一个强大的数据分析和数据处理库。它提供了高效且便捷的数据结构和数据处理功能,尤其擅长处理表格型数据。Pandas 中最常用的数据结构是 Series
和 DataFrame
。
为什么选择 Pandas?
- 简洁的语法:Pandas 提供了直观的 API,使数据处理过程简洁明了。
- 强大的功能:支持各种类型的数据操作,如筛选、聚合、透视表等。
- 与其他库的兼容性:可以很好地与 NumPy、Matplotlib 等库配合使用,形成强大的数据处理和可视化工具链。
- 数据读取支持广泛:能够从多种格式(如 CSV、Excel、SQL 数据库等)读取数据。
Pandas 核心数据结构
Series:一维数组,类似于一列数据,可以包含任意数据类型,可以看作是带标签的数组。
import pandas as pd
# 创建一个 Series
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(s)
DataFrame:二维表格型数据结构,带有行索引和列标签。
import pandas as pd
# 创建一个 DataFrame
data = {
'Name': ['Tom', 'Jerry', 'Mickey', 'Donald'],
'Age': [5, 6, 7, 8]
}
df = pd.DataFrame(data)
print(df)
常见操作
数据读取和写入
# 从 CSV 文件读取
df = pd.read_csv('data.csv')
# 写入到 Excel 文件
df.to_excel('output.xlsx', index=False)
数据筛选
# 按条件筛选
adults = df[df['Age'] > 5]
数据聚合
# 分组聚合
grouped = df.groupby('Category').sum()
缺失值处理
# 填充缺失值
df.fillna(0, inplace=True)
# 删除缺失值
df.dropna(inplace=True)
数据可视化
import matplotlib.pyplot as plt
# 可视化数据
df['Age'].plot(kind='bar')
plt.show()
Pandas 是数据科学和分析的必备工具之一,通过它可以更高效地进行数据处理和分析操作。对于想在数据科学领域有所发展的程序员来说,掌握 Pandas 是非常重要的。