提示信息

20个实用的Python Excel数据处理脚本及详细源码

沉世 已关注

以下是20个实用的Python脚本,用于Excel数据处理任务。为每个脚本提供简要说明和示例代码。为了运行这些脚本,你需要安装pandasopenpyxl库。可以通过执行pip install pandas openpyxl来安装。

1. 读取Excel文件

  1. import pandas as pd
  2. df = pd.read_excel('file.xlsx')
  3. print(df.head())

2. 写入Excel文件

  1. import pandas as pd
  2. df = pd.DataFrame({'Name': ['John', 'Anna'], 'Age': [28, 24]})
  3. df.to_excel('output.xlsx', index=False)

3. 选择特定列

  1. import pandas as pd
  2. df = pd.read_excel('file.xlsx')
  3. selected_columns = df[['Name', 'Age']]
  4. print(selected_columns)

4. 过滤行

  1. import pandas as pd
  2. df = pd.read_excel('file.xlsx')
  3. filtered_df = df[df['Age'] > 25]
  4. print(filtered_df)

5. 添加新列

  1. import pandas as pd
  2. df = pd.read_excel('file.xlsx')
  3. df['NewColumn'] = df['Age'] * 2
  4. print(df)

6. 删除列

  1. import pandas as pd
  2. df = pd.read_excel('file.xlsx')
  3. df = df.drop(columns=['UnwantedColumn'])
  4. print(df)

7. 修改列名称

  1. import pandas as pd
  2. df = pd.read_excel('file.xlsx')
  3. df = df.rename(columns={'OldName': 'NewName'})
  4. print(df)

8. 填充缺失值

  1. import pandas as pd
  2. df = pd.read_excel('file.xlsx')
  3. df = df.fillna(0)
  4. print(df)

9. 合并Excel文件

  1. import pandas as pd
  2. df1 = pd.read_excel('file1.xlsx')
  3. df2 = pd.read_excel('file2.xlsx')
  4. merged_df = pd.concat([df1, df2])
  5. print(merged_df)

10. 数据透视表

  1. import pandas as pd
  2. df = pd.read_excel('file.xlsx')
  3. pivot_table = df.pivot_table(index='Category', values='Sales', aggfunc='sum')
  4. print(pivot_table)

11. 条件格式化

  1. import pandas as pd
  2. df = pd.read_excel('file.xlsx')
  3. df.style.applymap(lambda x: 'background-color: yellow' if x > 50 else '')

12. 数据清理

  1. import pandas as pd
  2. df = pd.read_excel('file.xlsx')
  3. df.dropna(inplace=True) # 删除缺失值的行
  4. print(df)

13. 排序

  1. import pandas as pd
  2. df = pd.read_excel('file.xlsx')
  3. sorted_df = df.sort_values(by='Age')
  4. print(sorted_df)

14. 数据聚合

  1. import pandas as pd
  2. df = pd.read_excel('file.xlsx')
  3. aggregated_df = df.groupby('Category').sum()
  4. print(aggregated_df)

15. 指定列类型

  1. import pandas as pd
  2. df = pd.read_excel('file.xlsx', dtype={'Age': int})
  3. print(df.dtypes)

16. 获取Excel正则匹配

  1. import pandas as pd
  2. df = pd.read_excel('file.xlsx')
  3. regex_df = df[df['Name'].str.contains('John', na=False)]
  4. print(regex_df)

17. 将日期解析为datetime

  1. import pandas as pd
  2. df = pd.read_excel('file.xlsx', parse_dates=['Date'])
  3. print(df.dtypes)

18. 保存多个工作表

  1. import pandas as pd
  2. with pd.ExcelWriter('output.xlsx') as writer:
  3. df1.to_excel(writer, sheet_name='Sheet1')
  4. df2.to_excel(writer, sheet_name='Sheet2')

19. 自定义索引

  1. import pandas as pd
  2. df = pd.read_excel('file.xlsx', index_col='ID')
  3. print(df.head())

20. 计算列的总和

  1. import pandas as pd
  2. df = pd.read_excel('file.xlsx')
  3. total = df['Sales'].sum()
  4. print("Total Sales:", total)

这些脚本展示了各种操作从读取到修改以至综合管理Excel文件的能力。根据您的具体需要,您可以进一步自定义和扩展它们。

    遇到难题? "AI大模型GPT4.0、GPT" 是你的私人解答专家! 点击按钮去提问......
沉世 关注 已关注

最近一次登录:2024-11-20 10:29:37   

暂时还没有签名,请关注我或评论我的文章
×
免费图表工具,画流程图、架构图