提示信息

Python 使用 drop_duplicates() 函数删除重复行

空梦 已关注

在 Pandas 中,drop_duplicates() 函数用于删除 DataFrame 中的重复行。下面是如何使用这个函数的一个简单示例。

首先,确保你已经安装并导入了 Pandas 库:

  1. import pandas as pd

接下来,假设你有一个 DataFrame,比如:

  1. data = {
  2. 'Name': ['Alice', 'Bob', 'Alice', 'David', 'Bob'],
  3. 'Age': [25, 30, 25, 40, 30],
  4. 'City': ['New York', 'Los Angeles', 'New York', 'Chicago', 'Los Angeles']
  5. }
  6. df = pd.DataFrame(data)
  7. print("Original DataFrame:")
  8. print(df)

上述代码将创建如下的 DataFrame:

  1. Name Age City
  2. 0 Alice 25 New York
  3. 1 Bob 30 Los Angeles
  4. 2 Alice 25 New York
  5. 3 David 40 Chicago
  6. 4 Bob 30 Los Angeles

要删除重复行,可以使用 drop_duplicates()

  1. df_unique = df.drop_duplicates()
  2. print("\nDataFrame after removing duplicates:")
  3. print(df_unique)

默认情况下,drop_duplicates() 会基于所有列来判断重复。如果你想要基于特定列删除重复项,可以传递 subset 参数:

  1. # 仅根据 'Name' 列来判断重复,并删除它们
  2. df_unique_based_on_name = df.drop_duplicates(subset=['Name'])
  3. print("\nDataFrame after removing duplicates based on 'Name':")
  4. print(df_unique_based_on_name)

对于上述示例使用 subset=['Name'] 后的输出会是:

  1. Name Age City
  2. 0 Alice 25 New York
  3. 1 Bob 30 Los Angeles
  4. 3 David 40 Chicago

记住 drop_duplicates() 默认为返回处理后的新 DataFrame。如果你想就地删除重复项,可以设置 inplace=True

  1. df.drop_duplicates(inplace=True)

这个对原来的 df 进行修改,直接删除重复项。

    遇到难题? "AI大模型GPT4.0、GPT" 是你的私人解答专家! 点击按钮去提问......
空梦 关注 已关注

最近一次登录:2024-11-20 09:57:36   

暂时还没有签名,请关注我或评论我的文章
×
免费图表工具,画流程图、架构图