Как найти дубликаты в Pandas DataFrame

Чтобы найти повторяющиеся строки (дубликаты) в Pandas DataFrame, вы можете использовать функцию pd.df.duplicated(). Pandas.DataFrame.duplicated() — это библиотечная функция, которая находит повторяющиеся строки на основе всех или определенных столбцов и возвращает логический ряд со значением True для каждой дублированной строки.

Синтаксис

Параметры

  • subset :
    • Для проверки дублирования следует использовать метки с одним или несколькими столбцами. Если их не указать, то будут проверены все столбцы на наличие повторяющихся строк.
  • keep :
    • Он обозначает вхождение, которое должно быть помечено как дубликат. Его значение может быть {«first», «last», False}, а значение по умолчанию — «first».
      • first: все дубликаты, кроме их первого появления, будут помечены как True.
      • last: все дубликаты, кроме их последнего вхождения, будут помечены как True.
      • False: все дубликаты, кроме, будут помечены как True.

Пример

Давайте создадим образец DataFrame, содержащий повторяющиеся значения.

Выход

Как видите, приведенный выше фрейм данных содержит повторяющиеся строки.

Нахождение повторяющихся строк на основе всех столбцов

Чтобы найти и выбрать дубликат всех строк, основанных на всех столбцах, вы можете вызвать Daraframe.duplicate() без аргумента подмножества.

Он вернет логический ряд с True в каждой дублированной строке, кроме их первого появления(значение аргумента keep по умолчанию — «first»). Затем передайте эту логическую серию оператору [] Dataframe, чтобы выбрать повторяющиеся строки.

Пример

Выход

Здесь возвращаются все повторяющиеся строки, кроме их первого вхождения, потому что значение по умолчанию для аргумента сохранения было «first».

Чтобы выбрать все повторяющиеся строки, кроме их последнего вхождения, мы должны передать аргумент сохранения как «last».

Выход

Нахождение повторяющихся строк на основе выбранных столбцов

Чтобы сравнить строки и найти дубликаты на основе выбранных столбцов, мы должны передать список имен столбцов в аргументе подмножества функции Dataframe.duplicate(). Затем она выберет и вернет повторяющиеся строки на основе этих переданных столбцов.

Пример 1

Выход

Здесь строки с одинаковым значением в столбце «Name» помечаются как дубликаты и возвращаются.

Пример 2

Найдите и выберите строки на основе имен из двух столбцов.

Выход

Оцените статью

Автор статей и разработчик, делюсь знаниями.

Программирование на Python