Функция join() в Pandas: объединение DataFrame

Функция Pandas join() действует как важный атрибут, когда один DataFrame является таблицей поиска. Например, он содержит большую часть данных, а дополнительные данные этого DataFrame присутствуют в каком-то другом DataFrame.

Что такое функция join() в Pandas?

join() — это библиотечная функция Pandas, используемая для объединения разных фреймов данных в Python. Например, функция join() объединяет столбцы с другим DataFrame либо в индексе, либо в ключевом столбце. Функцию join() можно определить как объединение стандартных полей разных фреймов данных. Столбцы, которые содержат общие значения и используются для объединения, называются ключами соединения.

Чтобы присоединиться к различным фреймам данных в Pandas на основе индекса или ключа столбца, используйте метод join().

Чтобы определить ключ соединения, нам нужно найти обязательные поля данных, общие для двух фреймов данных, и столбцы в этом фрейме данных, которые совпадают.

Эффективно объединяйте несколько объектов DataFrame по индексу одновременно, передавая список. Мы можем либо соединить DataFrames вертикально, либо бок о бок. Под вертикальным мы подразумеваем объединение фреймов данных по столбцам, а рядом — индексацию.

Следовательно, удобно объединять столбцы двух фреймов данных с разными индексами в один фрейм данных на основе общих атрибутов. Мы также можем объединить данные, передав им список.

Синтаксис

Параметры

Функция Pandas join() содержит шесть параметров:

  • other: это DataFrame или список или серия, которую мы передаем. Индекс должен быть таким же, как один из столбцов. Если серия передается, ее имя должно использоваться в имени столбца в результирующем кадре данных.
  • on: необязательный параметр, который относится к массивам или значениям str. Он ссылается на столбец или имя уровня индекса в вызывающем DataFrame для присоединения к индексу. В противном случае он присоединяется к индексу по индексу.

Одним из важных условий является то, что если присутствует несколько значений, другой кадр данных также должен быть мультииндексирован.

  • how: относится к тому, как обрабатывать операцию на обоих объектах. Значение по умолчанию для этого параметра — «left». Различные типы значений этого параметра: «left», «right», «outer», «inner».
  1. left: он использует вызывающий индекс или столбец DataFrame, независимо от того, что указано.
  2. right: использует другие индексы для использования.
  3. outer: он формирует объединение индекса или столбца вызывающего фрейма(как указано) с другим индексом DataFrame и сортирует его лексикографически.
  4. inner: образует пересечение индекса или столбца вызывающего фрейма (как определено) с другим индексом или столбцом фрейма данных, сохраняя порядок вызывающего фрейма.
  • lsuffix: относится к строковому объекту, который имеет значение по умолчанию. Он использует суффикс из перекрывающихся столбцов левого фрейма.
  • rsuffix: Он относится к строковому объекту, который имеет значение по умолчанию. Он использует суффикс из перекрывающихся столбцов правого фрейма.
  • sort: состоит из логического значения и лексикографически сортирует полученный DataFrame.

Пример программы на Pandas DataFrame join()

Напишем программу, показывающую работу метода join().

Выход:

Здесь мы видим, что мы создали два DataFrames, первый из которых получил 6 номеров бросков и оценки по математике для всех 6 учеников.

Второй DataFrame состоит из научных оценок студентов из бросков с 1 по 3. Следовательно, результирующий DataFrame состоит из объединенных значений обоих DataFrames со значениями, не упомянутыми в NaN (отметки по науке из бросков с 4 по 6).

Оцените статью

Автор статей и разработчик, делюсь знаниями.

Программирование на Python