Изучая набор данных, вы часто хотите получить быстрое представление о распределении в нем определенных числовых переменных. Стандартный способ визуализации распределения одной числовой переменной — использование гистограммы. Гистограмма делит значения числовой переменной на «ячейки» и подсчитывает несколько наблюдений, попадающих в каждую ячейку.
Визуализируя эти объединенные в бины подсчеты в виде столбцов, мы можем получить очень непосредственное и интуитивное представление о распределении значений внутри переменной. Метод Pandas DataFrame hist() является оболочкой для API-интерфейса matplotlib pyplot.
Что такое функция DataFrame hist() в Pandas?
Pandas DataFrame hist() — это метод-оболочка для API-интерфейса matplotlib pyplot. Метод hist() может быть удобным инструментом для доступа к распределению вероятностей. Функция вызывается для каждой серии в DataFrame, в результате чего получается одна гистограмма на столбец.
Функция hist() используется для создания гистограммы, которая проясняет представление о распределении определенных числовых переменных в наборе данных.
Синтаксис
|
1 2 3 4 |
DataFrame.hist(data, column=None, by=None, grid= True, xlabelsize=None, xrot=None, ylabelsize=None, yrot=None, ax=None, sharex=False, sharey=False, figsize=None, layout=None, bins=10, backend= None, **kwargs) |
Параметры
Он имеет следующие параметры.
- data: это DataFrame. Это объект Pandas, содержащий данные.
- column: принимает строку или последовательности, и, если он передан, он будет использоваться для ограничения данных подмножеством столбцов.
- by: Это объект и необязательный параметр. Если пройдено, то используется для формирования гистограмм по отдельным группам.
- grid: принимает логические значения и по умолчанию имеет значение True. Параметр grid существует, чтобы указать, показывать ли линии сетки или нет.
- xlabelsize: принимает целое число и по умолчанию равно None. Если он указан, он изменяет размер метки по оси x.
- xrot: принимает тип данных с плавающей запятой, и по умолчанию это None. Он определяет поворот меток по оси x. Например, значение 90 отображает метки x, повернутые на 90 градусов по часовой стрелке.
- ylabelsize: принимает целое число и по умолчанию равно None. Если он указан, он изменяет размер метки по оси Y.
- yrot: принимает тип данных с плавающей запятой, и по умолчанию это None. Он определяет поворот меток оси Y. Например, значение 90 отображает метки y, повернутые на 90 градусов по часовой стрелке.
- ax: это объект осей Matplotlib. По умолчанию None. Это оси для построения гистограммы.
- sharex: принимает логическое значение, и по умолчанию True. Если ax None else False.
- sharey: Он также принимает логические значения и по умолчанию имеет значение False. В случае subplots=True он разделяет ось Y и делает некоторые метки оси Y невидимыми.
- figsize: требуется кортеж. Размер создаваемой фигуры в дюймах.
- layout: это необязательный параметр, который принимает кортеж в качестве входных данных. Кортеж(строки, столбцы) для компоновки гистограмм.
- bins: принимает целое число или последовательность, b по умолчанию это 10. Это количество используемых бинов гистограммы. Если задано целое число, вычисляются и возвращаются бины +1 ребро бина.
- backend: принимает str, по умолчанию это None. backend для использования вместо backend, указанного в опции plotting.backend.
- **kwargs: все остальные аргументы ключевых слов для построения графиков должны быть переданы в matplotlib.pyplot.hist().
Возвращаемое значение
Метод hist() возвращает matplotlib.Axes.Subplot или numpy.ndarray DataFrame.
Пример программы на hist()
Напишите программу, показывающую работу функции hist().
|
1 2 3 4 5 6 7 8 9 |
import numpy as np import pandas as pd df = pd.DataFrame({ 'length': [2.5, 3.6, 4.6, 4.8, 5.0], 'width': [2.7, 3.7, 6.4, 0.22, 4.7] }) hist = df.hist(bins=3) print(hist) |
Выход:

В приведенном выше примере мы создали гистограмму на основе данных, указанных в DataFrame.
Заключение

Чтобы создать гистограмму, используйте метод Pandas hist(). Вызов метода hist() для Pandas DataFrame вернет гистограммы для всех non-nuisance Series в DataFrame.
