Метод Pandas DataFrame description() используется в Python для вычисления некоторых статистических данных, таких как процентиль, среднее значение и стандартное значение различных числовых значений DataFrame. Он используется для анализа как числовых, так и серий объектов, а также DataFrame, который имеет наборы столбцов смешанных типов данных.
Метод Pandas DataFrame description() используется для предоставления всей необходимой информации о наборе данных, которую можно в дальнейшем использовать для анализа данных и получения различных математических предположений для дальнейшего изучения. Функция DataFrame description() работает со статистической частью библиотеки Pandas.
Синтаксис
|
1 |
DataFrame.describe(percentiles= None, include= None, exclude=None) |
Параметры
Функция description() содержит три параметра.
- percentile: необязательный параметр. Это список, похожий на тип данных чисел, которые должны быть между 0 и 1. Значение по умолчанию — [.25,.5.75], которое возвращает точные 25-й, 50-й и 75-й процентили для данного списка.
- include: это также необязательный параметр, который включает список различных типов данных при описании фреймов данных.
- ‘all’: все столбцы ввода будут включены в результат.
- Тип списка dtypes: ограничивает результаты предоставленными типами данных. Чтобы ограничить вывод числовыми типами, отправьте numpy.number. Чтобы ограничить его вместо столбцов объектов, отправьте тип данных numpy.object. Строки Python также можно использовать в стиле select_dtypes (например, df.describe(include=[‘O’])). Чтобы выбрать категориальные столбцы pandas, используйте «category».
- None (default): результат будет включать все числовые столбцы. Его значение по умолчанию — None.
- exclude: это также необязательный параметр. Он используется для исключения списка типов данных при описании фреймов данных.
- Тип списка dtypes: Исключает предоставленные типы данных из результата. Чтобы исключить числовые типы, отправьте numpy.number. Чтобы исключить столбцы объектов, отправьте тип данных numpy.object. Строки Python также можно использовать в стиле select_dtypes (например, df.describe(include=[‘O’])). Чтобы исключить категориальные столбцы pandas, используйте «category».
- Ззначение по умолчанию также равно None.
Возвращаемое значение
Функция description() возвращает статистическую сводку DataFrame.
Примеры
Рассмотрим примеры программ с функцией description().
Пример 1
Напишем программу, показывающую работу метода description().
|
1 2 3 4 5 |
import pandas as pd import numpy as np numeric_dataset = pd.Series([1, 2, 3, 4, 5, 6, 6, 7, 7, 8, 8, 8, 8, 8]) print(numeric_dataset.describe()) |
Выход:
|
1 2 3 4 5 6 7 8 9 |
count 14.000000 mean 5.785714 std 2.423557 min 1.000000 25% 4.250000 50% 6.500000 75% 8.000000 max 8.000000 dtype: float64 |
Мы передали список чисел в виде серии, а затем использовали метод describe(), чтобы узнать всю важную информацию из этих чисел, которые вращаются вокруг математической статистики. В первой строке мы видим количество элементов в списке, которое равно 14, далее стандартное отклонение, затем минимальное значение и значения процентилей в разных кварталах и так далее.
Пример 2
Напишем программу, которая использует функцию описания для списка символов.
|
1 2 3 4 5 |
import pandas as pd import numpy as np char_dataset = pd.Series(['a', 'b', 'b', 'c', 'd']) print(char_dataset.describe()) |
Выход:
|
1 2 3 4 5 |
count 5 unique 4 top b freq 2 dtype: object |
Здесь мы видим, что мы передали список символов, и в функции описания он был идентифицирован как объект, который дает нам количество общих элементов, а не всех уникальных элементов. Мы видим, что здесь мы вставили 5 элементов, но количество всех уникальных элементов равно 4, так как «b» повторяется дважды.
Использование блокнота Python Jupyter
Все приведенные выше примеры можно запустить на Jupyter Notebook. Давайте импортируем файл CSV и преобразуем CSV в DataFrame, используя функцию pandas read_csv().
Вы можете скачать файл отсюда: ratings.csv.
Теперь откройте блокнот Jupyter и импортируйте библиотеки Pandas и Numpy.

Следующим шагом будет использование функции Pandas read_csv() и передача файла ratings.csv.
После этого вы получите DataFrame, а затем вы можете вызвать метод description() для этого DataFrame.

Как показано на выходном изображении, статистическое описание DataFrame было возвращено с соответствующими переданными процентилями. Вы можете увидеть количество, среднее, максимальное, процентиль, среднее и стандартное число числовых значений серии или кадра данных.
Заключение

Метод Pandas description() используется для просмотра некоторых основных статистических данных, таких как процентиль, среднее значение, стандартное значение и т. д. для DataFrame или ряда числовых значений.
