read_excel() — это библиотечная функция Pandas, которая считывает данные листа Excel в объект DataFrame в виде двумерной таблицы Python.
Синтаксис
|
1 2 3 4 5 6 7 8 9 |
pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, verbose=False, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, convert_float=True, mangle_dupe_cols=True, **kwds) |
Параметры
read_excel() имеет следующие параметры:
- io: он может присутствовать в str, bytes, ExcelFile, xlrd.Book и т. д. Возможна любая допустимая строка. Это может быть URL-адрес в виде http, https, s3 и т. д.
- sheet_name: значение по умолчанию равно 0. Может принимать значения str, int, list или None. Строки используются для имен листов.
- Header: его значение по умолчанию равно 0. Он может иметь значения типа данных int или список int. Строка, которая будет использоваться для меток столбцов анализируемого DataFrame.
- names: по умолчанию его значение равно None. Он принимает структуру, подобную массиву. Это имена столбцов для использования.
- index_col: по умолчанию также принимает None. Он может иметь значения типа int или списка lint. Столбец для использования в качестве меток строк DataFrame. Если такого столбца нет, пользователь должен передать None.
- usecols: по умолчанию также ничего не принимает и может принимать такие значения, как int, str и спископодобные структуры.
- squeeze: принимает логические значения. По умолчанию его значение равно False.
- dtype: это имя типа или словарь столбца.
- engine: принимает значения str и по умолчанию принимает None. Если io не является буфером или путем, это должно быть установлено в identity io.
- converters: это словарь, и по умолчанию он принимает None. Словарь функций для преобразования значений в определенных столбцах.
- true_values: принимает список; по умолчанию это None. Значения, которые следует считать истинными.
- false_values: также принимает список; по умолчанию это None. Значения, которые следует считать ложными.
- skiprows: это строки, которые нужно пропустить в начале(с индексом 0).
- nrows: представляет количество строк для анализа.
- na_values: это дополнительная строка для распознавания значений NA/NaN.
- keep_default_na: принимает логические значения и по умолчанию имеет значение True. Он определяет, следует ли принимать значения NaN по умолчанию при анализе данных.
- na_filter: принимает логическое значение и по умолчанию имеет значение True. Он обнаруживает маркеры пропущенных значений.
- verbose: указывает несколько значений NA, помещенных в нечисловые столбцы.
- parse_dates: принимает bool, list-like или dict. По умолчанию его значение равно False.
- date_parser: это необязательная функция. Преобразует последовательность строковых столбцов в массив экземпляров даты и времени.
- thousands: принимает значения str. По умолчанию это None. Разделители тысяч для преобразования строковых столбцов в числовые.
- comment: Он также принимает значения str. По умолчанию это None. Комментирует оставшуюся часть строки.
- skipfooter: принимает целые значения. По умолчанию он установлен на 0. Указывает, что строки в конце должны быть пропущены.
- convert_float: принимает логическое значение, а его значение по умолчанию равно true. Преобразует целые числа с плавающей запятой в целые числа.
- mangle_dupe_cols: принимает логические значения и по умолчанию принимает значение True. При этом повторяющиеся столбцы будут указаны как X, X.1, X.2….XN, а не X, X, X,…..X. Передача False в качестве параметра приведет к перезаписыванию данных, если в столбце есть повторяющиеся имена.
- **kwds: необязательный параметр. Необязательное ключевое слово можно передать в TextFileReader.
Возвращаемое значение
Метод read_excel() возвращает фрейм данных или словарь фреймов данных. DataFrame содержит данные листа Excel.
Пример программы на pandas.read_excel()
Чтобы прочитать файл Excel в Pandas, вы можете использовать метод read_excel().
В этом примере мы используем файл readfile.xlsx.
|
1 2 3 4 |
import pandas as pd df = pd.read_excel('readfile.xlsx', index_col=0) print(df) |
Выход
На выходе вы можете получить следующую ошибку, связанную с зависимостью, установленной на вашем компьютере.
ImportError: Отсутствует необязательная зависимость «xlrd». Установите xlrd >= 1.0.0 для поддержки Excel. Используйте pip или conda для установки xlrd.
Чтобы исправить эту ошибку ImportError, вам необходимо установить модуль xlrd. Введите следующую команду.
|
1 |
python3 -m pip install xlrd |
Он установит модуль и перезапустит файл.
|
1 2 3 4 5 6 |
Name Roll no maths science english 0 Rohit 1 93 88 93 1 Arun 2 63 66 74 2 Sohit 3 55 66 84 3 Arun 4 94 94 92 4 Shubh 33 83 77 87 |
Первый параметр — это имя файла Excel.
Когда мы печатаем объект DataFrame, на выходе получается двумерная таблица. Это похоже на запись листа Excel.
Если первый столбец в файле Excel или CSV имеет значения индекса, вы можете сделать следующее, чтобы удалить безымянный столбец в Pandas.
|
1 |
pd.read_excel('readfile.xlsx', index_col=0) |
Если мы определим index_col = 0, он будет игнорировать первый безымянный столбец.
Если безымянный столбец отличается от первого, вы можете написать следующую строку, чтобы удалить его из любого индекса.
|
1 2 3 4 5 |
import pandas as pd df = pd.read_excel('readfile.xlsx') df = df.loc[:, ~df.columns.str.contains('^Unnamed')] print(df) |
Выход
|
1 2 3 4 5 6 |
Name Roll no maths science english 0 Rohit 1 93 88 93 1 Arun 2 63 66 74 2 Sohit 3 55 66 84 3 Arun 4 94 94 92 4 Shubh 33 83 77 87 |
В приведенном выше коде мы видим, что мы использовали метод read_excel() для извлечения данных xlsx(файла excel), который был ранее создан и сохранен в той же папке, что и файл py с данными некоторых студентов.
