Функция read_excel() в Pandas — чтение файла Excel

read_excel() — это библиотечная функция Pandas, которая считывает данные листа Excel в объект DataFrame в виде двумерной таблицы Python.

Синтаксис

Параметры

read_excel() имеет следующие параметры:

  1. io: он может присутствовать в str, bytes, ExcelFile, xlrd.Book и т. д. Возможна любая допустимая строка. Это может быть URL-адрес в виде http, https, s3 и т. д.
  2. sheet_name: значение по умолчанию равно 0. Может принимать значения str, int, list или None. Строки используются для имен листов.
  3. Header: его значение по умолчанию равно 0. Он может иметь значения типа данных int или список int. Строка, которая будет использоваться для меток столбцов анализируемого DataFrame.
  4. names: по умолчанию его значение равно None. Он принимает структуру, подобную массиву. Это имена столбцов для использования.
  5. index_col: по умолчанию также принимает None. Он может иметь значения типа int или списка lint. Столбец для использования в качестве меток строк DataFrame. Если такого столбца нет, пользователь должен передать None.
  6. usecols: по умолчанию также ничего не принимает и может принимать такие значения, как int, str и спископодобные структуры.
  7. squeeze: принимает логические значения. По умолчанию его значение равно False.
  8. dtype: это имя типа или словарь столбца.
  9. engine: принимает значения str и по умолчанию принимает None. Если io не является буфером или путем, это должно быть установлено в identity io.
  10. converters: это словарь, и по умолчанию он принимает None. Словарь функций для преобразования значений в определенных столбцах.
  11. true_values: принимает список; по умолчанию это None. Значения, которые следует считать истинными.
  12. false_values: также принимает список; по умолчанию это None. Значения, которые следует считать ложными.
  13. skiprows: это строки, которые нужно пропустить в начале(с индексом 0).
  14. nrows: представляет количество строк для анализа.
  15. na_values: это дополнительная строка для распознавания значений NA/NaN.
  16. keep_default_na: принимает логические значения и по умолчанию имеет значение True. Он определяет, следует ли принимать значения NaN по умолчанию при анализе данных.
  17. na_filter: принимает логическое значение и по умолчанию имеет значение True. Он обнаруживает маркеры пропущенных значений.
  18. verbose: указывает несколько значений NA, помещенных в нечисловые столбцы.
  19. parse_dates: принимает bool, list-like или dict. По умолчанию его значение равно False.
  20. date_parser: это необязательная функция. Преобразует последовательность строковых столбцов в массив экземпляров даты и времени.
  21. thousands: принимает значения str. По умолчанию это None. Разделители тысяч для преобразования строковых столбцов в числовые.
  22. comment: Он также принимает значения str. По умолчанию это None. Комментирует оставшуюся часть строки.
  23. skipfooter: принимает целые значения. По умолчанию он установлен на 0. Указывает, что строки в конце должны быть пропущены.
  24. convert_float: принимает логическое значение, а его значение по умолчанию равно true. Преобразует целые числа с плавающей запятой в целые числа.
  25. mangle_dupe_cols: принимает логические значения и по умолчанию принимает значение True. При этом повторяющиеся столбцы будут указаны как X, X.1, X.2….XN, а не X, X, X,…..X. Передача False в качестве параметра приведет к перезаписыванию данных, если в столбце есть повторяющиеся имена.
  26. **kwds: необязательный параметр. Необязательное ключевое слово можно передать в TextFileReader.

Возвращаемое значение

Метод read_excel() возвращает фрейм данных или словарь фреймов данных. DataFrame содержит данные листа Excel.

Пример программы на pandas.read_excel()

Чтобы прочитать файл Excel в Pandas, вы можете использовать метод read_excel().

В этом примере мы используем файл readfile.xlsx.

Выход

На выходе вы можете получить следующую ошибку, связанную с зависимостью, установленной на вашем компьютере.

ImportError: Отсутствует необязательная зависимость «xlrd». Установите xlrd >= 1.0.0 для поддержки Excel. Используйте pip или conda для установки xlrd.

Чтобы исправить эту ошибку ImportError, вам необходимо установить модуль xlrd. Введите следующую команду.

Он установит модуль и перезапустит файл.

Первый параметр — это имя файла Excel.

Когда мы печатаем объект DataFrame, на выходе получается двумерная таблица. Это похоже на запись листа Excel.

Если первый столбец в файле Excel или CSV имеет значения индекса, вы можете сделать следующее, чтобы удалить безымянный столбец в Pandas.

Если мы определим index_col = 0, он будет игнорировать первый безымянный столбец.

Если безымянный столбец отличается от первого, вы можете написать следующую строку, чтобы удалить его из любого индекса.

Выход

В приведенном выше коде мы видим, что мы использовали метод read_excel() для извлечения данных xlsx(файла excel), который был ранее создан и сохранен в той же папке, что и файл py с данными некоторых студентов.

Оцените статью

Автор статей и разработчик, делюсь знаниями.

Программирование на Python