Pandas read_csv() — это встроенная функция, которая используется для загрузки данных CSV или файла значений, разделенных запятыми(csv), в DataFrame. Она также поддерживает опциональную итерацию или разбиение файла на части.
Мы можем импортировать pandas как pd в файл программы, а затем использовать его функции для выполнения необходимых операций. Если вы хотите открыть файл CSV в Pandas, вы можете использовать функцию pd.read_csv() и передать путь к файлу в ее параметр.
- Шаги для загрузки данных CSV в Pandas
- Шаг 1: Подготовьте CSV-файл
- Шаг 2: Создайте файл программы и импортируйте pandas
- Шаг 3: Используйте функцию read_csv() для загрузки CSV-файла
- Выбор подмножества столбцов в DataFrame
- Загрузка csv, указав «.» как пропущенные значения
- Загрузка CSV в Pandas, пропустив две верхние строки
Шаги для загрузки данных CSV в Pandas
Pandas DataFrame можно создать с помощью функции pd.read_csv(). Для этого вам необходимо выполнить следующие шаги.
Шаг 1: Подготовьте CSV-файл
Давайте создадим файл с именем data.csv и добавим в него следующие данные.
|
1 2 3 4 5 6 |
Service,ShowName,Seasons Netflix,Stranger Things,3 Disney+,The Mandalorian,1 Hulu,Simpsons,31 Prime Video,Fleabag,2 AppleTV+,The Morning Show,1 |
Первая строка файла — это имена столбцов, а во второй строке — данные для каждого столбца.
Шаг 2: Создайте файл программы и импортируйте pandas
Если вы еще не установили Pandas, установите библиотеку, создайте файл с именем app.py и добавьте первую строку ниже.
|
1 |
import pandas as pd |
Теперь мы можем использовать функцию Pandas read_csv() и передать этой функции локальный CSV-файл.
Шаг 3: Используйте функцию read_csv() для загрузки CSV-файла
Функция read_csv() в Pandas принимает много аргументов. Одним из обязательных аргументов является либо локальный путь к файлу, либо URL-адрес пути к файлу. Синтаксис функции следующий.
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
pd.read_csv(filepath_or_buffer, sep=’, ‘, delimiter=None, header=’infer’, names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression=’infer’, thousands=None, decimal=b’.’, lineterminator=None, quotechar='”‘, quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None) |
Теперь давайте напишем функцию read_csv() для загрузки CSV-файла в нашу программу и создания DataFrame.
|
1 2 3 4 5 6 |
# app.py import pandas as pd df = pd.read_csv('data.csv') print(df) |
Файл data.csv и app.py находятся в одном каталоге. Итак, мы просто написали имя файла, а затем функция возвращает DataFrame данных CSV.
Запустите файл и посмотрите результат.
|
1 2 3 4 5 6 |
Service ShowName Seasons 0 Netflix Stranger Things 3 1 Disney+ The Mandalorian 1 2 Hulu Simpsons 31 3 Prime Video Fleabag 2 4 AppleTV+ The Morning Show 1 |
Выбор подмножества столбцов в DataFrame
А что, если вы хотите выбрать подмножество столбцов из CSV-файла? Например, вы хотите выбрать только столбцы ShowName и Seasons.
См. следующий код.
|
1 2 3 4 5 |
import pandas as pd data = pd.read_csv('data.csv') df = pd.DataFrame(data, columns=['ShowName', 'Seasons']) print(df) |
Выход:
|
1 2 3 4 5 6 |
ShowName Seasons 0 Stranger Things 3 1 The Mandalorian 1 2 Simpsons 31 3 Fleabag 2 4 The Morning Show 1 |
Вам нужно будет убедиться, что имена столбцов, указанные в коде, точно совпадают с именами столбцов в CSV-файле. В противном случае вы получите значения NaN.
Загрузка csv, указав «.» как пропущенные значения
См. следующий код.
|
1 2 3 4 5 |
import pandas as pd df = pd.read_csv('data.csv', na_values=['.']) frame = pd.isnull(df) print(frame) |
Выход:
|
1 2 3 4 5 6 |
Service ShowName Seasons 0 False False False 1 False False False 2 False False False 3 False False False 4 False False False |
Загрузка CSV в Pandas, пропустив две верхние строки
В этом примере мы пропустим первые две строки при создании DataFrame из CSV-файла.
|
1 2 3 4 |
import pandas as pd df = pd.read_csv('data.csv', skiprows=2) print(df) |
Выход:
|
1 2 3 4 |
Disney+ The Mandalorian 1 0 Hulu Simpsons 31 1 Prime Video Fleabag 2 2 AppleTV+ The Morning Show 1 |

Итак, вот как вы можете загружать CSV в Pandas с различными вариантами использования.
