Python Jupyter Notebook — невероятно мощный инструмент для разработки и представления проектов по науке о данных. Jupyter Notebook объединяет код и его выходные данные в единый документ, который сочетает в себе визуализации, описательный текст, математические уравнения и мультимедийные материалы.
Интерактивный рабочий процесс способствует итеративной и быстрой разработке, что делает ноутбуки все более популярным выбором для современной науки о данных, анализа и науки в целом.
Начало работы с Jupyter Notebook
Вы можете установить Jupyter Notebook с помощью Anaconda. Я использую Macbook, но процедура в Windows почти такая же.
Anaconda — это самый популярный дистрибутив Python науки о данных и машинного обучения, в который предварительно загружены все самые популярные библиотеки и инструменты.
Некоторые из самых больших библиотек Python, включенных в Anaconda, — это NumPy, Pandas и Matplotlib, хотя полный список из 1000+ является исчерпывающим.
Anaconda позволяет нам приступить к работе в вашей собственной полностью оборудованной мастерской по обработке и анализу данных без хлопот по управлению множеством установок или беспокойства о зависимостях ОС.
Установка
Процесс установки прост, и после установки Anaconda вы увидите экран, показанный ниже.

Это Анаконда Навигатор. Здесь вы можете увидеть второй вариант — блокнот jupyter, который нам нужно запустить для работы с Python. Ваш терминал откроется и запустит блокнот jupyter в браузере, локальный URL которого: http://localhost:8888/tree.
Поздравляем! Вы успешно установили его.
Создание вашего первого Notebook
Во-первых, вам нужно выбрать папку проекта. Я выбрал мой, который находится в папке desktop/code/pyt. Для этого проекта я использую Python 3.
Теперь создайте файл с расширением .ipynb.
Что такое файл ipynb?
Каждый файл .ipynb — это текстовый файл, описывающий содержимое вашей записной книжки в формате JSON. Каждая ячейка и ее содержимое, включая прикрепленные изображения, которые были преобразованы в текстовые строки, перечислены там с некоторыми метаданными.
Интерфейс Jupyter Notebook
Я создал файл Jupyter Notebook с именем DataScience.ipynb. Он выглядит как на изображении ниже.

В Jupyter Notebook ячейки создают тело блокнота. На приведенном ниже снимке экрана новой записной книжки прямоугольник с зеленым контуром — это пустая ячейка. В основном мы рассмотрим два основных типа клеток:
- Ячейка кода содержит код, который должен быть выполнен в ядре, и отображает его вывод ниже.
- Ячейка Markdown содержит текст, отформатированный с использованием Markdown, и отображает его вывод на месте при запуске.
Первая ячейка в новой записной книжке всегда является ячейкой кода. Давайте проверим это на классическом примере hello world. Введите следующий код внутри ячейки.
|
1 |
19 + 2 |
Теперь нажмите кнопку «Выполнить» на панели инструментов выше или нажмите Ctrl + Enter. Результат должен выглядеть так, как показано ниже.

Результат мгновенно отображается в следующей строке. В этом прелесть Jupyter Notebook.
После этого вы можете добавлять, удалять или редактировать ячейки в соответствии с вашими требованиями. Кроме того, не забудьте вставить пояснительный текст или заголовки и подзаголовки, чтобы пояснить ваш код.
Запуск Jupyter Notebook по-питоновски: Pip
Если вы не хотите устанавливать Anaconda, убедитесь, что у вас установлена последняя версия pip.
Если вы установили Python, обычно он у вас уже есть. Теперь обновите версию pip, если у вас старая. Введите следующие команды, относящиеся к вашей операционной системе.
|
1 2 3 4 5 |
# On Windows python -m pip install -U pip setuptools # On OS X or Linux pip install -U pip setuptools |
После того, как вы установили pip на свой компьютер, вы можете просто запустить следующую команду.
|
1 2 3 4 5 |
# Python2 pip install jupyter # Python 3 pip3 install jupyter |
Теперь, когда вы знаете, с чем будете работать, и установили его, пришло время приступить к делу!
Выполните следующую команду, чтобы открыть приложение.
|
1 |
jupyter notebook |
Затем вы увидите, что приложение открывается в веб-браузере по следующему адресу: http://localhost:8888.
Итак, мы рассмотрели оба способа установки Jupyter Notebook.
Анализ данных с помощью Pandas и Jupyter Notebook
Загрузите набор данных для нашего примера. Вам необходимо перейти по следующей ссылке.
https://docs.google.com/spreadsheets/d/1zeeZQzFoHE2j_ZrqDkVJK9eF7OH1yvg75c8S-aBcxaU/edit#gid=0
Это данные о призёрах летних Олимпийских игр с 1896 по 2008 год. Они общедоступны.
Теперь откройте эту ссылку и сохраните этот файл в data.csv в той же папке проекта, где находится файл Jupyter. Убедитесь, что оба находятся в одном каталоге.
Хорошо, импортируйте этот файл и пропустите первые четыре строки этого файла, выполнив следующий код. Параметр skiprows указывает номера строк для пропуска(0-индексированные) или некоторые строки для пропуска(int) в начале файла.

Здесь мы написали три строки кода и получили данные.
|
1 2 3 |
import pandas as pd olympicsData = pd.read_csv('data.csv', skiprows=4) olympicsData.head() |
Если вы получаете те же данные, то отлично, вы в правильном направлении, и вы успешно импортировали данные.
Доступ к фреймам данных
Следующим шагом является доступ к DataFrame из этих данных. Введите следующий код в ячейку блокнота и нажмите ctrl + enter.
|
1 |
olympicsData |
В результате вы увидите первые 30 строк и последние 30 строк.

Доступ к Series
series — это одномерный массив индексных данных. Если мы хотим получить доступ к серии из данных Олимпиады, то вам нужно передать имя столбца в качестве индекса и посмотреть вывод. Допустим, нам нужно увидеть весь спорт на Олимпийских играх. Напишите следующий код внутри ячейки.
|
1 |
olympicsData['Sport'] |
См. вывод ниже.

Итак, вот как вы можете получить доступ к данным из файла данных CSV и использовать различные структуры данных Python Pandas; а также выполнять операции над этими данными.
