Jupyter Notebook в Python: полное руководство

Python Jupyter Notebook — невероятно мощный инструмент для разработки и представления проектов по науке о данных. Jupyter Notebook объединяет код и его выходные данные в единый документ, который сочетает в себе визуализации, описательный текст, математические уравнения и мультимедийные материалы.

Интерактивный рабочий процесс способствует итеративной и быстрой разработке, что делает ноутбуки все более популярным выбором для современной науки о данных, анализа и науки в целом.

Начало работы с Jupyter Notebook

Вы можете установить Jupyter Notebook с помощью Anaconda. Я использую Macbook, но процедура в Windows почти такая же.

Anaconda — это самый популярный дистрибутив Python науки о данных и машинного обучения, в который предварительно загружены все самые популярные библиотеки и инструменты.

Некоторые из самых больших библиотек Python, включенных в Anaconda, — это NumPy, Pandas и Matplotlib, хотя полный список из 1000+ является исчерпывающим.

Anaconda позволяет нам приступить к работе в вашей собственной полностью оборудованной мастерской по обработке и анализу данных без хлопот по управлению множеством установок или беспокойства о зависимостях ОС.

Установка

Процесс установки прост, и после установки Anaconda вы увидите экран, показанный ниже.

Начало работы с Jupyter

Это Анаконда Навигатор. Здесь вы можете увидеть второй вариант — блокнот jupyter, который нам нужно запустить для работы с Python. Ваш терминал откроется и запустит блокнот jupyter в браузере, локальный URL которого: http://localhost:8888/tree.

Поздравляем! Вы успешно установили его.

Создание вашего первого Notebook

Во-первых, вам нужно выбрать папку проекта. Я выбрал мой, который находится в папке desktop/code/pyt. Для этого проекта я использую Python 3.

Теперь создайте файл с расширением .ipynb.

Что такое файл ipynb?

Каждый файл .ipynb — это текстовый файл, описывающий содержимое вашей записной книжки в формате JSON. Каждая ячейка и ее содержимое, включая прикрепленные изображения, которые были преобразованы в текстовые строки, перечислены там с некоторыми метаданными.

Интерфейс Jupyter Notebook

Я создал файл Jupyter Notebook с именем DataScience.ipynb. Он выглядит как на изображении ниже.

Учебное пособие по Python Jupyter Notebook

В Jupyter Notebook ячейки создают тело блокнота. На приведенном ниже снимке экрана новой записной книжки прямоугольник с зеленым контуром — это пустая ячейка. В основном мы рассмотрим два основных типа клеток:

  • Ячейка кода содержит код, который должен быть выполнен в ядре, и отображает его вывод ниже.
  • Ячейка Markdown содержит текст, отформатированный с использованием Markdown, и отображает его вывод на месте при запуске.

Первая ячейка в новой записной книжке всегда является ячейкой кода. Давайте проверим это на классическом примере hello world. Введите следующий код внутри ячейки.

Теперь нажмите кнопку «Выполнить» на панели инструментов выше или нажмите Ctrl + Enter. Результат должен выглядеть так, как показано ниже.

Пример Python Jupyter Notebook

Результат мгновенно отображается в следующей строке. В этом прелесть Jupyter Notebook.

После этого вы можете добавлять, удалять или редактировать ячейки в соответствии с вашими требованиями. Кроме того, не забудьте вставить пояснительный текст или заголовки и подзаголовки, чтобы пояснить ваш код.

Запуск Jupyter Notebook по-питоновски: Pip

Если вы не хотите устанавливать Anaconda, убедитесь, что у вас установлена последняя версия pip.

Если вы установили Python, обычно он у вас уже есть. Теперь обновите версию pip, если у вас старая. Введите следующие команды, относящиеся к вашей операционной системе.

После того, как вы установили pip на свой компьютер, вы можете просто запустить следующую команду.

Теперь, когда вы знаете, с чем будете работать, и установили его, пришло время приступить к делу!

Выполните следующую команду, чтобы открыть приложение.

Затем вы увидите, что приложение открывается в веб-браузере по следующему адресу: http://localhost:8888.

Итак, мы рассмотрели оба способа установки Jupyter Notebook.

Анализ данных с помощью Pandas и Jupyter Notebook

Загрузите набор данных для нашего примера. Вам необходимо перейти по следующей ссылке.

https://docs.google.com/spreadsheets/d/1zeeZQzFoHE2j_ZrqDkVJK9eF7OH1yvg75c8S-aBcxaU/edit#gid=0

Это данные о призёрах летних Олимпийских игр с 1896 по 2008 год. Они общедоступны.

Теперь откройте эту ссылку и сохраните этот файл в data.csv в той же папке проекта, где находится файл Jupyter. Убедитесь, что оба находятся в одном каталоге.

Хорошо, импортируйте этот файл и пропустите первые четыре строки этого файла, выполнив следующий код. Параметр skiprows указывает номера строк для пропуска(0-индексированные) или некоторые строки для пропуска(int) в начале файла.

Анализ данных с использованием Pandas и Jupyter Notebook

Здесь мы написали три строки кода и получили данные.

Если вы получаете те же данные, то отлично, вы в правильном направлении, и вы успешно импортировали данные.

Доступ к фреймам данных

Следующим шагом является доступ к DataFrame из этих данных. Введите следующий код в ячейку блокнота и нажмите ctrl + enter.

В результате вы увидите первые 30 строк и последние 30 строк.

Доступ к кадрам данных в Jupyter Notebook

Доступ к Series 

series — это одномерный массив индексных данных. Если мы хотим получить доступ к серии из данных Олимпиады, то вам нужно передать имя столбца в качестве индекса и посмотреть вывод. Допустим, нам нужно увидеть весь спорт на Олимпийских играх. Напишите следующий код внутри ячейки.

См. вывод ниже.

Доступ к series

Итак, вот как вы можете получить доступ к данным из файла данных CSV и использовать различные структуры данных Python Pandas; а также выполнять операции над этими данными.

Оцените статью

Автор статей и разработчик, делюсь знаниями.

Программирование на Python