Skip to content

Обновленная версия русского перевода книги Майкла Хейдта Learning Pandas

Notifications You must be signed in to change notification settings

dbulgakov7/Learning_Pandas_russian_translation

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

28 Commits
 
 
 
 
 
 

Repository files navigation

Обновленное, дополненное издание книги Майкла Хейдта Learning Pandas

enter image description here

О содержании книги

Глава 1 «Библиотека pandas и анализ данных» – это практическое введение в основные функции библиотеки pandas. Предназначение этой главы – дать некоторое представление об использовании библиотеке pandas в контексте статистики и науки о данных. В этой главе мы рассмотрим несколько принципов, лежащих в основе науки о данных и покажем, как они реализованы в библиотеке pandas. Эта глава задает контекст для каждой последующей главы, связанной с наукой о данных.

Глава 2 «Запуск библиотеки pandas» проинструктирует читателя по поводу того, как загрузить и установить библиотеку pandas и познакомит его с некоторыми базовыми понятиями библиотеки pandas. Мы также рассмотрим, как можно работать с примерами с помощью iPython и тетрадок Jupiter.

Глава 3 «Представление одномерных данных с помощью объекта Series» познакомит читателя со структурой данных Series, которая используется для представления одномерных индексированных данных. Читатель узнает о том, как создавать объекты Series и как работать с данными, хранящимися внутри этих объектах. Кроме того, он узнает об индексах и выравнивании данных, а также о том, как объект Series можно использовать для создание срезов данных.

Глава 4 «Представление табличных и многомерных данных с помощью объекта DataFrame» познакомит читателя со структурой данных DataFrame, которая используется для представления и индексации многомерных данных. В этой главе читатель научится создавать объекты DataFrame, используя различные наборов статических данных и выполнять отбор определенных столбцов и строк внутри датафрейма. Сложные запросы, операции с данными и индексация будут рассмотрены в следующей главе.

Глава 5 «Выполнение операций над объектом DataFrame и его содержимым» расширяет предыдущую главу и расскажет о том, как выполнять более сложные операции с объектом DataFrame. Мы начнем с добавления удаления столбцов и строк, рассмотрим модификацию данных внутри объекта DataFrame (а также создание измененной копии) и выполнение арифметических операций с данными, научимся создавать иерархические индексы, а также вычислять популярные статистики по данным датафрейма.

Глава 6 «Индексация данных» расскажет об использовании различных типов индекса библиотеки pandas (Int64Index, RangeIndex, IntervalIndex, CategoricalIndex, DatetimeIndex, PeriodIndex).

Глава 7 «Категориальные данные» познакомит читателя с тем, как создавать объекты Categorical для представления категориальных данных и использовать их в работе.

В главе 8 «Численные и статистические методы» рассматриваются различные арифметические операции над объектами Series и DataFrame, а также вычисление статистик для объектов pandas.

Глава 9 «Загрузка данных» расскажет о том, как можно загрузить данные из внешних источников и записать в объекты Series и DataFrame. Кроме того, в этой главе рассматривается загрузка данных из разных источников, таких как файлы, HTTP-серверы, системы баз данных и веб-службы. Также рассматривается обработка данных в форматах CSV, HTML и JSON.

В главе 10 «Приведение данных в порядок» будет рассказано о том, как приводить данные в порядок, чтобы они были пригодны для анализа.

Глава 11 «Объединение, связывание и изменение формы данных» расскажет читателю о том, как можно взять несколько объектов pandas и объединить их с помощью операций соединения, слияния и конкатенации.

Глава 12 «Агрегация данных» расскажет о группировке и агрегации данных. В библиотеки pandas эти операции выполняются с помощью схемы «разделение – применение – объединение». Читатель научиться использовать эту схему для различных способов группировки данных, а также применять агрегирующие функции для вычисления результатов по каждой группе данных.

Глава 13 «Анализ временных рядов» расскажет о том, как работать с временными рядами в библиотеке pandas. В этой главе будут освещены широкие возможности библиотеки pandas, существенно облегчающие анализ временных рядов.

Глава 14 «Визуализация» научит вас создавать визуализации данных на основе данных, хранящихся в объектов Series и DataFrame. Мы начнем с изучения основ, создания простой диаграммы настройки нескольких параметров диаграммы (настройки легенд, меток и цветов). Мы рассмотрим создание нескольких распространенных типов графиков, которые используются для представления различных типов данных.

В приложении 1 «Советы по оптимизации вычислений в библиотеке pandas» даются некоторые рекомендации по ускорению вычислений в pandas.

Приложение 2 «Улучшение производительности pandas» представляет собой перевод одноименного раздела официального пособия по библиотеке pandas https://pandas.pydata.org/pandas-docs/stable/ enhancingperf.html.

Приложение 3 «Используем pandas для больших данных» расскажет, как за счет использования более эффективных типов данных можно уменьшить использование памяти.

В приложениях 4 и 5 на примере конкурсной задачи Tinkoff Data Science Challenge и конкурсной задачи предсказания отклика ОТП Банка детально показаны этапы предварительной обработки данных, в частности, приведение переменных к нужным типам, обработка редких категорий, импутация пропусков, конструирование признаков, также освещаются специальные процедуры предварительной обработки данных, позволяющие улучшить модель логистической регрессии.

Приложение 6 «Работа с датами и строками» посвящено таким задачам, как правильный парсинг дат различного формата, изменение регистра букв в строках, удаление лишних символов из строк, извлечение нужных символов из строк.

Приложение 7 «Работа с предупреждением SettingWithCopyWarning в библиотеке pandas» посвящено причинам появления предупреждения SettingWithCopyWarning и способам его устранения.

About

Обновленная версия русского перевода книги Майкла Хейдта Learning Pandas

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 99.7%
  • Other 0.3%