Архив метки: pandas

Как прочесть csv файл с Яндекс Диска в pandas

Яндекс.Диск официально не предоставляет сервис прямого считывания файлов по прямой ссылке.

Публичная ссылка на файл открывается в окне браузера. И уже в этом окне есть ссылка для скачивания.

Но в задачах анализа данных бывает необходимо в тетрадке Юпитер.Ноутбука прямо считывать данные в переменную из облачного хранилища.

Самый популярный в РФ ресурс для хранения файлов сейчас – это Яндекс.Диск.

Вот пример кода на Python для чтения файла:

[snippet slug=chtenie-fajla-iz-jandeks-diska lang=abap]

Конечно же, может потребоваться подбор кодовой страницы файла и разделителя.

Ну это как для любого файла csv .

Статья понравилась?

Дашборды в новых условиях

Мой курс Анализ данных на платформе Яндекс.практикум добрался до финального проекта.

Ура!
В списке задач дипломной работы есть построение дашборда в программе tableau.

Что такое dashboard? В прямом переводе – это приборная панель. В современном мире это ещё и панель показателей.

Вот пример на tableau:

https://clck.ru/hH2bd

Но недавно, вдруг, стали появляться в этой программе сообщения о недоступности сервиса в нашем регионе.

Какие есть альтернативы?

Гугл

https://datastudio.google.com/s/nwXIk03nfBU

Яндекс

https://datalens.yandex/tivsy1aesdgal

Самописный сайт на PlotLy

http://dashboards.eddydewrussia.ru/
Статья понравилась?

Как переименовать подписи осей к графику Python Plot

Часто в прикладных задачах машинного обучения, данные из понятных человеку словесных, переводятся намеренно в более понятный для компьютера числовой формат.

И тогда простые значения типа “женат”, “в разводе”, “холост”, превращаются в безликие “1”, “2”, “3”.

Для задач обучения моделей машинного интеллекта и последующего прогнозирования это – как раз то, что нужно.

Но вот после получение результатов, их надо представить заказчикам. А заказчики – это обычные люди. Им намного органичнее видеть значения в первоначальном, символьном, виде.

Для переименования значений на осях графиков в такой ситуации, можно использовать такие команды:

[snippet slug=izmenit-podpisi-osi-grafika lang=python]

Статья понравилась?

Как вывести на печать матрицу графиков Python

В задаче категоризации методом KMeans огромное количество графиков.
Вот способ вывести их в сетке 4 х Х.
(Количество окошек в строке можете изменять сами ,грамотно заменяя цифру 4 на нужную Вам.

Вывод графиков в сетке я уже не один раз делал.

На в этом задаче машинного обучения это особенно пригодилось.

Вообще, задача категоризации относится к задачам машинного обучения “без учителя”.

Это означает то ,что мы заранее не знаем, какой получится результат.

Сколько и какие категории в выборке данных сформируются.

[snippet slug=vyvod-setki-grafikov-python-pandas lang=python]

В результате выполнения этой программе на языке Python получается примерно вот это:

Сетка графиков Python
Статья понравилась?

Скоро скоро уж финал…

Сегодня закончил последнюю теоретическую часть в программе обучения Анализ данных на Яндекс.Практикуме.

Эта часть далась мне нелегко. Было очень много непонятных слов и действий.

Но, зато, очень интересно. Ведь это были Начала машинного обучения.

Нам рассказали и на практике показали, как устроено обучение машинного моделирования на основе накопленных данных для прогнозирования результатов будущих периодов.

Например

Есть фитнес-центр. Администраторы этого предприятия ведут учёт того, как клиенты его посещают.

  • Как часто приходят
  • Посещают ли дополнительные группы
  • Покупают ли индивидуальные консультации
  • Живут или работают рядом
  • Когда заканчивается срок действия абонемента
  • И … когда перестали пользоваться услугами компании.

Аналитик данных:

  • проводит подготовку собранной статистики методами pandas на python
  • выбирает методы прогнозирования из библиотеки sklearn
  • обучает компьютер методом scaler.fit
  • выбирает самый точный алгоритм прогнозирования по результату сравнения параметров оценки точности предсказания из sklearn.metrics
  • помогает настроить систему, которая на основе новых данных за месяц, строит прогноз оттока

Администрация:

  • На основе полученного прогноза активно стимулирует клиентов из рисковой группы. Чтобы они не бросали занятия )))

Так решаем главную задачу:

Удержание клиентов

Photo by Clay Banks on Unsplash
Статья понравилась?