Качество превыше количества: создание идеального проекта в науке о данных

В стартапе, жаргонизм «метрика тщеславия» означает число, находящееся под контролем компании для того, чтобы убедить мир — а иногда и самих себя — в том, что они успешнее, чем есть на самом деле. Например, около восьми лет назад руководство Twitter объявило о том, что в их соцсети ежедневно публикуется более 200 млн твитов. Число ПОДРОБНЕЕ

Почему за способностью объяснения модели стоит будущее Data Science

Техники объяснения модели показывают, что изучает модель, а знание о том, что происходит внутри модели имеет большое значение. На протяжении последних десяти лет я общался со многими специалистами по Data Science, а техники объяснения модели — это моя любимая тема, с помощью которой можно отличить хорошего ученого. Некоторые считают, что модели машинного ПОДРОБНЕЕ

Настройте свой Jupyter Notebook правильно

В своей известной презентации “Я не люблю блокноты” (видео и слайды) Джоэль Грус критикует Jupyter Notebook — вероятно, самую популярную среду разработки для машинного обучения. Для меня эта презентация несёт поучительный характер: когда все думают, что продукт хорош, нужны люди, которые раскритикуют его, чтобы мы не останавливались на достигнутом. На самом деле, ПОДРОБНЕЕ

10 лайфхаков для работы с библиотекой Pandas

Pandas — широко распространённая Python-библиотека для работы со структурированными данными. По её использованию уже составлено большое количество уроков, однако, я хотел бы рассказать о нескольких небольших хитростях, которые могут оказаться полезными. read_csv Эта команда вам хорошо знакома. Если данные, которые вы пытаетесь считать, слишком большие, то попробуйте добавить этот аргумент: nrows = ПОДРОБНЕЕ

Руководство по машинному обучению для новичков

Простое объяснение с примерами из математики, программирования и реальной жизни. Для кого это руководство? Для технических специалистов, которые хотят повторить основы машинного обучения. Для тех, кто не смыслит в технике, но хочет ознакомиться с машинным обучением и не знает, с чего начать. Для тех, кто считает, что машинное обучение “тяжело” освоить. ПОДРОБНЕЕ

Статистика - это грамматика науки о данных. Часть 5

Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 Условная вероятность Условная вероятность — это вероятность наступления некоторого события, при условии, что другое событие уже произошло. Условная вероятность обозначается через P(A|B), которое читается как «вероятность А при условии В». Она вычисляется по формуле: Условная вероятность А при условии В A ∩ B — это ПОДРОБНЕЕ

Статистика - это грамматика науки о данных. Часть 4

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 Введение Предположим, у нас есть диаграмма рассеяния, на которой каждая точка — это человек. На одной оси показан его профессиональный опыт в годах, на другой — доход. Диаграмма рассеяния «профессиональный опыт vs доход» В соответствии с ПОДРОБНЕЕ

Статистика - это грамматика науки о данных. Часть 3

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 Меры расположения Процентили Процентили делят упорядоченные данные на сто равных частей. В рассортированных данных процентиль — это точка, показывающая процентное отношение значений в наборе данных, находящихся ниже данной точки. 50-й процентиль — это медиана. Например, ПОДРОБНЕЕ

Статистика - это грамматика науки о данных. Часть 2

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 Функции распределения вероятностей Функция распределения вероятностей — это функция, описывающая возможность того или иного события или результата. Мы разберем разные типы распределений в зависимости от вида набора данных: непрерывный или дискретный. Функция плотности ПОДРОБНЕЕ

Статистика - это грамматика науки о данных. Часть 1

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 «Статистика — это грамматика науки» Данное высказывание приписывают английскому математику Карлу Пирсону, который считается некоторыми основателем современной статистики. Мы же поговорим о статистике в науке о данных. Такие библиотеки машинного обучения, как Tensorflow ПОДРОБНЕЕ