DATA SCIENCE - IT-МИР. ПОМОЩЬ В IT-МИРЕ. BLOCKCHAIN. WEB 3.0

10 лайфхаков для работы с библиотекой Pandas

Pandas — широко распространённая Python-библиотека для работы со структурированными данными. По её использованию уже составлено большое количество уроков, однако, я хотел бы рассказать о нескольких небольших хитростях, которые могут оказаться полезными. read_csv Эта команда вам хорошо знакома. Если данные, которые вы пытаетесь считать, слишком большие, то попробуйте добавить этот аргумент: nrows = ПОДРОБНЕЕ

Руководство по машинному обучению для новичков

Простое объяснение с примерами из математики, программирования и реальной жизни. Для кого это руководство? Для технических специалистов, которые хотят повторить основы машинного обучения. Для тех, кто не смыслит в технике, но хочет ознакомиться с машинным обучением и не знает, с чего начать. Для тех, кто считает, что машинное обучение “тяжело” освоить. ПОДРОБНЕЕ

Статистика - это грамматика науки о данных. Часть 5

Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 Условная вероятность Условная вероятность — это вероятность наступления некоторого события, при условии, что другое событие уже произошло. Условная вероятность обозначается через P(A|B), которое читается как «вероятность А при условии В». Она вычисляется по формуле: Условная вероятность А при условии В A ∩ B — это ПОДРОБНЕЕ

Статистика - это грамматика науки о данных. Часть 4

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 Введение Предположим, у нас есть диаграмма рассеяния, на которой каждая точка — это человек. На одной оси показан его профессиональный опыт в годах, на другой — доход. Диаграмма рассеяния «профессиональный опыт vs доход» В соответствии с ПОДРОБНЕЕ

Статистика - это грамматика науки о данных. Часть 3

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 Меры расположения Процентили Процентили делят упорядоченные данные на сто равных частей. В рассортированных данных процентиль — это точка, показывающая процентное отношение значений в наборе данных, находящихся ниже данной точки. 50-й процентиль — это медиана. Например, ПОДРОБНЕЕ

Статистика - это грамматика науки о данных. Часть 2

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 Функции распределения вероятностей Функция распределения вероятностей — это функция, описывающая возможность того или иного события или результата. Мы разберем разные типы распределений в зависимости от вида набора данных: непрерывный или дискретный. Функция плотности ПОДРОБНЕЕ

Статистика - это грамматика науки о данных. Часть 1

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 «Статистика — это грамматика науки» Данное высказывание приписывают английскому математику Карлу Пирсону, который считается некоторыми основателем современной статистики. Мы же поговорим о статистике в науке о данных. Такие библиотеки машинного обучения, как Tensorflow ПОДРОБНЕЕ

Интерактивное управление в Jupyter Notebooks

Вряд ли найдётся занятие бесполезнее, чем вновь и вновь запускать одну и ту же ячейку, немного меня значение входных данных и параметров. Несмотря на то, что я понимаю это, часто замечаю себя за запуском одной и той же ячейки, внося в неё незначительные изменения. Например, используя другое значение для функции, ПОДРОБНЕЕ

От ‘R против Python’ к ‘R и Python’

Сосредоточьтесь на навыках, а не на инструментах Для тех, кто разбирается в Data Science, R и Python — это первые два ЯП, которые приходят на ум. Оба являются отличными инструментами для разработки, однако их часто воспринимают как соперников. При вводе R vs Python в поисковом запросе Google выдает множество статей о преимуществах ПОДРОБНЕЕ