3 функции Pandas, которые стоит использовать чаще

Используемый набор данных Мы будем использовать знаменитый набор данных Titanic. Импортируем его и получаем следующее: 1. idxmin() and idxmax() Эти функции возвращают индексную позицию определенной записи. В наборе данных Titanic, например, можно найти индексную позицию самого молодого/старого человека. Попробуем найти только имена этих людей. Многие программисты используют следующий подход, поскольку ПОДРОБНЕЕ

Как построить модель машинного обучения, если под рукой нет доступных данных

Перед решением любой задачи науки о данных, такой как исследовательский анализ или построение модели, нужно ответить на следующие вопросы: Что вы хотите узнать или обнаружить с помощью данных? Есть ли у вас подходящие для анализа данные? Данные — это ключевая часть любой задачи науки о данных и машинного обучения. Они ПОДРОБНЕЕ

Как работает случайный лес?

Как и почему работает случайный лес? Разбираемся Важная часть машинного обучения  —  это классификация. Мы хотим знать, к какому классу (или группе) принадлежит значение. Возможность точно классифицировать значения чрезвычайно ценна для бизнес-приложений, таких как прогнозирование покупки продукта конкретным пользователем или прогнозирование платёжеспособности по кредиту. Наука о данных предоставляет множество алгоритмов ПОДРОБНЕЕ

Гамма-функция - интуиция, определение, примеры

Почему это интересно? Многие распределения вероятностей определяются с использованием гамма-функции, я перечислю лишь некоторые: гамма-распределение, бета-распределение, распределение Дирихле, распределение хи-квадрат, т-распределение Стьюдента и так далее.  Для специалистов по данным или инженеров и исследователей машинного обучения гамма-функция, вероятно, одна из наиболее широко используемых функций, потому что она участвует во множестве распределений. ПОДРОБНЕЕ

Объясняем производящую функцию моментов

1. Начнем с главного — что такое “момент” в вероятности и статистике? Скажем, нас интересует случайная переменная X. Моменты — это ожидаемые значения X, например, E(X), E(X²), E(X³) и т.д. Первый момент — E(X), Второй момент — E(X²), Третий момент — E(X³), … n-й момент — E(X^n). Нам очень хорошо знакомы первые два момента: математическое ожидание μ = E(X) и дисперсия E(X²) ПОДРОБНЕЕ

Условная независимость - основа байесовской сети

1. Восприятие условной независимости Скажем, A — рост ребенка, а B — количество слов, которые он знает. Кажется, что если A высокий, то B, соответственно, тоже. Однако существует информация, которая делает A и B совершенно независимыми друг от друга. Что бы это могло быть? Возраст ребенка.  Рост и количество известных ребенку слов НЕ являются ПОДРОБНЕЕ

Персонализация контента с IBM Watson

Методы, данные и процессы Используем корпус фильмов, подготовленный университетом Калифорнии в Санта-Круз. Этот корпус разбит по жанрам и содержит диалоги из 960 фильмов. Диалоги отделены от описания сцен. Очищаем и обрабатываем данные с Pandas, разбив их по персонажам. Затем отфильтровываем по следующему условию: сто строк и не менее трёх слов в ПОДРОБНЕЕ

Экспоненциальное распределение

Мы всегда начинаем с вопроса “почему”, прежде чем переходить к формулам. Если вы понимаете, почему что-то работает, вы с большей вероятностью будете применять это в своей работе. 1. Почему мы изобрели экспоненциальное распределение? Ответ: чтобы получить распределение, предсказывающее периоды времени между событиями (такими как успех, отказ, доставка и так далее). ПОДРОБНЕЕ

Плотность вероятности - это не сама вероятность

Наибольшее значение вероятности — единица. Это общеизвестный факт! Однако для некоторых плотностей вероятности (например, плотности вероятности экспоненциального распределения на графике ниже), когда λ= 1.5 и 𝒙 = 0 плотность вероятности 1.5, что очевидно больше 1! 1. Почему так? Даже если плотность вероятности f(x) принимает значение больше 1, если область, в которую она интегрируется, ПОДРОБНЕЕ

Сумма экспоненциальных случайных величин

Сумма экспоненциальных случайных величин Пусть X1 и X2 — независимые, экспоненциальные и случайные величины со средним значением λ. Пусть Y=X1+X2. Тильда (~) означает “имеет распределение вероятностей”, например, X1~EXP(λ). Итак: X1~EXP(λ) X2~EXP(λ) Y=(X1+X2) Вопрос: Какова плотность вероятности Y? Где можно использовать распределение Y? Поиск плотности вероятности. 👉 Находим функцию кумулятивного распределения и дифференцируем ПОДРОБНЕЕ