Как изменились хабравчане за 5 лет? Или «280 недель спустя»

Мы стали старше, женатых/замужних стало в полтора раза больше (влюбленных на треть меньше), а число терпимых к алкоголю выросло на четверть.

Если вы хотите посмотреть, как изменились хабравчане за 5 с лишним лет, добро пожаловать под кат.

Предыстория

Поздней осенью 2014го года я опубликовал статью «Кто подписан на Хабрахабр?». Она была результатом моих упражнений с VK API: я спарсил себе базу всех, кто подписан на группу Хабра в VK, а затем кратко проанализировал. Пол, страна, город, возраст и т.д. и т.п… В общем, все, что доступно из профиля в ВК.

Среднестатистическим подписчиком Хабра оказался… Впрочем, лучше приведу цитату из комментариев:

Прошел год, два, три… Я периодически напоминал себе о том, что неплохо бы написать такую же статью заново, сравнив показатели хабравчан с образцами конца 2014го.

Наконец-то, в феврале этого (2020го) года, я решил, что «пора». Но тут меня ждал сюрприз.
Скачать подписчиков Хабра больше не представлялось возможным.

Что же делать? Отложить статью еще лет на пять? Ну уж нет! Старая база подписчиков то осталась (не буду описывать каких трудов стоило вспомнить об этом, а затем и достать ее).

А значит можно сделать не менее интересное сравнение. Взять подписчиков из осени 2014го, скачать их текущие данные и проанализировать, что изменилось у одних и тех же людей за эти 5 лет.

База для исследования

Раздобыв старую базу и скачав данные пользователей заново, необходимо было понять, а есть ли вообще кого с кем сравнивать?

Во-первых, человек мог удалить профиль (я и сам удалял его на долгое время), во-вторых, он мог его закрыть, а значит данные не получить (у меня и у самого он закрыт).

Ну и последнее: пользователь мог просто перестать быть активным. С одной стороны, ну и что, данные то можно скачать. Но если уж мы отслеживаем изменения, то кажется разумным брать тех пользователей, кто по сей день в VK захаживает. Редко появляющиеся пользователи вряд ли будут менять данные в анкете (да и активные то не факт, если честно).

Под активными мы будем понимать заходивших на сайт хотя бы раз за последние 30 дней.

И вот что получается:

Вот тот самый верхний зеленый рукав и есть наша целевая аудитория. Не удалились, не закрылись, активность сохраняют.

Из 350 тысяч, которых мы разбирали 5 лет назад, до наших дней таковых дожило лишь ~154к юзеров (~43%!). Если приплюсовать активных, но закрывших страницы, то получится около 200 тысяч или ~58%.

Подобная картина, если честно, побуждает меня на размышления о судьбе социальных сетей вообще и ВК в частности, но я, пожалуй, посвящу им отдельную статью. Надеюсь, пораньше, чем через 5 лет.

Итак, сравнивать мы будем 153 741 пользователя, оставшегося активным и открытым на просторах Вконтакта. Их данные из 2014го, против их же данных из 2020го. Поехали.

Что вообще изменилось то?

Стандартное примечание

Здесь и далее речь идет лишь о данных, указанных в ВК самими пользователями. Конечно, же в них есть ошибки, а еще больше заведомо недостоверной информации. Выборка не является репрезентативной для всех пользователей Хабра и тем более для всех жителей России и/или ближнего зарубежья.

Для удобства я буду говорить «хабравчане стали…». Но в действительности это надо читать как «пользователи ВК, подписанные на паблик Хабра, которые были активны в 2014-ом году и активны сейчас, стали…»

Не будем тянуть и сразу посмотрим на то, насколько неизменны те или иные поля в анкетах.
Как известно, не все поля в профиле обязательны для заполнения, поэтому сравнивать изменения мы будем только по тем полям, которые были заполнены у юзера и в 2014-ом, и сейчас.

Пример.

Довольно слов, давайте к цифрам.

Процент неизменности поля.

В скобках число юзеров, которые не изменили/изменили поле (напомню, учитываем только заполненные поля).

Про каждое поле можно говорить отдельно, чем мы и займемся.

Для начала, поля, которые я рассматривать не буду

Пол, вуз, год выпуска

Самые минимально изменившиеся параметры. Вряд ли тут нужны комментарии.

Имя, религиозные взгляды, место работы

С вашего позволения я пропущу эти поля, так как все они являются текстовыми, что сильно усложняет их анализ. А любое исправление опечатки или смена имени «Ваня» -> «Иван» (а именно таким образом обычно имя и меняют) лишь засорят выборку.

Тип занятости и уровень образования

Чтобы не затягивать статью, опущу и эти поля. Прошло 5 лет и абсолютно понятно, что произошло. Школьники стали студентами, бакалавры магистрами, студенты выпускниками и сотрудниками компаний. Вряд ли тут можно найти что-то интересное.

Если вам вдруг хочется узнать что-то про изменения в этих параметрах, напишите в комментариях.

А теперь к полям, которые рассмотрим подробно.

Возраст

Если честно, я думал, что в основном возраст меняют с/на фейковые даты типа 01.01.1905 или что-то в этом духе.

Однако, нет. Возьмем пользователей, сменивших возраст. Возьмем дельту в днях (отрицательная — омолодили себя, положительная — состарили).

Распределение будет выглядеть так:

Конечно, есть и изменения на десятки лет, как я и предполагал. Но большинство изменений сконцентрировано около нуля. Взглянем поближе, оставив интервал лишь в ± 10 лет.

Что это за пики, думаю, вы догадались. 365, 730, 1095 дней…

Люди предпочитаю менять возраст сразу на года, чего мелочиться.

Зачем? Зачем сменить свою дату рождения на условный 1918й год, я понимаю. Этакая демонстрация «не хочу показывать свой год рождения, не ваше дело». Обратная метаморфоза тоже естественна.

А сдвинуть на пару лет… У меня нет точного ответа. Только предположение: если приглядеться, менять предпочитают в меньшую сторону, то есть немного себя омолаживая.

И, да не обвинят меня в сексизме, но:

Распределение скошено влево у обоих полов, но в правой его части почти нет женщин. (Если вас смутило, что у мужчин значения сами по себе больше, то это потому что их доля среди хабравчан выше).

То есть менять возраст в меньшую сторону любят представители обеих полов, но женщины делают это чаще.

Различия эти между полами очевидно статзначимы (что подтвердит и Манн-Уитни, и t-test при p<0.01), однако я им крайне удивлен. Кажется странным, что кто-то пытается скрывать свой реальный возраст в ВК, путем смены дат рождения.

Впрочем, вполне вероятно, что я ошибаюсь и у данного поведения иные причины, нежели чем желание «омолодиться».

Еще возможная гипотеза: школьники, которые зарегистрировались лет в 12 (официально регистрация возможна с 14 лет), а потому накинувшие себе пару лет, а теперь возвращающие реальные даты рождений обратно. Проверять ее, я, конечно, не буду (по крайней мере в рамках статьи).

Если есть идеи, подскажите в комментариях, что еще я мог упустить.

Страна

Среди представителей ИТ-сектора миграция явление вполне обыденное.

Возьмем страны, к которым относятся хотя бы 150 подписчиков Хабра, чтобы отфильтровать выбросы. И посмотрим на:

  1. Сколько людей «уехало»/«приехало» в страну
  2. Как изменилось общее число подписчиков, относящих себя к этой стране

Лидер по относительному «приросту» — Нидерланды и Польша.

Про Нидерланды ничего не могу сказать, видимо, хороший вариант для переезда ИТ специалиста (да у меня у самого знакомый туда переехал пару лет назад). Почему в лидерах Польша, узнаем чуть позже.

Лидер по оттоку — Украина. Результат вполне объяснимый.

Во-первых, если я верно помню, гражданам Украины теперь легче уехать на работу в страны ЕС.
Второе направление возможной миграции — Россия. Соцсеть «ВКонтакте» заблокирована на Украине и вообще ассоциируется с Россией. Учитывая все то, что происходит между нашими странами последние годы, логично предположить, что в основном в ВК остались более-менее пророссийские пользователи из Украины, которые вполне могли и переехать в Россию на самом деле.

Давайте посмотрим на то, откуда и куда уезжали (я оставил лишь страны, откуда «уехало» хотя бы 100 подписчиков).

Большинство из уехавших переместилось в Россию, что логично, учитывая что VK российская соцсеть. Кстати, наименьший процент уехавших в РФ показывают белорусы. Зато становится понятно, почему на предыдущем графике в лидерах оказалась Польша (Украина тут тоже внесла свой вклад).

Кстати, насчет перемещений из Украины в Россию, можно было бы предположить, что такая картина получилось в результате «переброски» юзеров из Крыма. Но и в старом, и в новом датасете есть пользователи из городов Крыма, которые относятся как к России, так и к Украине (не знаю как тут ВК действует: предлагает ли сам выбрать страну или зависит от даты регистрации, не знаю). Так что вряд ли дело в этом.

Из самой же России предпочитают «уезжать», прежде всего, в США. Далее по списку Украина, Германия и Казахстан.

Город

Раз уж говорим о миграции, то и города надо затронуть.

Оставлю только города, в которых относительные изменения численности по модулю были выше 10% и в которых живет (или жило) более-менее большое количество народу.

Конечно, очень трагическая ситуация с Луганском и Донецком, думаю, тут все понятно без лишних комментариев.

То что по абсолютам понаехавших приехавших лидируют Москва и Питер, в то время как в регионах отрицательный баланс, вполне ожидаемо, тут ничего не меняется:

А вот лидерство Сочи и Краснодара по относительным показателям любопытно. Тренд на переезды в теплые края?

Фамилия

Если имя, как я говорил выше, корректируют не всерьез (в основном изменяя формы одного и того же имени), то фамилии чаще меняют по-настоящему. И причина очевидна: многие хабравчанки повыходили замуж.

Отношения

Раз уж заговорили о замужестве, то логично взглянуть на изменения в делах любовных. А точнее в поле «отношения».

Вверху доля юзеров по различным статусам отношений и в разбивке «было/стало».
Внизу — изменение доли конкретного статуса в процентах. Здесь и далее: синим — было, оранжевым — стало.

Вполне логично, мы стали старше, а значит и максимальный прирост у статуса «в браке». Причем это единственное изменение в плюс. Все остальные статусы ушли в минус. И даже влюбленные.
Романтиков стало меньше?

Но не будем спешить с выводами, давайте посмотрим на матрицу «Было/стало».

Чем меньше изменений, тем зеленее диагональ. Но это не так, что вполне логично — влюбленные, помолвленные и имевшие партнера в большинстве своем переженились (так что падение романтиков фиктивное, они просто сделали level-up).

Стабильность же демонстрируют статусы «в браке» и свободен. А половина из тех, у кого все было сложно, свои проблемы решили. Причем почти с равновероятным исходом: свободны и в поиске стали 24% пользователей, ровно столько же обрели партнера (помолвлен, есть партнер, в браке). Куда относить влюбленных до конца не ясно. Любовь бывает безответной.

Политические взгляды

«Если в 20 лет вы не революционер, то у вас нет сердца…» Далее по тексту.
А что происходит за 5 лет?

Тут надо оговориться:

Набор политических взглядов в ВК всегда был довольно странным. Чем отличаются индифферентные от умеренных? А ультраконсерваторы это кто? Это такое стыдливое название для ультраправых или, наоборот, для тех кто тоскует по СССР? В общем, это поле всегда вызывало кучу вопросов.

Как мы видим, половина хабравчан по-прежнему сохранила умеренность или безразличие в политических вопросах. Затем идут либералы и монархисты.

Единственный значимый рост показало либертарианское политическое течение. Думаю, это связано с увеличившейся популярностью этого движения в последние годы. Но в абсолютах это все равно крохи.

Матрица в этот раз будет с четкой диагональю.

Самыми неустойчивыми оказались коммунисты. Заветам Маркса и Энгельса остались верны только 3/4. У либертарианцев так же, и это несмотря на рост, о котором говорилось выше.

Что, впрочем, не так далеко от консерваторов и социалистов. Самые стабильные же как раз политически умеренные и индифферентные хабравчане.

Алкоголь

Забавная, на мой взгляд, картина:) С течением времени оказывается, что алкоголь не так уж плох, и отношение к нему можно сменить на компромиссное, а то и положительное.

Если считать «резко негативное» за 1, а «положительное» отношение за 5, то среднее скакнуло с 2.75 до 2.87 (различия будут значимы, p<0.001).

Не знаю, с чем это связано. Возможно свою роль сыграла популяризация винной и пивной (крафтовой) культуры в последние годы, и употребление алкоголя перестало ассоциироваться с нажиранием в слюни. А возможно, люди с возрастом становятся менее радикальны во взглядах и вообще перестают воспринимать что-либо «резко негативно».

Курение

Наконец-то, последний пункт.

Такая же динамика, как и с алкоголем, но в целом к курению отношение значительно более негативное, чем к алкоголю (данный факт я отмечал еще и в прошлой статье, это в целом общемировой тренд).

И снова аналогичные гипотезы: или с возрастом становишься терпимее ко всему, либо свое дело сделала мода на вейпы/кальяны и прочие способы курения, декларируемые как менее вредная замена табаку.

Заключение

Ну вот и все. Никаких выводов не будет, статья пятничная. Просто надеюсь, что тебе, 29-летний женатый выпускник МГУ, имеющий умеренные политические взгляды и изредка попивающий вино, надеюсь, было хотя бы немного интересно.

Специально для сайта ITWORLD.UZ. Новость взята с сайта Хабр