Материалом для исследования послужили статьи и комментарии на Яндекс.Дзене и тексты из собрания центра Прожито ЕУСПб — дневниковые записи, сделанные с 1900 по 1940 год. Аналитики компании вместе с лингвистами нашли такие слова, частотности или контексты употребления которых в двух корпусах сильно отличались.
«Слова не только уходят, язык постоянно пополняется новыми словами. И дело не только в том, что появляются вещи, которые надо как-то называть (парковка, кроссовки, чипсы). Есть и такие слова, к которым мы давно привыкли, но которых всего сто лет назад ещё не было в русском языке — во всяком случае, они не встречаются в текстах из корпуса Прожито, — комментирует Борис Иомдин, ученый Яндекса, заведующий сектором Института русского языка им. В.В. Виноградова РАН. — Бывают и другие изменения: слово не уходит, но сильно меняет своё основное значение. Чтобы найти такие примеры, аналитики Яндекса сравнивали лексические окружения каждого слова в двух корпусах — то есть проверяли, насколько изменился контекст его употребления».
Вместе с исследованием Яндекс опубликовал датасет, который содержит информацию, как менялся русский язык с первой половины XX века. Эти данные лингвисты смогут использовать в своих научных работах.