Яндекс провел исследование «Русский язык в словаре Даля и в поисковых запросах»

Сто пятьдесят лет назад был впервые полностью опубликован словарь Даля. Он прославился как словарь именно живого, повседневного языка, на котором говорили в России в середине XIX века. Компания «Яндекс» решила посмотреть, насколько сильно с тех пор изменился язык, и сравнила слова из словаря Даля с теми, которые используют люди в поисковых запросах.

Источник фото: ucoz.ru
Источник фото: 900igr.net

За год Яндекс отвечает примерно на 70 миллиардов запросов из России. Если по пробелам и специальным символам разделить эти запросы на словоформы, выбрать только те, которые состоят из кириллических букв, и автоматически привести их к начальной форме, получается больше 285 миллионов разных слов. На самом деле далеко не все из них настоящие русские слова: в поиске люди часто пишут с ошибками — [детский мир отзовы], [турагенство] — и в неправильной раскладке — [нщгегиу], а иногда просто вводят непонятные последовательности букв — [аааааааааааааау].

Чтобы сделать этот огромный список слов чище, мы сравнили его со словами из Национального корпуса русского языка за XX и XXI века. Пересечений оказалось всего около 750 тысяч. Можно сказать, что это слова, которые употребляются в современных текстах разных жанров — от художественной литературы до деловых документов.

Даль даёт толкование примерно двухсот тысяч слов. Из них почти одна пятая (18%) за год ни разу не встретилась в поисковых запросах к Яндексу. Примерно 38% слов упоминались в запросах, но отсутствовали в корпусе русского языка. В пересечение поиска и корпуса попали 44% слов.

Ушедшие слова

18% слов из словаря Даля можно считать полностью вышедшими из употребления: в течение года люди ничего не искали с помощью этих слов и даже не спрашивали про их значение. Доля глаголов среди этих слов заметно больше, чем в словаре в целом, а доля существительных — меньше. Таким образом, глаголы из словаря Даля устаревают быстрее, чем существительные.

Около 85% ушедших глаголов содержат приставки. Самая распространённая, по-, встречается в каждом пятом случае, иногда в комбинации с другими приставками: понасудачить, попринаряжать, повзопреть. Почти треть существительных оканчивается на -ье или -ие и означает действие по соответствующему глаголу: вывороченье, избоданье, ловничанье. Много существительных на -чик, -чица, -ник, -ница и так далее. Часто они обозначают людей определённых занятий — как правило, эти занятия больше не актуальны или изменили название: наживотчик, каравайщик, нравописательница.

Вообще вышедшие из употребления слова часто образованы от корней, которые вполне используются и сейчас: переребячиться, злодейчивый, заволшебствовать, отблинничать, испивочный, поплеванье— сегодня так не говорят, но можно легко догадаться, что имеется в виду.

Живые и уходящие слова

С двумя другими группами слов всё не так просто. Можно предположить, что та часть словаря Даля, которая есть и в поисковых запросах, и в текстах из корпуса русского языка (44%), — это живые слова. А 38%, которые есть в поиске, но отсутствуют в корпусе, — уходящие: их уже не используют в письменной речи, но иногда ищут в интернете. С другой стороны, вряд ли можно назвать живым слово, которое есть в письменных текстах, но встречается в запросах всего несколько раз в год, или слово, которое вводят в поиск только для того, чтобы узнать значение.

Кроме того, часть словаря могла попасть в поиск и корпус из-за омонимии: пишется так же, но значит другое. У Даля встречаются такие популярные в интернете слова, как порно, двач, прикол, клубняк— но совсем в другом значении. Иногда написание слов у Даля совпадает с распространённой в поиске ошибкой или опечаткой — навинка, кател, насиление, загатка. Также бывает, что слово ушло из русского языка, но сохранилось в украинском (ознак, соромиться, метелик), или остались родственные ему фамилии и названия населённых пунктов (верховец, хопер, пустовар).

Чтобы точнее определить, какая часть словаря Даля до сих пор жива, а какая вышла или выходит из употребления, мы оценили долю омонимии среди слов, встречавшихся в поисковых запросах, а также посчитали, сколько слов люди искали с целью узнать, что они значат.
Омонимами оказались почти треть изученных слов. Больше всего омонимов — почти 60% — среди тех слов, которые относительно часто, более 1000 раз в течение года, встретились в поисковых запросах, но при этом отсутствовали в текстах из корпуса. А среди таких слов с более высокой частотностью (больше 100 тысяч запросов за год) доля омонимов превысила 80%.

Всего около 8,5% слов из словаря Даля интересуют пользователей в первую очередь в контексте поиска значения. Из них самые популярные: инсинуация, демагогия, утрировать, моногамия и импонировать. Большая часть таких слов отсутствует в текстах из корпуса и мало распространена в запросах.

Два с половиной тома словаря Даля

Теперь можно более точно распределить слова из словаря Даля между тремя главными группами: ушедшими, уходящими и живыми.

К вышедшим из употребления отнесли слова, которые ни разу не встретились ни в запросах, ни в текстах из корпуса русского языка, а также те, которые оказались там только из-за омонимии или по ошибке.К словам, которые уходят из языка и употребляются сейчас крайне редко, причислили следующие:

  • те, которые встретились в поисковых запросах менее 10 раз в год,
  • те, которые сравнительно мало встречались в запросах — десятки или, в редких случаях, сотни раз за год, отсутствовали в корпусе, и для которых в интернете не удалось найти примеров употребления,
  • те, которые искали в первую очередь для того, чтобы узнать значение.

Живыми считали все остальные слова, в том числе мало распространённые специальные термины (поралье, счаливать, головик) — вне зависимости от их частотности в поисковых запросах.

Примерно треть слов из словаря Даля (32%) распространены до сих пор. Ещё чуть меньше 30% — используются, но крайне мало, треть из них — только при поиске значений. Почти 40% слов, или полтора тома всего словаря Даля, полностью вышли из употребления.

Подробнее узнать об исследовании и пройти тест на знание значений слов из словаря Даля можно в блоге Яндекса.