Игра в слова (историческая частотность лексем в языках) - Общеисторический Подфорум - TWoW.Games - Сообщество любителей умных игр Перейти к содержанию
TWoW.Games - Сообщество любителей умных игр

Игра в слова (историческая частотность лексем в языках)


Рекомендуемые сообщения

Нашел интересную статистическую "игрушку". Гугл оцифровал свое собрание книг и выложил данные о частотности отдельных слов (https://books.google.com/ngrams/).

 

Мне представляется интересным "поанализировать" как изменяется частотность тех или иных лексем в разных или в одном языке (относительная, абсолютная или приведенная к среднему). Я уже выкладывал тут данные об отношении частотности лексем "физика/генетика" в русском и английском, которая показывает, что упоминание генетики в советских книгах в 20-40 г.г. было существенно выше, чем в английском. 

 

Конечно, эти данные обладают рядом особенностей, которые я распишу чуть позже (сорри!), но даже в этих ограничениях - они интересны.

 

В качестве сегодняшнего "примера" к празднику :) - ниже под спойлером частотность лексемы "Рождество" в разных языках. Обратите внимание на фиксацию исчезновения лексемы в русском при сов.власти - вполне объяснимую. А еще попытайтесь объяснить, с чего бы это немцы и французы ВНЕЗАПНО стали упоминать Рождество в книгах существенно чаще во время Второй мировой (причем лягушатники - во время Первой тоже)! Со страху? Компенсаторно? Именно такие "странности" позволяют говорить об этой игрушке как инструменте изучения лингвистического менталитета в историческом контексте...

 

Я уже подготовил более простые наборы лексем - для иллюстрации возможностей "инструмента" и буду выкладывать их по мере возможности.

 

Смешно, но чаще выявляемые особенности оказываются ВОПРОСАМИ, а не ответами :)

 

Под спойлером: Частотность лексемы Рождество
0_db54b_28ca3dc2_orig.jpg


Основные особенности "анализа"

 

1. Гугл-книги не являются "слепком" языка как такового - это только его "отражение" на издаваемую "литературу", авторами которой является определенная когорта этноса. Однако, многие считаю, что влияние печатного слова на ментальность народа (и наоборот) в определенные моменты истории является определяющим.

 

2. "Мировые" языки не описывают ни одно из "государств", его использующих. Испанский - это сначала только Испания, но затем в нем начинает проявляться литература Латинской Америки. Английский - это изначально Британия, потом Британская Империя, потом больше США чем Великобритания, потом в нем начинает проявляться влияние всего мира, издающего научные труды на английском.

 

3. Русский наиболее сложен для анализа, во-первых, из-за существенного изменения орфографии в 17 году (искать надо в старой и новой орфографии в сумме), во-вторых, из-за того что в русском лексемы имеют куда больше словоформ чем в романских языках (падежи, рода, числа...).

 

4. Книги датируются годом издания и их переиздания попадают "в будущее" (однако, это правильно, потому что переиздаваемый регулярно Пушкин реально продолжает влиять на лингвистическое состояние русского языка). Кроме этого, сейчас переводы появляются в языках с очень небольшой сдвижкой во времени, что нивелирует "новообразования" в языках (реальность глобализма).

 

Пока хватит... Дали буде... :)

Изменено пользователем Svetlako
  • Что?! 2
Ссылка на комментарий

Продолжу "игры". 

 

Какая река самая "русская"? Странный вопрос - все ассоциируют Россию с Волгой. Однако, с точки зрения упоминаемости в печатном слове - это не так. Кто догадался, что это за река, тому честь и слава, а остальным - под спойлер.

 

Под спойлером: Как реки в русском языке текут...
0_db54c_7a0d56ee_orig.jpg

 

 

Кстати, принтскрин иллюстрирует особенности запросов в Гугле для русского - появление твердого знака в конце обязательно. Слово без него - это постреволюционный массив, а вот дореволюционный только с ним. Отсюда проблема "ятя". Я пока не научился корректно задавать слова с ним и прочими "ижицами"...

Другой нюанс - заглавная буква. Гугл дает возможность "общего" запроса (пишем "Москва", ставим галку в Case-insensitive и получаем сразу и "москва", и "Москва", и "МОСКВА". Но в случае с реками - нас интересует только Москва, поэтому поступаем аккуратно.

Еще особенность запросов. Бессмысленно искать "Лена" - девочка и река окажутся в куче. А вот Дон (река с заглавной буквы) и дон (звук колокольчика  в написании с маленькой буквы) - друг другу не мешают.

 

Кстати, кто бы объяснил, что это за всплеск интереса к Оби в 30-40х годах 19 века...

 

  • Что?! 1
Ссылка на комментарий

Новый вопрос: какие деревья населяют наши книги... Сразу скажу: русская березка - не на первом месте!

 

Под спойлером: Деревья в лексических пространствах

В русском массиве гугл-книг первенство по упоминаниям меняется во времени: в книгах 19 века превалирует надо всеми ЕЛКА, в  прошлом веке ее сменяет ДУБ. Знаменитая русская БЕРЕЗКА вместе с СОСНОЙ держатся около пьедестала...

Сразу понятно, что заселенность реальных лесов той или иной породой деревьев к частотности упоминания их в книгах или статьях не имеет никакого значения. Дубравы мы свели почти полностью и уж тем более они стали редкостью в 20-м веке. Однако, в этом-то и есть особенность "мысленной картины мира" - в ней реальный лес заменяется лесом ассоциаций. В этих дебрях из подсознания куда чаще березы или елки возникает дуб. Его образ нужен и востребован... Почему? Ответа нет. Нужнее нам быть дубами, нежели березками...

 

0_db54f_b2019379_orig.jpg

 

В менталитете прочих народов я менее силен, но то что дерево германцев - ЕЛЬ, всем известно. Немецкий язык это подтверждает безоговорочно. А вот присутствие в немецкой тройке ИВЫ меня удивило (третий лидер - СОСНА).

 

0_db54e_cbe96977_orig.jpg

 

Французы - любят ДУБ. Под ним растет трюфель... На втором месте - нормандская СОСНА. Ни парижские каштаны, ни альпийские ели - тут не котируются.

 

0_db550_4f3941b_orig.jpg

 

С английским сложнее всего... Как я уже писал, английский не равен Англии. Все-таки имперскость немецкого или французского - куда менее заметна. Так вот с чем связана смена лидера в английском (с дуба на сосну) - я не сужу. но скорее всего, это момент начала превалирования американской литературы (сосна) над британской (дуб).

 

0_db54d_b6b745bf_orig.jpg

 

Изменено пользователем Svetlako
Ссылка на комментарий

Проверим "чувствительность" инструмента к историческим событиям. Простейшее - череда советских лидеров. Ленин, Сталин,Хрущев,Брежнев, Андропов,Горбачев (Черненко опустим - я его и сам-то не сразу вспомнил!).

 

Под спойлером: Советские цари в печатном слове

Масштаб у лидеров разный, поэтому будет ДВА графика (второй для "мелких" лидеров). Поскольку чехарда  была в 80-е  сильная, то естественно никакого осреднения - только "год в год" (отсюда пилообразность графиков).

 

Итак...

 

0_db551_bea8077d_orig.jpg

 

И укрупненно...

 

0_db552_e057f6b6_orig.jpg

 

 

Как любят говорить в псевдоученых статьях, МОЖНО ВИДЕТЬ :) :

 

1. Инструмент заметил даже краткосрочное вхождение Андропова на вершину. Пик невелик - но он явственно присутствует. Увы, если не знать априори о таком генсеке, пик на эту фамилию не сильно выше статистического "шума"... Поэтому нужно быть осторожным!

 

2. Время реакции на появление или исчезновение персонажа зависит от его "веса", но минимально - это около 2 лет...

 

3. Обратите внимание на большой пик у Ленина в 1970 году. Это столетие со дня рождения... Я наблюдал такие у Пушкина на каждую юбилейную дату - рождения или смерти...

 

4. Умолчание о Сталине сменилось резким возвращением интереса. Факт коррелирует с любыми опросами. Обратите внимание, что в 30-50е "Сталин" нигде статистически значимо не перекрывал "Ленина". Гипертрофированность представлений о культе очевидна. Впрочем, можно видеть что выход "Сталина" на уровень "Ленина" примерно соответствует 35-37 г.г.

 

А как обстоит дело В ДРУГИХ ЯЗЫКАХ?

 

Англоязычный массив

 

 0_db553_4fbaf118_orig.jpg

 

Французский

 

0_db555_9752b529_orig.jpg

 

Немецкий

 

0_db554_62bd92c4_orig.jpg

 

Остальных лидеров в это рассмотрение я не включаю. Наблюдения:

 

1. ВСЕ языки заметили юбилей Ильича. 

 

2. Французский "заметил" оккупацию в WWII, когда виден провал в частотности обоих имен. В английском война вызвала пиковый интерес к Ленину - без "пика" интереса к Сталину, что очень любопытно.

 

3. Немцы не имели табу на имя Ленина во время войны (впрочем, естественно там были отрицательные коннотации).

 

4. В "новейшее время" Сталин упоминается во ВСЕХ языках чаще Ленина (в английском и французском эта "смена лидера" произошла после смерти Брежнева...).

 

5. После войны все языки демонстрировали рост частотности упоминания Сталина вплоть до его смерти, причем пик этот везде сравним с пиками для Ленина. 

 

А что заметили вы?

Изменено пользователем Svetlako
  • Что?! 2
Ссылка на комментарий

Самые простые словоформы, отражающие род и число - местоимения. Любопытна их частотность в русском и английском...Во времени...

 

Под спойлером: Местоимения
В английском языке "всё" достаточно простое и медленно меняющееся. Сравните с "бешеным" русским :)

0_db557_eb58de23_orig.jpg

 

 

0_db556_571091c8_orig.jpg

 

Однако, есть что заметить...

 

1. В 20 веке коренную перестройку личностных дискурсов :) в русском языке, чаще всего описываемых местоимениями, вызвала Революция. Кроме этого, глубокими потрясениями сопровождалась Война... В английском языке, с другой стороны, существовали аналогичные медленные процессы, например: 

 

- на рубеже 19-20 веков в обоих языках началось снижение частотности местоимения "Я" как признака отхода от повествований (или статей) "от первого лица" (в русском - очень резко!). В 70х годах тенденция изменилась (теперь градиенты в языках почти совпадают...). Это весьма интересно с точки зрения отношения к "философскому Я" - сначала отказ от индивидуализма и потом возврат к нему (?). Отдельно же проявилось влияние на эту "Я-частотность" Войны в СССР и отсутствие такого влияния в английском... 

 

- к настоящему моменту в обоих языках формируются частотные "кластеры" с примерно равной частотой употребления для 2х групп местоимений: одна группа ("Я+ОН" и "I+HE+IT") и другая группа ("ОНА+ОНИ+МЫ" и "SHE+THEY+WE"). Влияние "глобализма" в перестройке личностного описания мира? Очень характерен распад по HE-SНЕ для английского - как будто персонажей мужчин в 2-5 раз больше чем женщин :) А впрочем :) Зато в русской литературе 19 века - ОНА и ОН имеют равную частотность...

 

2. Русский язык утратил особенность использования вежливого "Вы" в текстах. Частотности "вы" и "ты" теперь совпадают...

 

3. Очень сильное отличие между языками - в отмеченном выше использовании местоимения ОНА (SHE). Очень сложно сравнивать их непосредственно - в русском ОНА может заменять и неодушевленные предметы, в английском SHE - одушевленное существо женского пола. Однако, очень странным выглядит резкое падение использования этого местоимения в русском языке в Революцию (в английском весь 19 и первую половину 20го века был рост использования SHE - слабо, но росло число женских персонажей! именно персонажей! в текстах - феминизм?). Возможно, в СССР произошла более сложная перестройка гендерного распределения персонажей и авторов в литературном мире... Для оценки этого необходимо рассмотреть характерные частотности лексем с  гендерным содержанием, что будет сделано позже.

 

4. Пропаганда коллективизма в СССР должна была бы вызвать рост частотности местоимений множественного числа в русском (МЫ и ОНИ)  - но этого не произошло, кроме кратковременного пика 17-20 годов. Дальше падение частотности... Преемственность стилистики текстов и принципиальная личностность "авторства" не позволили коллективизму проникнуть в литературно-лексическую среду...

 


Под спойлером: Продолжение - про гендерные лексемы

 

Для проверки и уточнения "гендерной" гипотезы о причинах изменения частотности ОНА-ОН в русском языке в Революцию посмотрим частотность простейших гендерных определений

 

 

0_db558_1b651945_orig.jpg

 

 

Прелестно! Резкое падение частотности лексем Жена-Женщина (любопытно их совпадение) полностью описывает падение частотности лексемы Она. Причина? Литература после Революции перестала быть в основном "про женщин", а стала - про что-то еще :) Плохо это или хорошо - но это так. 

 

Кстати, смешно на смену соотношения "мужиков" и "баб" как персонажей. До 17-го года баб было больше (пресыщенные Бунины писали об их прелестях) - а после вылез на сцену мужик :)

 

Я не буду приводить тут корреляционные выкладки, но по частотности местоимений типичным "утраченным" персонажем русской литературы 19 века в сравнении с веком 20м  оказывается некий Я, рассказывающий о некоей ОНА, к которой он обращался на ВЫ. А что не так? Но! Советский-то персонаж гораздо сложнее :)

 

Изменено пользователем Svetlako
Ссылка на комментарий

Для публикации сообщений создайте учётную запись или авторизуйтесь

Вы должны быть пользователем, чтобы оставить комментарий

Создать учетную запись

Зарегистрируйте новую учётную запись в нашем сообществе. Это очень просто!

Регистрация нового пользователя

Войти

Уже есть аккаунт? Войти в систему.

Войти
×
×
  • Создать...

Важная информация

Политика конфиденциальности Политика конфиденциальности.