Svetlako Опубликовано 6 января, 2018 #1 Поделиться Опубликовано 6 января, 2018 (изменено) Нашел интересную статистическую "игрушку". Гугл оцифровал свое собрание книг и выложил данные о частотности отдельных слов (https://books.google.com/ngrams/). Мне представляется интересным "поанализировать" как изменяется частотность тех или иных лексем в разных или в одном языке (относительная, абсолютная или приведенная к среднему). Я уже выкладывал тут данные об отношении частотности лексем "физика/генетика" в русском и английском, которая показывает, что упоминание генетики в советских книгах в 20-40 г.г. было существенно выше, чем в английском. Конечно, эти данные обладают рядом особенностей, которые я распишу чуть позже (сорри!), но даже в этих ограничениях - они интересны. В качестве сегодняшнего "примера" к празднику - ниже под спойлером частотность лексемы "Рождество" в разных языках. Обратите внимание на фиксацию исчезновения лексемы в русском при сов.власти - вполне объяснимую. А еще попытайтесь объяснить, с чего бы это немцы и французы ВНЕЗАПНО стали упоминать Рождество в книгах существенно чаще во время Второй мировой (причем лягушатники - во время Первой тоже)! Со страху? Компенсаторно? Именно такие "странности" позволяют говорить об этой игрушке как инструменте изучения лингвистического менталитета в историческом контексте... Я уже подготовил более простые наборы лексем - для иллюстрации возможностей "инструмента" и буду выкладывать их по мере возможности. Смешно, но чаще выявляемые особенности оказываются ВОПРОСАМИ, а не ответами Под спойлером: Частотность лексемы Рождество Основные особенности "анализа" 1. Гугл-книги не являются "слепком" языка как такового - это только его "отражение" на издаваемую "литературу", авторами которой является определенная когорта этноса. Однако, многие считаю, что влияние печатного слова на ментальность народа (и наоборот) в определенные моменты истории является определяющим. 2. "Мировые" языки не описывают ни одно из "государств", его использующих. Испанский - это сначала только Испания, но затем в нем начинает проявляться литература Латинской Америки. Английский - это изначально Британия, потом Британская Империя, потом больше США чем Великобритания, потом в нем начинает проявляться влияние всего мира, издающего научные труды на английском. 3. Русский наиболее сложен для анализа, во-первых, из-за существенного изменения орфографии в 17 году (искать надо в старой и новой орфографии в сумме), во-вторых, из-за того что в русском лексемы имеют куда больше словоформ чем в романских языках (падежи, рода, числа...). 4. Книги датируются годом издания и их переиздания попадают "в будущее" (однако, это правильно, потому что переиздаваемый регулярно Пушкин реально продолжает влиять на лингвистическое состояние русского языка). Кроме этого, сейчас переводы появляются в языках с очень небольшой сдвижкой во времени, что нивелирует "новообразования" в языках (реальность глобализма). Пока хватит... Дали буде... Изменено 6 января, 2018 пользователем Svetlako 2 Ссылка на комментарий
Svetlako Опубликовано 7 января, 2018 Автор #2 Поделиться Опубликовано 7 января, 2018 Продолжу "игры". Какая река самая "русская"? Странный вопрос - все ассоциируют Россию с Волгой. Однако, с точки зрения упоминаемости в печатном слове - это не так. Кто догадался, что это за река, тому честь и слава, а остальным - под спойлер. Под спойлером: Как реки в русском языке текут... Кстати, принтскрин иллюстрирует особенности запросов в Гугле для русского - появление твердого знака в конце обязательно. Слово без него - это постреволюционный массив, а вот дореволюционный только с ним. Отсюда проблема "ятя". Я пока не научился корректно задавать слова с ним и прочими "ижицами"... Другой нюанс - заглавная буква. Гугл дает возможность "общего" запроса (пишем "Москва", ставим галку в Case-insensitive и получаем сразу и "москва", и "Москва", и "МОСКВА". Но в случае с реками - нас интересует только Москва, поэтому поступаем аккуратно. Еще особенность запросов. Бессмысленно искать "Лена" - девочка и река окажутся в куче. А вот Дон (река с заглавной буквы) и дон (звук колокольчика в написании с маленькой буквы) - друг другу не мешают. Кстати, кто бы объяснил, что это за всплеск интереса к Оби в 30-40х годах 19 века... 1 Ссылка на комментарий
Svetlako Опубликовано 7 января, 2018 Автор #3 Поделиться Опубликовано 7 января, 2018 (изменено) Новый вопрос: какие деревья населяют наши книги... Сразу скажу: русская березка - не на первом месте! Под спойлером: Деревья в лексических пространствах В русском массиве гугл-книг первенство по упоминаниям меняется во времени: в книгах 19 века превалирует надо всеми ЕЛКА, в прошлом веке ее сменяет ДУБ. Знаменитая русская БЕРЕЗКА вместе с СОСНОЙ держатся около пьедестала... Сразу понятно, что заселенность реальных лесов той или иной породой деревьев к частотности упоминания их в книгах или статьях не имеет никакого значения. Дубравы мы свели почти полностью и уж тем более они стали редкостью в 20-м веке. Однако, в этом-то и есть особенность "мысленной картины мира" - в ней реальный лес заменяется лесом ассоциаций. В этих дебрях из подсознания куда чаще березы или елки возникает дуб. Его образ нужен и востребован... Почему? Ответа нет. Нужнее нам быть дубами, нежели березками... В менталитете прочих народов я менее силен, но то что дерево германцев - ЕЛЬ, всем известно. Немецкий язык это подтверждает безоговорочно. А вот присутствие в немецкой тройке ИВЫ меня удивило (третий лидер - СОСНА). Французы - любят ДУБ. Под ним растет трюфель... На втором месте - нормандская СОСНА. Ни парижские каштаны, ни альпийские ели - тут не котируются. С английским сложнее всего... Как я уже писал, английский не равен Англии. Все-таки имперскость немецкого или французского - куда менее заметна. Так вот с чем связана смена лидера в английском (с дуба на сосну) - я не сужу. но скорее всего, это момент начала превалирования американской литературы (сосна) над британской (дуб). Изменено 7 января, 2018 пользователем Svetlako Ссылка на комментарий
Svetlako Опубликовано 7 января, 2018 Автор #4 Поделиться Опубликовано 7 января, 2018 (изменено) Проверим "чувствительность" инструмента к историческим событиям. Простейшее - череда советских лидеров. Ленин, Сталин,Хрущев,Брежнев, Андропов,Горбачев (Черненко опустим - я его и сам-то не сразу вспомнил!). Под спойлером: Советские цари в печатном слове Масштаб у лидеров разный, поэтому будет ДВА графика (второй для "мелких" лидеров). Поскольку чехарда была в 80-е сильная, то естественно никакого осреднения - только "год в год" (отсюда пилообразность графиков). Итак... И укрупненно... Как любят говорить в псевдоученых статьях, МОЖНО ВИДЕТЬ : 1. Инструмент заметил даже краткосрочное вхождение Андропова на вершину. Пик невелик - но он явственно присутствует. Увы, если не знать априори о таком генсеке, пик на эту фамилию не сильно выше статистического "шума"... Поэтому нужно быть осторожным! 2. Время реакции на появление или исчезновение персонажа зависит от его "веса", но минимально - это около 2 лет... 3. Обратите внимание на большой пик у Ленина в 1970 году. Это столетие со дня рождения... Я наблюдал такие у Пушкина на каждую юбилейную дату - рождения или смерти... 4. Умолчание о Сталине сменилось резким возвращением интереса. Факт коррелирует с любыми опросами. Обратите внимание, что в 30-50е "Сталин" нигде статистически значимо не перекрывал "Ленина". Гипертрофированность представлений о культе очевидна. Впрочем, можно видеть что выход "Сталина" на уровень "Ленина" примерно соответствует 35-37 г.г. А как обстоит дело В ДРУГИХ ЯЗЫКАХ? Англоязычный массив Французский Немецкий Остальных лидеров в это рассмотрение я не включаю. Наблюдения: 1. ВСЕ языки заметили юбилей Ильича. 2. Французский "заметил" оккупацию в WWII, когда виден провал в частотности обоих имен. В английском война вызвала пиковый интерес к Ленину - без "пика" интереса к Сталину, что очень любопытно. 3. Немцы не имели табу на имя Ленина во время войны (впрочем, естественно там были отрицательные коннотации). 4. В "новейшее время" Сталин упоминается во ВСЕХ языках чаще Ленина (в английском и французском эта "смена лидера" произошла после смерти Брежнева...). 5. После войны все языки демонстрировали рост частотности упоминания Сталина вплоть до его смерти, причем пик этот везде сравним с пиками для Ленина. А что заметили вы? Изменено 7 января, 2018 пользователем Svetlako 2 Ссылка на комментарий
Svetlako Опубликовано 7 января, 2018 Автор #5 Поделиться Опубликовано 7 января, 2018 (изменено) Самые простые словоформы, отражающие род и число - местоимения. Любопытна их частотность в русском и английском...Во времени... Под спойлером: Местоимения В английском языке "всё" достаточно простое и медленно меняющееся. Сравните с "бешеным" русским Однако, есть что заметить... 1. В 20 веке коренную перестройку личностных дискурсов в русском языке, чаще всего описываемых местоимениями, вызвала Революция. Кроме этого, глубокими потрясениями сопровождалась Война... В английском языке, с другой стороны, существовали аналогичные медленные процессы, например: - на рубеже 19-20 веков в обоих языках началось снижение частотности местоимения "Я" как признака отхода от повествований (или статей) "от первого лица" (в русском - очень резко!). В 70х годах тенденция изменилась (теперь градиенты в языках почти совпадают...). Это весьма интересно с точки зрения отношения к "философскому Я" - сначала отказ от индивидуализма и потом возврат к нему (?). Отдельно же проявилось влияние на эту "Я-частотность" Войны в СССР и отсутствие такого влияния в английском... - к настоящему моменту в обоих языках формируются частотные "кластеры" с примерно равной частотой употребления для 2х групп местоимений: одна группа ("Я+ОН" и "I+HE+IT") и другая группа ("ОНА+ОНИ+МЫ" и "SHE+THEY+WE"). Влияние "глобализма" в перестройке личностного описания мира? Очень характерен распад по HE-SНЕ для английского - как будто персонажей мужчин в 2-5 раз больше чем женщин А впрочем Зато в русской литературе 19 века - ОНА и ОН имеют равную частотность... 2. Русский язык утратил особенность использования вежливого "Вы" в текстах. Частотности "вы" и "ты" теперь совпадают... 3. Очень сильное отличие между языками - в отмеченном выше использовании местоимения ОНА (SHE). Очень сложно сравнивать их непосредственно - в русском ОНА может заменять и неодушевленные предметы, в английском SHE - одушевленное существо женского пола. Однако, очень странным выглядит резкое падение использования этого местоимения в русском языке в Революцию (в английском весь 19 и первую половину 20го века был рост использования SHE - слабо, но росло число женских персонажей! именно персонажей! в текстах - феминизм?). Возможно, в СССР произошла более сложная перестройка гендерного распределения персонажей и авторов в литературном мире... Для оценки этого необходимо рассмотреть характерные частотности лексем с гендерным содержанием, что будет сделано позже. 4. Пропаганда коллективизма в СССР должна была бы вызвать рост частотности местоимений множественного числа в русском (МЫ и ОНИ) - но этого не произошло, кроме кратковременного пика 17-20 годов. Дальше падение частотности... Преемственность стилистики текстов и принципиальная личностность "авторства" не позволили коллективизму проникнуть в литературно-лексическую среду... Под спойлером: Продолжение - про гендерные лексемы Для проверки и уточнения "гендерной" гипотезы о причинах изменения частотности ОНА-ОН в русском языке в Революцию посмотрим частотность простейших гендерных определений Прелестно! Резкое падение частотности лексем Жена-Женщина (любопытно их совпадение) полностью описывает падение частотности лексемы Она. Причина? Литература после Революции перестала быть в основном "про женщин", а стала - про что-то еще Плохо это или хорошо - но это так. Кстати, смешно на смену соотношения "мужиков" и "баб" как персонажей. До 17-го года баб было больше (пресыщенные Бунины писали об их прелестях) - а после вылез на сцену мужик Я не буду приводить тут корреляционные выкладки, но по частотности местоимений типичным "утраченным" персонажем русской литературы 19 века в сравнении с веком 20м оказывается некий Я, рассказывающий о некоей ОНА, к которой он обращался на ВЫ. А что не так? Но! Советский-то персонаж гораздо сложнее Изменено 7 января, 2018 пользователем Svetlako Ссылка на комментарий
Шаман Опубликовано 9 января, 2018 #6 Поделиться Опубликовано 9 января, 2018 А по Путину интересно как график будет? С 2000 года ) Ссылка на комментарий
Рекомендуемые сообщения
Для публикации сообщений создайте учётную запись или авторизуйтесь
Вы должны быть пользователем, чтобы оставить комментарий
Создать учетную запись
Зарегистрируйте новую учётную запись в нашем сообществе. Это очень просто!
Регистрация нового пользователяВойти
Уже есть аккаунт? Войти в систему.
Войти