Поиск публикаций  |  Научные конференции и семинары  |  Новости науки  |  Научная сеть
Новости науки - Комментарии ученых и экспертов, мнения, научные блоги
Реклама на проекте

Миры Щербакова 1

Saturday, 20 October, 13:10, ivanov-petrov.livejournal.com
Предмет исследования задается целью и методом. Цель – попытаться проникнуть в то, что называется «художественным миром» поэта, понять картину мира М. Щербакова. Для этого используют самые разные методы, например, можно изучить статистический анализ лексики его произведений, проще говоря – работать с частоткой.

Метод
Метод состоит из двух больших этапов. Первый – работа с частотным словарем лексики, второй – работа по построению семантических карт. На первом этапе желательно получить список слов, с которыми имеет смысл работать на втором этапе.

Частотный словарь и сравнение очередностей
Имея частотный словарь лексики поэта, делать какие-либо заключения трудно, поскольку выводы не относятся именно к его творчеству. Например, некое слово может оказаться самым частым словом в языке, и то, что оно – самое частое у этого поэта, говорит только о том банальном факте, что он пишет на определенном языке.

Значит, для того, чтобы делать выводы о частоте использования слов, надо сравнить частотный словарь поэта с каким-то усредненным словарем, общим словарем частотной лексики. Для сравнения в данном случае выбран словарь: О. Н. Ляшевская, С. А. Шаров, Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009.

На самом деле и такой прием не позволяет утверждать, что то, что изучается этим методом – именно художественный мир данного поэта, а не что-то иное. Ведь этот общий частотный словарь составляется на материалах за определенное время, по определенным жанрам литературы. Скажем, там может быть велика доля газетных, публицистических текстов, или основной корпус текстов относится к 30-60-м годам, а наш поэт пишет вовсе не в 60-е годы. Тогда различия в частоте использования слов относятся не к его собственному художественному миру, а только к отличию некоторого среза современной речи от речи 60-х годов. Или данное частотное отличие относится к поэтической речи вообще. Правильно было бы иметь гарантированно современный поэту словарь частот или даже словарь частот поэтической речи и сравнивать с частоткой по его корпусу.
Все же можно попытаться сделать результат работы с частоткой более доказательным, взяв по возможности приличный частотный словарь, наиболее современный. Но затем требуется провести вторую часть работы, которая и позволяет говорить о художественном мире именно данного автора. Работа с частоткой служит лишь методом наведения на цель, а не основанием для окончательных выводов.

После того, как мы сравниваем частный словарь автора и общий по языку словарь частотной лексики, мы можем выделить слова, которые у автора встречаются чаще, чем в общей лексике, и те, что встречаются реже. Однако тут есть трудность. Дело в том, что сами частоты слов мало о чем говорят. Частота употребления слова относится к тому корпусу, на котором она исследовалась – сравнивать выборку на миллионы в словаре общей лексики и выборку по песням Щербакова прямо по частоте – пустое дело.

Частоты слов служат для двух целей. Первое – они показывают «цену деления» - когда два соседних слова в списке отличаются по частоте, скажем, на 500, а другие два – на 5, это указывает на прохождение некоторой частотной границы. То есть на важность смены позиции слова в списке. Тем самым мы используем не саму частоту (которая неконвертируема в другую базу текстов), а получаемую через частоту очередь слов – их место в списке, относительное место.
Работа я с местами, мы можем сопоставить два списка – частотку Щербакова и общую частотку. Скажем, если в одном списке некое слово занимает второе место, оно чуть не самое часто встречающееся, а в другом – оно же занимает, допустим, 500-е место, то именно этот разрыв в месте списка, а не разрыв по самой частоте, служит основанием присмотреться к данному слову.
Итак, сопоставляя списки частоты слов, мы получаем аномалии списка Щербакова в отличие от общей базы. Эти аномалии бывают самые разные. Например, слово может сменить позицию на единицу – в общем списке это, допустим, 83-е по частоте слово, а у Щербакова оно – 82-е. Такое изменение позиции следует считать незначимым – корпус Щербакова намного меньше общего, в нем могут быть небольшие статистические аномалии, которые ничего существенного с точки зрения нашей задачи не означают.

Чтобы выводы были более достоверны, лучше принять как значимые самые большие отличия, пренебрегая мелкими различиями в частоте. Мы получим несколько классов отличий – скажем, когда место меняется на два порядка, на один порядок и т.п. То есть, например, слово в общем словаре – среди пятитысячных по месту в очереди, а у Щербакова – в первых трех десятках. Это очень существенная перемена места. Так мы можем ранжировать смены места в списке на очень сильные и явно значимые и сомнительные, менее значимые.

Тогда появляется платформа из «подозрительных» слов – тех, которые автор использует особенно часто или особенно редко. При этом следует помнить, что помимо самого номера места на наше отношение к словам будет влиять также и то, о каким именно месте речь. Например, если в общем списке слово – восьмое по частоте, а у Щербакова оно же – 24-е, то это очень заметное снижение частоты (у Щербакова по сравнению с общим списком). А если в одном списке слово 1216, а в другом – 1200-е, то это ничего не значит, просто небольшая флуктуация. Тем самым слова самые частые, во главе списка, весят больше и там перемещения в очереди важнее, чем такие же по абсолютной величине перемещения в хвосте распределения по частоте.

При сравнении списков мы получим четыре списка слов. Два списка – списки отсутствия, то есть список слов, которых нет у Щербакова, и список, которого нет в общей частотке (это возможная ситуация, ведь общий список может не включать какие-то достаточно редкие слова или неологизма. Короче, теоретически возможно, чтобы Щербаков употреблял слова, которых нет в общем списке слов русского языка – он же принципиально неполный). Еще два списка – один список «горячий», когда Щербаков употребляет некие слова намного чаще, чем этого можно ожидать из их места в общем списке, и список «холодный» – когда у Щербакова слова употребляются значительно реже, чем этого можно ожидать из их места в общем списке, занимают в частотке Щербакова место с намного большим номером, чем такое же слово в общей частотке.
Получив такие списки «особенных» по частоте их употребления слов, мы можем перейти уже к индивидуализирующему сравнению. Все предшествующие процедуры были скорее очерчиванием круга подозреваемых, чем прямыми попытками понять художественный мир поэта. Само по себе изменение места слова в списке-частотке еще не говорит, что автор очень особенно к этому слову относится – например, может быть, в какой-то песне частый припев существенно повысил частоту слова, и более оно ничем не примечательно.

Поэтому после создания списков подозрительных слов, слов с особенной частотой встречаемости в корпусе Щербакова, которая сильно отличается от места в списке встречаемости в общем корпусе – надо перейти к семантическому анализу, содержательному, понять, что эти слова делают, какие картины они рисуют.
Читать полную новость с источника 

Комментарии (0)