Математическая лингвистика

писатель

Очень часто пристрастие автора к определенным словам искажает статистические результаты. Скажем, союз «и», в среднем, встречается 40 раз на тысячу слов русского текста. Но если мы возьмем произведения писателя Леонида Андреева, питавшего пристрастие к этому союзу, то мы можем встретить в тысяче слов не 40, а добрых 60 или 80 союзов «и» (Андреев употреблял его не только как соединительный союз, но очень часто начинал с него предложения).

Конечно, для составления словаря самых ходких слов любимые слова писателя — помеха. Но с другой стороны — они-то как раз и являются теми объективными показателями, которые могут дать нам характеристику стиля писателя, его отличия от других мастеров пера, индивидуальной особенности его стиля.

«Словари языка писателя» начали составляться давно. В них входили все слова, которые употребил данный писатель в своих произведениях. Чем больше их, тем богаче лексика, словарный запас писателя.

Так, в произведениях великого английского поэта Мильтона встречается примерно 8000 различных слов; в «Божественной комедии» Данте — 5860 слов; в «Неистовом Орланде» Терквато Тассо — 8174 слова; в произведениях древнеримского поэта Горация — 6084 слова, в гомеровских поэмах — около 9 тысяч слов, в творениях Шекспира — 15 тысяч слов (по другим данным — даже 24 тысячи!), в сочинениях Пушкина — 21 200 слов. Любопытно сравнить со словарями великих писателей количество различных слов, которые употребляют обыкновенные люди. По данным психологов, ребенок пользуется 3600 словами; подросток в 14 лет — 9000. Средний взрослый употребляет 11 700 слов, а человек «повышенной интеллигентности» — до 13 500 слов. (А интересно сколько вообще слов содержит словарь синонимов русского языка).

Здесь, правда, следует внести существенную поправку. Если в «Божественной комедии» Данте было употреблено 5860 слов, причем 1615 из них — это собственные имена и географические названия, то это вовсе не означает, что Данте знал такое количество слов. На самом деле великий флорентиец знал десятки тысяч слов и, вероятно, пользовался ими — но в своей поэме он употребил только часть из них; эту часть и уловил «словарь языка Данте».

Как то вышел четырехтомный «Словарь языка Пушкина», который одновременно является и частотным словарем. В нем приводятся данные о том, сколько раз встречается то или иное слово в полном собрании сочинений Пушкина, в каких именно произведениях, в каких значениях и грамматических формах. В полном собрании сочинений Пушкина содержится около 600 тысяч слов. Из них 21 200 слов — различные. Свыше ста раз встречается всего лишь 720 слов. Зато один раз на шестьсот тысяч слов пушкинских текстов встречается 6440 различных слов, два раза — 2830 слов, три раза — 1800 слов. Это — неопровержимое и точное свидетельство богатства пушкинского словаря, своеобразия его лексики.

В настоящее время на помощь ученым приходят компьютеры, которые позволяют выполнять счетную работу многих лет за часы и даже минуты. Помогают они и при составлении частотных словарей, например, частотный словарь русского языка, о котором мы упоминали выше, был составлен с помощью вычислительной техники.

Лексика каждого достаточно длинного текста, будь это роман или пьеса, научная книга или деловой отчет, имеет определительную структуру. Стиль и словарь «Капитанской дочки» существенно отличается от «Введения в математический анализ». Частотные словари, словари языка писателя позволяют выразить эти отличия в числах, сделать их доказательными.

Эти точные доказательства дают не только частотные словари. Например, подсчет среднего количества слов в предложении также позволяет характеризовать стиль того или иного писателя с помощью чисел.

Можно сказать: «А. Н. Толстой предпочитает более длинные фразы, а А. И. Куприн — более короткие». А можно сказать и так: «Среднее число слов в фразе в произведении Толстого «Сестры» равно 11,9, а среднее число в фразе в произведении Куприна «Поединок» — 9,5».

ЧИСЛА НА СЛУЖБЕ ЛИНГВИСТИКИ

Первоначально числа помогали решать многие прикладные вопросы. Например: как удобнее расположить клавиши на пишущей машинке (а затем на клавиатуре)? Естественно, самые частые буквы должны быть самыми «удобными», а самые редкие находиться на периферии. Определить, какие из букв часты, а какие редки, могут только подсчеты.

Или еще один образец «прикладной лингвистики» — передача речи, в устной или письменной форме, в форме письма, телефонного разговора. «Быстрое усовершенствование техники связи, рост потребностей в передаче информации, «кризис эфира», в котором не умещается информация, передаваемая в форме электромагнитных волн, — все это поставило очень остро проблему создания более экономных методов передачи информации»,— говорит Р. Л. Добрушин.

Как удобнее кодировать слова и буквы языка в электрические сигналы? Как лучше сокращать текст, опуская те его части, которые не несут информации и являются точными? Ответить на эти вопросы могут только числа, только точные методы в изучении языка.

За последнее время появились новые приложения лингвистики, которые потребовали точных мер и чисел в описании языка. С возникновением кибернетики с языком приходится иметь дело не только людям, но и «умным машинам», а машины «понимают» только строго формализованный, однозначный язык чисел и логических команд. На него и требуется переводить наш обычный человеческий язык.

Машинный перевод с одного языка на другой, машинное хранение информации, машинный перевод устной речи в письменную и письменной в устную, наконец, разговор с машиной по-человечески, т. е. ввод и вывод информации в машину в форме устной речи. И решить эти проблемы может только лингвистика в тесном содружестве с математикой. Числа и точные меры помогают решать не только практические, прикладные задачи языкознания. Они нужны и самой языковедческой теории. Например, определять степень заимствования одного языка из словарного запаса другого.

Так, подсчеты показывают, что в албанском языке из 5140 слов лишь 430 являются собственными, а все остальные заимствованы из других языков. В армянском 1500 слов из 1940 заимствованы из персидского, греческого, парфянского, сирийского, арабского. В корейском языке имеется до 75 процентов заимствований из китайского; в английском от 55 до 75 процентов всех слов заимствованы из французского, латыни и других романских языков.

Конечно, большое число заимствований в языке не говорит за то, что этот язык является худшим, менее полноценным — все языки мира равны, на любом из них можно выразить то, что выражено на другом языке. Заимствуются обычно слова, обозначающие предметы быта, культуры, труда, которых не было ранее у народа — естественно, что вместе с предметом заимствуется и его название. Например, украинское слово «сало» вошло во все языки мира, равно как и французское «одеколон» или австралийское «бумеранг» и «кенгуру».

Наука о языке за долгие годы своего развития накопила огромный материал. «Продолжать игнорировать числа при рассмотрении лингвистических явлений означало бы тормозить развитие языкознания», — писал в 1949 году французский языковед Коэн.

Но кроме этой внутринаучной потребности в точности, возникла необходимость решения практических задач: как старых и традиционных (вроде преподавания иностранных языков, создание экономных кодов), так и новых, порой научно-фантастических, как, например, разговор с компьютером на человеческом языке, машинный перевод с языка на язык и т. д. Решить эти задачи без чисел — невозможно. Вот почему математические методы все больше начинают применяться в изучении языка.

Но такая элементарная математика применима к задачам лингвистики лишь на первых порах. Затем должно следовать создание нового математического аппарата специально для языковедческих задач, точно так же, как был создан новый аппарат для задач экономики (линейное, динамическое программирование, теория очередей и т. д.), как создается новый математический аппарат для биологии (например, работы одного из крупнейших математиков Гельфанда посвящены этой важной проблеме), как был создан и бурно развивается новый раздел математики, возникшей специально для решения гуманитарных задач — теории игр.

Современная математика в высшей степени способствует точности изучения языка. Так же как в физике математические элементы используются для описания физического мира, поскольку предполагается, что они соответствуют элементам физического мира, так и в математической лингвистике математические элементы предположительно должны соответствовать элементам мира речи.

Автор: А. Кондратов.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *