Сколько надо слов – математика и лингвистика

слова

В любом языке насчитываются десятки, а то и сотни тысяч различных слов. Всех их, конечно, не запомнить. И при изучении чужого языка мы стремимся заучить самые главные, самые важные слова. Именно их должен включать словарь-минимум, словарь, который обязательно прилагается почти к каждому учебнику языка. Но здесь, при составлении словаря-минимума неожиданно оказывается следующее…

Ученые проанализировали 16 различных учебников французского языка для американских школ. Казалось бы, словари-минимумы должны в этих учебниках совпадать если не полностью, то хотя бы на 70—80 процентов (ясное дело, что такие общие и обязательные слова, как «я», «мы», «есть», «спать», и так далее должны быть во всех учебниках французского языка).

Но, увы! Проверка показала: общими для всех словарей оказалось не восемьдесят, а примерно — два процента слов! В 16 учебниках содержалось 6000 различных слов французского языка; общими для всех учебников были лишь 134 слова.

Теперь представьте себе, что два человека, изучавшие язык по разным учебникам, попробуют говорить друг с другом по-французски. Поймут ли они друг друга? Вряд ли. 134 слова — слишком мало для того, чтобы разговаривать на чужом языке. Но, может быть, это лишь единственный случай, курьез — и только.

К сожалению, не курьез. Десять учебников испанского языка содержали четыре с половиной тысячи различных слов. А общих слов было всего-навсего 249. Хорош словарь-минимум для изучающих испанский язык!

Как же быть? Как найти список самых нужных слов, как составить словарь-минимум, свободный от произвола и личных мнений составителя? Ответить на эти вопросы помогла математика, вернее — математическая лингвистика, точные методы в изучении языка.

ЧАСТОТНЫЕ СЛОВАРИ

Что такое употребительные слова? Прежде всего — такие слова, которые чаще всего встречаются в нашей устной речи, в письменных текстах. Чем большее число раз встречается слово, тем оно употребительнее, или, говоря языком математики, имеет большую частоту.

Многое будет зависеть от того, какой текст мы возьмем. Например, в «Капитанской дочке» Пушкина действие происходит, в основном, в Белогорской крепости; естественно, что слово «крепость» встречается в повести 98 раз. Если же мы возьмем любой другой текст такого же размера, как и «Капитанская дочка», то слово «крепость» встретится нам раза два, а то и ни разу.

Разумеется, целесообразнее работать не с одним текстом, а с несколькими. А затем подсчитать — сколько раз встречаются в них различные слова. Так, весьма частое для «Капитанской дочки» слово «крепость» встретилось всего лишь в 14 текстах из 133. Значит, это слово занимает скромное место в списке самых употребительных слов русского языка. Оно вошло лишь в пятую тысячу, а составляй мы список лишь по «Капитанской дочке», то слово «крепость» заняло бы место в первой десятке самых ходовых слов языка!

В настоящее время создано большое количество частотных словарей по разным языкам: английскому, немецкому, русскому, польскому, чешскому, португальскому, испанскому и т. д.

Словарь испанского языка, который составил Гарсиа Ос, был создан на основании подсчетов 400 000 слов. Словарь чешского языка на основе 1 миллиона 200 тысяч слов; польского — 7 миллионов, французского 1 миллиона 500 тысяч, немецкого — 11 миллионов, и, наконец, английского на основании обработки текстов общим объемом в 18 миллионов слов.

Обычно частотные словари представляют собой списки слов, которые начинаются со слов, встречаемых чаще всего. Самый большой из таких словарей английский, который составили. Торндайк и Лордж. В нем — 30 тысяч слов. Каждое из них встретилось от четырех раз и больше.

ТЕКСТООБРАЗОВАТЕЛЬНАЯ СПОСОБНОСТЬ

Итак, статистика помогает отобрать самые нужные, самые частые слова. Сколько же слов нужно брать для словаря-минимума? Преподаватель, скажем, имеет частотный словарь английского языка, включающий тридцать тысяч самых ходовых слов. Сколько же из них включить в словарь-минимум? Тысячу? Две? Три? Пять тысяч? С помощью статистики можно избавиться от произвола и объективно выявить самые нужные слова языка. Но ведь этот произвол остается, когда мы начинаем определять общее количество этих слов! Однако и здесь на помощь приходит математика.

В «Капитанской дочке» Пушкина союз «и» встречается 1160 раз на 29 тысяч слов текста, то есть в среднем один раз на 25 слов. Предлог «в» — 724, то есть один раз на 40 слов. Вообще, служебные слова занимают, как показал лингвист В. Марков, 35,3 процента авторской речи и 45,9 процента речи действующих лиц.

Слова-монополисты имеются не только среди служебных слов, но и среди знаменательных. Десятки тысяч редких слов занимают ничтожную часть текста; в основном же любой текст (любого языка!) состоит из небольшого числа самых частых слов. «Отсюда следует, — пишет Ю. Марков,— что различные слова имеют различную способность к образованию текста или различную текстообразовательную способность». 736 самых употребительных английских слов занимают 75 процентов текста. Это значит, что три четверти текста будет нам понятно, если мы примемся за чтение, зная такое количество слов.

Тысяча слов (разумеется, самых частых) занимает 80,5 английского, 83,5 французского, 81 процент испанского текста. Две тысячи самых ходовых английских слов занимают 86 процентов текста, три тысячи — около 90, пять тысяч — 93,5 процента!

Это значит, что зная 5000 самых частых слов, из каждых 300 слов, составляющих страницу текста, нам будет известно 281 и неизвестно всего лишь 19 слов! То есть практически — можно свободно читать любой текст на английском языке. Нетрудно подсчитать, что увеличить словарь нецелесообразно. Если мы даже удвоим его и вместо 5000 возьмем 10 000 самых частых слов, то тогда вместо 93,5 будет покрыто… всего лишь 96,4 процента текста! Мы увеличили словарь вдвое — но выигрыш получили всего-навсего в 2,9 процента!

Итак, математика дает преподавателю иностранного языка не только список самых частых слов языка, но и определяет размеры словаря-минимума. Она же может помочь в чисто педагогических вопросах, — например в обучении устной речи.

СЛОВАРЬ-МИНИМУМ ДЛЯ РАЗГОВОРА

Знание языка — это, прежде всего, знание разговорной, живой речи. Чтобы правильно и свободно говорить на чужом языке, нужно преодолеть многочисленные трудности: не мерить «на свой аршин», не переделывать в духе родного языка «атомы речи» — фонемы языка чужого, владеть грамматическими конструкциями и правильно строить фразы и т. д. Но при изучении устной речи, как и при изучении письменной, прежде всего, нужно знать слова чужого языка. В устной речи это даже важнее, ведь при чтении мы имеем возможность заглянуть в словарь, а в разговоре этого сделать нельзя: слова должны быть у нас все время «под рукою».

Можно ли составить частотный словарь устной речи? Безусловно, можно. Причем заранее можно предположить, что большая часть «книжных слов» отсеется. Можно предположить, что вообще создать словарь-минимум разговорной речи целесообразно из обычных словарей, удалив из них только явные книжные слова.

Для проверки этого предположения в США был проведен следующий опыт. На магнитофонную ленту записано 607 выступлений 274 студентов колледжа, что составило около трехсот тысяч слов; запись была неожиданной для студентов, их выступления были не подготовлены и поэтому не содержали книжных ораторских и других, чуждых нашей обычной речи слов. Сколько же «книжных слов» отсеялось в устной речи?

Из первых пятисот наиболее употребительных слов литературного языка – всего лишь пять слов; из первой тысячи — тридцать пять, из двух тысяч — сто семьдесят восемь, из пяти тысяч — около тысячи пятисот. А это значит, что даже после самого строгого отсева книжных слов в словаре-минимуме все же остается две трети.

Достаточно ли этого? Может ли человек, пользуясь тремя с половиной тысячами самых частых слов, свободно говорить, скажем, по-английски? Подсчеты показывают, что для этого достаточно даже двух тысяч. Текстообразовательная способность самых ходких слов устной речи больше, чем письменной.

Американский ученый А. Уэст после долгих опытов пришел к выводу, что для английского языка возможно следующее число слов, входящих в «словарь говорения». Для примитивного пересказа основной сюжетной линии некоторых сказок и коротких рассказов нужно знать 450 слов. Для подробного пересказа почти любой сказки — 750 слов. Для очень подробного пересказа приключенческих романов — 1400 слов, для детального пересказа любых произведений художественной литературы — три тысячи слов.

Продолжение следует.

Автор: А Кондратов.