Скільки треба слів – математика і лінгвістика

слова

У будь-якій мові налічуються десятки, а то й сотні тисяч різних слів. Всіх їх, звичайно, не запам’ятати. І при вивченні чужої мови ми прагнемо завчити найголовніші, найважливіші слова. Саме їх повинен включати словник-мінімум, словник, який обов’язково додається майже до кожного підручника мови. Але тут, при складанні словника-мінімуму несподівано виявляється наступне…

Вчені проаналізували 16 різних підручників французької мови для американських шкіл. Здавалося б, словники-мінімуми повинні в цих підручниках збігатися якщо не повністю, то хоча б на 70-80 відсотків (ясна річ, що такі загальні та обов’язкові слова, як «я», «ми», «є», «спати» , і так далі повинні бути у всіх підручниках французької мови).

Але нажаль! Перевірка показала: загальними для всіх словників виявилося не вісімдесят, а приблизно – два відсотки слів! У 16 підручниках містилося 6000 різних слів французької мови; загальними для всіх підручників були лише 134 слова.

Тепер уявіть собі, що дві людини, які вивчали мову за різними підручниками, спробують говорити один з одним по-французьки. Зрозуміють вони один одного? Навряд чи. 134 слова – занадто мало для того, щоб розмовляти чужою мовою. Але, можливо, це лише єдиний випадок, курйоз – і тільки.

На жаль, не курйоз. Десять підручників іспанської мови містили чотири з половиною тисячі різних слів. А загальних слів було всього-навсього 249. Гарний словник-мінімум для вивчаючих іспанську мову!

Як же бути? Як знайти список найбільш потрібних слів, як скласти словник-мінімум, вільний від свавілля і особистих думок укладача? Відповісти на ці питання допомогла математика, вірніше – математична лінгвістика, точні методи у вивченні мови.

ЧАСТОТНІ СЛОВНИКИ

Що таке вживані слова? Насамперед – такі слова, які найчастіше зустрічаються в нашій усній мові, в письмових текстах. Чим більше число разів зустрічається слово, тим воно вживаніше, або, кажучи мовою математики, має велику частоту.

Багато чого буде залежати від того, який текст ми візьмемо. Наприклад, в «Капітанській дочці» Пушкіна дія відбувається, в основному, в Білогірській фортеці; природно, що слово «фортеця» зустрічається в повісті 98 разів. Якщо ж ми візьмемо будь-який інший текст такого ж розміру, як і «Капітанська дочка», то слово «фортеця» зустрінеться нам рази два, а то й жодного разу.

Зрозуміло, доцільніше працювати не з одним текстом, а з кількома. А потім підрахувати – скільки разів зустрічаються в них різні слова. Так, вельми часте для «Капітанської доньки» слово «фортеця» зустрілося всього лише в 14 текстах зі 133. Отже, це слово займає скромне місце в списку найбільш вживаних слів російської мови. Воно увійшло лише у п’яту тисячу, а складай ми список лише по «Капітанській дочці», те слово «фортеця» зайняло б місце в першій десятці самих ходових слів мови!

В даний час створено велику кількість частотних словників з різних мов: англійської, німецької, російської, польської, чеської, португальської, іспанської, тощо.

Словник іспанської мови, який склав Гарсіа Ос, був створений на підставі підрахунків 400000 слів. Словник чеської мови на основі 1 мільйона 200 000 слів; польської – 7000000, французької 1 мільйона 500 000, німецької – 11000000, і, нарешті, англійської на підставі обробки текстів загальним обсягом в 18 мільйонів слів.

Зазвичай частотні словники являють собою списки слів, які починаються зі слів, що зустрічаються найчастіше. Найбільший з таких словників англійський, який склали. Торндайк і Лордж. У ньому – 30 000 слів. Кожне з них зустрілося від чотирьох разів і більше.

ТЕКСТОУТВОРЮЮЧА ЗДАТНІСТЬ

Отже, статистика допомагає відібрати найпотрібніші, найчастіші слова. Скільки ж слів потрібно брати для словника-мінімуму? Викладач, скажімо, має частотний словник англійської мови, що включає тридцять тисяч самих ходових слів. Скільки ж з них включити в словник-мінімум? Тисячу? Дві? Три? П’ять тисяч? За допомогою статистики можна позбутися від свавілля і об’єктивно виявити найпотрібніші слова мови. Але ж це свавілля залишається, коли ми починаємо визначати загальну кількість цих слів! Однак і тут на допомогу приходить математика.

У «Капітанської дочці» Пушкіна союз «і» зустрічається 1160 разів на 29000 слів тексту, тобто в середньому один раз на 25 слів. Прийменник «в» – 724, тобто один раз на 40 слів. Взагалі, службові слова займають, як показав лінгвіст В. Марков, 35,3 відсотка авторської мови і 45,9 відсотка мови дійових осіб.

Слова-монополісти є не тільки серед службових слів, а й серед знаменних. Десятки тисяч рідкісних слів займають мізерну частину тексту; в основному ж будь-який текст (будь-якої мови!) складається з невеликого числа найчастіших слів. «Звідси випливає, – пише Ю. Марков, – що різні слова мають різну здатність до утворення тексту або різну текстоутворюючу здатність». 736 найуживаніших англійських слів займають 75 відсотків тексту. Це означає, що три чверті тексту буде нам зрозуміло, якщо ми візьмемося за читання, знаючи таку кількість слів.

Тисяча слів (зрозуміло, найчастіших) займає 80,5 англійської, 83,5 французької, 81 відсоток іспанського тексту. Дві тисячі самих ходових англійських слів займають 86 відсотків тексту, три тисячі – близько 90, п’ять тисяч – 93,5 відсотка!

Це означає, що знаючи +5000 найчастіших слів, з кожних 300 слів, що складають сторінку тексту, нам буде відомо 281 і невідомо всього лише 19 слів! Тобто практично – можна вільно читати будь-який текст англійською мовою. Неважко підрахувати, що збільшити словник недоцільно. Якщо ми навіть подвоїмо його і замість 5 000 візьмемо 10000 найчастіших слів, то тоді замість 93,5 буде покрито … всього лише 96,4 відсотка тексту! Ми збільшили словник вдвічі – але виграш отримали всього-навсього в 2,9 відсотка!

Отже, математика дає викладачеві іноземної мови не тільки список найчастіших слів мови, а й визначає розміри словника-мінімуму. Вона ж може допомогти в чисто педагогічних питаннях, – наприклад в навчанні усного мовлення.

СЛОВНИК-МІНІМУМ ДЛЯ РОЗМОВИ

Знання мови – це, насамперед, знання розмовної, живої мови. Щоб правильно і вільно говорити чужою мовою, потрібно подолати численні труднощі: не міряти «на свій аршин», не переробляти в дусі рідної мови «атоми мови» – фонеми мови чужої, володіти граматичними конструкціями і правильно будувати фрази і т. д. Але при вивченні усного мовлення, як і при вивченні письмового, насамперед, потрібно знати слова чужої мови. В усному мовленні це навіть важливіше, адже при читанні ми маємо можливість заглянути в словник, а в розмові цього зробити не можна: слова повинні бути у нас весь час «під рукою».

Чи можна скласти частотний словник усного мовлення? Безумовно, можна. Причому заздалегідь можна припустити, що більша частина «книжних слів» відсіється. Можна припустити, що взагалі створити словник-мінімум розмовної мови доцільно зі звичайних словників, видаливши з них тільки явні книжкові слова.

Для перевірки цього припущення в США було проведено наступний дослід. На магнітофонну стрічку записано 607 виступів 274 студентів коледжу, що склало близько трьохсот тисяч слів; запис був несподіваним для студентів, їх виступи були не підготовлені і тому не містили книжкових ораторських та інших, чужих нашій звичайній мові слів. Скільки ж «книжних слів» відсіялося в усному мовленні?

З перших п’ятисот найбільш вживаних слів літературної мови – всього лише п’ять слів; з першої тисячі – тридцять п’ять, з двох тисяч – сто сімдесят вісім, з п’яти тисяч – близько тисячі п’ятисот. А це означає, що навіть після самого суворого відсіву книжкових слів у словнику-мінімумі все ж залишається дві третини.

Чи достатньо цього? Чи може людина, користуючись трьома з половиною тисячами найчастіших слів, вільно говорити, скажімо, по-англійськи? Підрахунки показують, що для цього достатньо навіть двох тисяч. Текстоутворююча здатність самих ходових слів усного мовлення більше, ніж письмового.

Американський вчений А. Уест після довгих дослідів прийшов до висновку, що для англійської мови можливо наступне число слів, що входять в «словник говоріння». Для примітивного переказу основної сюжетної лінії деяких казок і коротких оповідань потрібно знати 450 слів. Для докладного переказу майже будь-якої казки – 750 слів. Для дуже докладного переказу пригодницьких романів – 1400 слів, для детального переказу будь-яких творів художньої літератури – три тисячі слів (можете врахувати ці факти коли думаєте які б то купити художні книги, щоб почитати у вільний час).

Далі буде.

Автор: А Кондратов.

Leave a Reply

Your email address will not be published. Required fields are marked *