Математична лінгвістика

письменик

Дуже часто пристрасть автора до певних слів спотворює статистичні результати. Скажімо, союз «і», в середньому, зустрічається 40 разів на тисячу слів російського тексту. Але якщо ми візьмемо твори письменника Леоніда Андрєєва, який мав пристрасть до цього союзу, то ми можемо зустріти в тисячі слів не 40, а добрих 60 або 80 «і» (Андрєєв вживав його не тільки як з’єднувальний союз, але дуже часто починав з нього речення).

Звичайно, для складання словника самих ходових слів улюблені слова письменника – перешкода. Але з іншого боку – вони-то якраз і є тими об’єктивними показниками, які можуть дати нам характеристику стилю письменника, його відмінності від інших майстрів пера, індивідуальної особливості його стилю.

«Словники мови письменника» почали складатися давно. У них входили всі слова, які вжив даний письменник у своїх творах. Чим більше їх, тим багатше лексика, словниковий запас письменника.

Так, у творах великого англійського поета Мільтона зустрічається приблизно 8000 різних слів; в «Божественній комедії» Данте – 5 860 слів; в «Шаленому Орландо» Терквато Тассо – 8 174 слів; у творах давньоримського поета Горація – 6084 слів, в гомерівських поемах – близько 9000 слів, в творіннях Шекспіра – 15000 слів (за іншими даними – навіть 24 000!), у творах Пушкіна – 21200 слів. Цікаво порівняти зі словниками великих письменників кількість різних слів, які використовують прості люди. За даними психологів, дитина користується +3600 словами; підліток у 14 років – 9000. Середній дорослий вживає 11700 слів, а людина «підвищеної інтелігентності» – до 13500 слів. (До речі словниковий запас людини дуже важливий для риторики – науки та мистецтва красномовства, адже володіючи більшою кількістю слів можна складати і більш витончені та проникні промови, вже детальніше про це ви можете дізнатись у школі красномовства http://krasno.com.ua/).

Тут, правда, слід внести істотну поправку. Якщо в «Божественній комедії» Данте було вжито +5860 слів, причому 1615 з них – це власні імена та географічні назви, то це зовсім не означає, що Данте знав таку кількість слів. Насправді великий флорентієць знав десятки тисяч слів і, ймовірно, користувався ними – але у своїй поемі він вжив тільки частину з них; цю частину і вловив «словник мови Данте».

Якось вийшов чотиритомний «Словник мови Пушкіна», який одночасно є і частотним словником. У ньому наводяться дані про те, скільки разів зустрічається те чи інше слово у повному зібранні творів Пушкіна, в яких саме творах, в яких значеннях і граматичних формах. У повному зібранні творів Пушкіна міститься близько 600 000 слів. З них 21 200 слів – різні. Понад сто раз зустрічається всього лише 720 слів. Зате один раз на шістсот тисяч слів пушкінських текстів зустрічається +6440 різних слів, два рази – 2830 слів, три рази – 1800 слів. Це – незаперечне і точне свідчення багатства пушкінського словника, своєрідності його лексики.

В даний час на допомогу вченим приходять комп’ютери, які дозволяють виконувати лічильну роботу багатьох років за години і навіть хвилини. Допомагають вони і при складанні частотних словників, наприклад, частотний словник російської мови, про яку ми згадували вище, був складений за допомогою обчислювальної техніки.

Лексика кожного досить довгого тексту, будь це роман або п’єса, наукова книга або діловий звіт, має означальні структуру. Стиль і словник «Капітанської доньки» суттєво відрізняється від «Введення в математичний аналіз». Частотні словники, словники мови письменника дозволяють виразити ці відмінності в числах, зробити їх доказовими.

Ці точні докази дають не тільки частотні словники. Наприклад, підрахунок середньої кількості слів у реченні також дозволяє характеризувати стиль того чи іншого письменника за допомогою чисел.

Можна сказати: «А. Н. Толстой віддає перевагу більш довгим фразам, а А. І. Купрін – коротшим». А можна сказати і так: «Середнє число слів у фразі у творі Толстого «Сестри» – 11,9, а середнє число в фразі у творі Купріна «Поєдинок» – 9,5».

ЧИСЛА НА СЛУЖБІ ЛІНГВІСТИКИ

Спочатку числа допомагали вирішувати багато прикладних питання. Наприклад: як зручніше розташувати клавіші на друкарській машинці (а пізніше на клавіатурі)? Природно, найчастіші букви повинні бути самими «зручними», а самі рідкісні перебувати на периферії. Визначити, які з букв часті, а які рідкісні, можуть тільки підрахунки.

Або ще один зразок «прикладної лінгвістики» – передача мови, в усній чи письмовій формі, у формі листа, телефонної розмови. «Швидке вдосконалення техніки зв’язку, зростання потреб у передачі інформації, «криза ефіру», в якому не вміщується інформація, передана у формі електромагнітних хвиль, – все це поставило дуже гостро проблему створення більш економних методів передачі інформації», – каже Р. Л. Добрушин.

Як зручніше кодувати слова і букви мови в електричні сигнали? Як краще скорочувати текст, опускаючи ті його частини, які не несуть інформації і є точними? Відповісти на ці питання можуть тільки числа, тільки точні методи у вивченні мови.

За останній час з’явилися нові додатки лінгвістики, які зажадали точних заходів і чисел в описі мови. З виникненням кібернетики з мовою доводиться мати справу не тільки людям, а й «розумним машинам», а машини «розуміють» тільки строго формалізовану, однозначну мову чисел і логічних команд. На неї і потрібно перекладати нашу звичайну людську мову.

Машинний переклад з однієї мови на іншу, машинне зберігання інформації, машинний переклад усної мови в письмову і письмової в усну, нарешті, розмова з машиною по-людськи, тобто введення і виведення інформації в машину у формі усного мовлення. І вирішити ці проблеми може тільки лінгвістика в тісній співдружності з математикою. Числа і точні заходи допомагають вирішувати не тільки практичні, прикладні завдання мовознавства. Вони потрібні і самій мовознавчій теорії. Наприклад, визначати ступінь запозичення однієї мови із словникового запасу іншої.

Так, підрахунки показують, що в албанській мові з 5140 слів лише 430 є власними, а всі інші запозичені з інших мов. У вірменській 1500 слів з 1940 запозичені з перської, грецької, парфянскої, сирійської, арабської. У корейській мові є до 75 відсотків запозичень з китайської; в англійській від 55 до 75 відсотків всіх слів запозичені з французької, латині та інших романських мов.

Звичайно, велике число запозичень у мові не говорить за те, що ця мова є найгіршим, менш повноцінним – всі мови світу рівні, на будь-якій з них можна висловити те, що виражено іншою мовою. Запозичуються зазвичай слова, що позначають предмети побуту, культури, праці, яких не було раніше у народу – природно, що разом з предметом запозичується і його назва. Наприклад, українське слово «сало» увійшло в усі мови світу, так само як і французьке «одеколон» або австралійське «бумеранг» і «кенгуру».

Наука про мову за довгі роки свого розвитку накопичила величезний матеріал. «Продовжувати ігнорувати числа при розгляді лінгвістичних явищ означало б гальмувати розвиток мовознавства», – писав в 1949 році французький мовознавець Коен.

Але крім цієї наукової потреби в точності, виникла необхідність вирішення практичних завдань: як старих і традиційних (викладання іноземних мов, створення економних кодів), так і нових, часом науково-фантастичних, як, наприклад, розмова з комп’ютером на людській мові, машинний переклад з мови на мову і т. д. Вирішити ці завдання без чисел – неможливо. Ось чому математичні методи все більше починають застосовуватися у вивченні мови.

Але така елементарна математика застосовна до завдань лінгвістики лише на перших порах. Потім має слідувати створення нового математичного апарату спеціально для мовознавчих завдань, точно так само, як був створений новий апарат для задач економіки (лінійне, динамічне програмування, теорія черг і т. д.), Як створюється новий математичний апарат для біології (наприклад, роботи одного з найбільших математиків Гельфанда присвячені цій важливій проблемі), як був створений і бурхливо розвинутий новий розділ математики, що виник спеціально для вирішення гуманітарних завдань – теорії ігор.

Сучасна математика найвищою мірою сприяє точності вивчення мови. Так само як у фізиці математичні елементи використовуються для опису фізичного світу, оскільки передбачається, що вони відповідають елементам фізичного світу, так і в математичній лінгвістиці математичні елементи приблизно повинні відповідати елементам світу мови.

Автор: А. Кондратов.

Leave a Reply

Your email address will not be published. Required fields are marked *