Реферат на тему Застосування математичних методів у мовознавстві ПЛАН 1. Поняття та історія математичної методики в лінгвістиці. 2. Лінгвостатистика. 3. Застосування математичних теорій. 4. Використана література 1. Поняття та історія математичної методики в лінгвістиці. Застосування математичного (точніше, кількісного) критерію в мовознавчих дослідженнях відоме з давніх
часів. Такі лінгвістичні поняття, як фонетичний закон, продуктивність морфем, критерій спорідненості мов то¬що ґрунтувалися певною мірою на кількісних харак¬теристиках. Звукові відповідники, що часто фіксу¬ються в мові чи декількох споріднених мовах, є законо¬мірними на відміну від аномалій, котрі є рідкісними. Ті морфеми, що часто використовуються для творення нових слів,
є продуктивними. Спорідненими мовами є такі, які мають більше спільних рис, ніж неспоріднені. Однак раніше математичний критерій використову¬вали стихійно і спорадично. Зараз його застосовують свідомо і цілеспрямовано. Активне використання математичних методів у ви¬вченні мови почалося в середині XX ст. Стимулом для цього послужили перспективи машинного перекладу.
У процесі обробки текстів для їх уведення в машину бу¬ло одержано різноманітні кількісні оцінки окремих фактів мови, які згодом виявилися корисними не тіль¬ки для створення математичних моделей мови, а й для лінгвістичної теорії. Оскільки мова — це ймовірнісна, а не жорстко детермінована система, то для її пізнання квантитативні методи, пов'язані з дослідженням час¬тотних, ймовірнісних, градуальних та інших нелогіч¬них характеристик, не тільки бажані, але й необхідні.
Розрізняють кількісні й статистичні методи. Кіль¬кісні методи зводяться до простого підрахунку час¬тоти вживання мовних одиниць. Статистичні ме¬тоди передбачають використання різних формул для виявлення правил розподілу мовних одиниць у мов¬ленні, для виміру зв'язків між мовними елементами, для встановлення тенденцій у розвитку та функціону¬ванні мови та для встановлення залежності між якіс¬ними й кількісними характеристиками мови. Математичні методи мають самостійну цінність у дослідженні мови
і, крім того, можуть входити як складова частина в інші методи. Останнім часом вико¬ристання цих методів до вивчення мовного матеріалу значно зросло, і можна говорити, що в математичній лінгвістиці виокремилися два розділи, або напря¬ми, — лінгвостатистика і стилостатистика. 2. Лінгвостатистика. Основна увага лінгвостатистики звернена на дос¬лідження того, що в мові визначається правом вибору мовця, а що зумовлено
її іманентною структурою і як ці два параметри кількісно співвідносяться між собою. Виявляється, що одиниці будь-якого мовного рівня ма¬ють сталі для певного періоду кількісні показники їх використання. Подібність між членами одного мовно¬го колективу полягає не тільки в тому, які мовні оди¬ниці (фонеми, лексеми, граматичні форми і синтаксич¬ні конструкції) вони використовують, а й у тому, як часто вони їх уживають. Отже, стає зрозуміло, чому нині такого великого поширення набули так звані
частотні словники, у яких слова розташовані не за алфавітом, а за спадом частот, тобто першим іде найбільш частотне слово, за ним слово нижче рангом за частотою від пер¬шого і т.д. Відомі такі частотні словники: Yosselson H. The Russian Word Count and Frequency Analysis of Grammatical Categories of Standard Literary Russian. — Detroit,
1953; Штейнфельдт Э. А. Частотный словарь современного русского литературного языка. — Таллинн, 1963 (перевидавався в Москві в 1969 і 1973 pp.); Частотный словарь русского языка / Под ред. Л. Н. Засориной. — М 1977. В Україні в 1981 р. вийшов дво¬томний «Частотний словник сучасної української ху¬дожньої прози». Частотні словники мають велике практичне значення.
На їх основі створюють підруч¬ники іноземних мов, тексти яких будуються на най¬більш уживаній лексиці, і словники-мінімуми. Якщо зважити на те, що 1100 (за іншими даними — 1000) найбільш частотних слів покриває 80% тексту, то зна¬чення частотних словників для лінгводидактики не¬оціненне: варто знати 1100 слів і можна розмовляти іноземною мовою, читати й розуміти тексти (значення 20% невідомих слів можна якоюсь
мірою визначити за контекстом). Статистичні закономірності лежать в основі органі¬зації словника і тексту будь-якої мови. Американсь¬кий дослідник Дж. Ципф дійшов висновку, що існує залежність між числом різних значень одного слова і його відносною частотою вживання. Кількість значен¬ня наближається до квадратного кореня від частоти слова: т = -Jf , де т — число значень, а / — відносна частота.
Інша закономірність, встановлена Ципфом (у науці вона відома як закон Ципфа), має таке форму¬лювання: відношення рангу слова в частотному слов¬нику до частотності слова в мові становить постійну величину (константу) rf = с, де г — ранг слова в час¬тотному словнику, / — частота слова, с — постійна ве¬личина. Слід зазначити, що тісний зв'язок існує також між частотними характеристиками слова в пам'яті та в словнику [Фрумкина 1971: 14
і наст.]. Статистична організація тексту полягає в тому, що покриття тексту різними словами відповідає такій за¬кономірності: на початку тексту різних слів більше, а далі їх менше [Пап 1961: 96—100]. Найширше застосовують статистичні методи для визначення семантичної відстані між словами. Най¬частіше з цією метою статистичній обробці піддають слова, які сполучаються з аналізованим словом. На основі статистичних формул, які враховують ви¬падки зникнення в мовах слів основного фонду,
можна встановити абсолютну хронологію диференціації мов¬них сімей (метод глотохронології М. Сводеша, про який уже йшлося). Стилостатистика — це визначення і характерис¬тика стилістичних особливостей окремих творів або авто¬рів через кількісні відношення використаних мовних елементів. В основі статистичного підходу до досліджен¬ня стилістичних явищ лежить розуміння літературного стилю як індивідуального способу володіння засобами мо¬ви.
При цьому дослідник абстрагується від питання про якісну значеннєвість обчислюваних мовних елементів, зосереджуючи свою увагу тільки на кількісному аспекті. Найпростішим різновидом статистичного підходу до вивчення мови письменників або окремих творів є під¬рахунок уживаності слів, оскільки багатство словника певним чином характеризує їхню мову. Досить порів¬няти такі факти: словниковий запас пересічної людини становить 7—10 тисяч слів,
у творах О. Пушкіна вжито 21280 слів, а в російськомовних творах Т. Шевченка — 21548 слів. Для кожного письменника, як і будь-якого мовця, характерна своя специфічна частотність мовних елемен¬тів, іншими словами, кожному авторові притаманні свої улюблені, а тому й частотні слова, словосполучення, фрази, синтаксичні конструкції тощо. Так, скажімо,
56 найчастотніших слів у творах О. Пушкіна покривають 40 відсотків тексту, 1000 слів — 70 відсотків, 8000 — 95 відсотків, інші 13280 слів — усього лише 5 відсот¬ків тексту. Саме тому середня частотність використо¬вується також для встановлення справжнього авторст¬ва виявлених без зазначення автора творів, а також для датування окремих творів того самого автора на основі попередньо проведеного підрахунку середньої частоти вживання ним слів у різні періоди його твор¬чості.
Специфічними для кожного автора є й рідко¬вживані слова. Як засіб стильової характеристики використовують критерій стабільності середньої частоти найуживані¬ших слів. Доведено, що, незважаючи на різні перипетії сюжету в усіх частинах твору, середня частота вжи¬вання слів є стабільною. Звідси випливає такий висно¬вок: стиль автора можна охарактеризувати певним співвідношенням змінності середньої частоти вживан¬ня слова до загальної для певної мови частоти його вживання.
Якщо ж у творі письменника чи його якійсь части¬ні є суттєві відхилення вибіркових частот від харак¬терної для нього середньої частоти, то це свідчить про зумисне, цілеспрямоване, зумовлене фабулою викорис¬тання чи невикористання певних мовних засобів. Як інструмент для визначення випадковості чи суттєвості У вивченні мовних функціональних стилів засто¬совують два різновиди статистики: ймовірнісний
і сим¬птоматичний. Ймовірнісна статистика допомагає встановити ступінь достовірності одержаних результа¬тів, величину й кількість вибірок для аналізу із зада¬ною точністю, вибрати об'єктивні критерії для дифе¬ренціації різних стилів, визначити відстань між стиля¬ми. Симптоматичну статистику застосовують у статистичному описі функціональних стилів, оскільки за її допомогою можна виявити процентне співвідно¬шення між різними типами мовних явищ. Статистичну методику використали вчені відділу структурно-математичної лінгвістики
Інституту мово¬знавства ім. О. О. Потебні НАН України під керівниц¬твом В. С. Перебийніс (див.: Статистичні параметри стилів. — К 1967, де різні функціональні стилі оха¬рактеризовані за частотними параметрами фонем, ти¬пів складів, кінцевих афіксів, дієслівних форм, дієслів¬ного оточення, сполучників, префіксів і префіксальних словоформ, розділових знаків, а також за розподілом довжини речення).
Крім статистичних методів, у мовознавстві застосо¬вують методи теорії інформації, математичної логіки, теорії ймовірностей і теорії множин. 3. Застосування математичних теорій. Дані теорії інформації використовуються для найекономнішої передачі інформації засобами мови. Кож¬на мова має значну кількість надлишкової
інформації. Щоб переконатися в цьому, варто звернутися до фено¬мену телеграми: незважаючи на скорочення слів і усу¬нення деяких службових слів, її зміст залишається зрозумілим. У мовленні, зокрема, в одній фразі повто¬рюється (інколи по п'ять і більше разів) вказівка на рід, число, відмінок, вживаються підряд синоніми, та сама думка часто дублюється (уточнення, що почина¬ються словами тобто, інакше,
іншими словами тощо) та ін. Встановлено, що, наприклад, російська мова має 39,8 % надлишкової інформації, англійська — 30,7 %. Різним ступенем надлишковості характеризуються сти¬лі тієї самої мови. Найбільша надлипіковість притаман¬на діловому стилю, менша — публіцистичному і худож¬ньо-белетристичному і найменша — непідготовленому усному мовленню. Надлипіковість інформації в мові не можна розцінювати як недолік.
Часто надлипіковість при перешкодах на каналі зв'язку є допоміжним засо¬бом сприйняття повної інформації. З математичної логіки мовознавство запозичило символічну мову. Так, зокрема, знак с означає вхо¬дження, п — перетин, и — поєднання, л — і, v — або, + — функцію, а, в, с — змінні, > — більше, < — мен¬ше — подібно.
Використання елементів математич¬ної логіки вплинуло на збагачення прийомів дослі¬дження мови — алгоритмізацію, графічні обчислення, матричне визначення істинності функцій складних висловлень тощо. Застосування логіко-математичних методик і прийомів моделювання зумовило появу різ¬них видів логіко-математичного моделювання мови, мисленого експерименту і гіпотетико-дедуктивного способу дослідження. Усе в мові підпорядковується не жорстким, а ймо¬вірнісним
закономірностям. Тому цілком природно, що в дослідженні мовних одиниць використовують тео¬рію ймовірностей1. Під ймовірністю розуміють відно¬шення в середньому спостережуваного числа вдалих результатів до загального числа експериментів (подій). Найпростіше питання, яке допомагає з'ясувати тео¬рія ймовірностей, — частотність звуків у мовленні. Якщо огрублено ототожнити звук з буквою, то в будь-якому російському тексті на 1000 букв і пробілів буде 175 пробілів, 90 — о, 62 — а, 53 — т,
45 — с, 40 — р, 38 — в і тільки 2 — ф. Цей тип ймовірності назива¬ється середньою ймовірністю. Подібні дослідження використовують для складання друкарських кас, для опису особливостей окремих мов, різних стилів однієї мови або індивідуального авторського стилю. Однак звуки в мовленні розташовуються не як-не¬будь, а більш-менш визначеними для кожної мови способами (приголосний + голосний + голосний чи приголосний + голосний + приголосний тощо).
У біль¬шості мов світу переважає проміжний тип — приго¬лосний + голосний. Знання таких закономірностей дає змогу визначити ймовірність появи в мовленнєвому лан¬цюжку голосного чи приголосного. Так, якщо взяти перший тип мов, до яких належать полінезійські, де після приголосного, як правило, йдуть два голосних, то після першого навгад вибраного приголосного ймовір¬ність, що наступним звуком буде голосний, практично дорівнює 1. Знання цих обмежень важливе для дешиф¬рування тексту.
Цей тип ймовірності, де у кожному но¬вому експерименті враховується результат попередньо¬го експерименту, називають умовною ймовірністю. Другий тип, як і перший, не відображає суті мов¬них явищ. При такій інтерпретації виходить, ніби всі приголосні в середньому однаково часто поєднуються з голосними. У мовленні на суто фонетичну сполучу¬ваність накладаються ще й інші обмеження, виклика¬ні тим, що деякі можливі звукосполучення мають зміст
і є морфемами, а інші не мають змісту і не є морфемами (пор.: смола і жмола, хмола, вмола). Ймо¬вірність перших різко зростає, а ймовірність других різко знижується, по суті дорівнює нулю. Цей тип ймовірності називається індуктивною ймовірністю. Для функціонування мови саме він має особливе зна¬чення, оскільки людина, сприйнявши декілька зву¬ків, очікує певне, а не будь-яке продовження.
Індук¬тивна ймовірність виражає очікування того чи іншого мовного елемента з погляду людини, яка розуміє зміст мовленнєвого ланцюжка. Аспект мови, до якого застосовують теорію ймовір¬ностей, називається теоретико-ймовірнісним. Теорію множин використовують для дослідження класів мовних елементів, які складають уже не мовленнєвий ланцюжок, а парадигматику мови. Множину трактують як сукупність об'єктів, об'єднаних якоюсь спільною
ознакою. Ознака, яка об'єднує об'єкти у складі множини, може бути якою завгодно. Так, скажімо, всі фонеми певної мови, усі словоформи певного тексту, всі тексти української мови можна інтерпретувати як окре¬мі множини. Об'єкти, що складають певну множину, на¬зивають елементами. Позначають множину фігурними дужками. Наприклад, запис А = {х, у z) читається так: існує множина А, яка складається з елементів х, у z.
Множину задають двома способами: простим пере¬рахуванням її елементів або вказівкою на ознаку цих елементів. Наприклад: А = {ґ, к, х, ґ, к х'} або А є мно¬жина задньоязикових приголосних української мови. Множина може складатися не тільки з багатьох, а й з одного елемента (наприклад, множина середньоязи¬кових складається з одного звука [j]), може бути й порожньою (наприклад, множини довгих
і коротких голосних в українській мові). Елементом множини мо¬же бути інша множина (дзвінкі приголосні — підмно-жина множини приголосних, а приголосні — підмно-жина множини звуків). Належність елемента множині записується так: х є А, що читається: «елемент х нале¬жить до множини А», а належність підмножини мно¬жині записується, як
А с М (множина А є підмножи-ною множини М). Дві і більше множин можуть мати спільні елементи. У такому разі говорять, що ці мно¬жини перетинаються (наприклад, множини губних приголосних і дзвінких приголосних). Поділ множин на підмножини, які не перетинаються, є класифікаці¬єю елементів. Розглянемо фонеми як множину. В мові кожна фо¬нема протиставлена всім іншим. Для опису системи фо¬нем будь-якої мови достатньо 12
ознак, причому кож¬на з цих ознак може бути наявною або відсутньою. Таким чином, множина буде складатися з 2і *, тобто 4096 елементів. Кожен елемент — це певне поєднання однієї ознаки з декількома іншими з дванадцяти. Отже, 12 членів однієї множини можуть поєднуватися 4096 різними способами і утворювати таку кількість під множин. Скільки є можливих підмножин, стільки може бути
і фонем, оскільки кожна під множина — це певне поєднання ознак фонем. Аспект мови, до якого застосовують теорію множин, називають теоретике-множинним. Отже, сучасне мовознавство характеризується праг¬ненням поєднати і розумно комбінувати різні загаль-нонаукові та спеціальні лінгвістичні методи. Це пози¬тивно впливає на розвиток лінгвістики, оскільки різні методи доповнюють один одного
і разом ефективніше допомагають вивчити такий складний феномен, як мова. Використана література 1. Жирмунский В. М. О некоторых проблемах лингвистической геогра¬фии // Вопр. языкознания. — 1954. — № 4. 2. Чагишева В. И. Лингвистическая география как метод исследования языка // Вопр. общ. языкознания. — Л 1967. 3. — Т. 45. — № 6. 4.
Методи структурного дослідження мови. — К 1968. 5. Апресян Ю. Д. Идеи и методы современной структурной лингвисти¬ки. — М 1966. 6. Проблеми та методи структурної лінгвістики. — К 1965. 7. Плотников Б. А. Дистрибутивно-статистический анализ лексических значений. — Минск, 1979. 8. Харрис 3. Совместная встречаемость и трансформация в языковой структуре //
Новое в лингвистике. — 1962. — Вып. 2. 9. Трансформационный метод в структурной лингвистике. — М 1964. 10. Гулыга Е. В Шендельс Е. И. О компонентном анализе значимых еди¬ниц языка // Принципы и методы семантических исследований. — М 1976. 11. Кузнецов А. М. От компонентного анализа к компонентному синтезу. — М 1986. 12. Перебийніс В. С. Статистичні методи для лінгвістів. —
К 2002. 13. Головин Б. Н. Язык и статистика. — М 1970. 14. Лесохин М. М Лукьяненков К. Ф Пиотровский Р. Г. Введение в ма¬тематическую лингвистику. — Минск, 1982. 15. Носенко И. А. Начала статистики для лингвистов. — М 1981.