Онлайн библиотека PLAM.RU


  • Формула Шеннона
  • «Бандвагон» от науки?
  • Биты и буквы
  • Методом отгадывания
  • Биты, стили, «подъязыки»
  • Формулы стиха
  • Скорость устной речи
  • Измерение фонации
  • Универсальный код
  • НАШ УДИВИТЕЛЬНЫЙ КОД

    Математическая теория связи позволяет измерять информацию с помощью точных чисел. О том, как теория информации находит применение в изучении человеческого языка, о сложности этого изучения расскажет очерк

    НАШ УДИВИТЕЛЬНЫЙ КОД

    Формула Шеннона

    Для чего мы говорим? Что является целью всякого общения? Зачем в человеческом обществе существуют такие мощные и дальнобойные средства связи, как телевидение, радио, телеграф?

    Очевидно, для передачи сведений. Или, говоря другими словами, для передачи информации. Слово информация имеет много значений. Но связистам, инженерам, техникам, математикам необходимо одно значение — точное и четкое. «Быстрое усовершенствование техники связи, рост потребностей в передаче информации, «кризис эфира», в котором «не умещается» информация, передаваемая в форме электромагнитных волн, — все это поставило очень остро проблему создания более экономных методов передачи информации», — пишет доктор физико-математических наук Р. Л. Добрушин в статье «Математические методы в лингвистике».

    А прежде всего необходимо было ввести точную меру, единицу измерения информации. Еще в 1928 году американский инженер Хартли предложил оценивать количество информации логарифмом числа возможных событий.

    Когда мы бросаем вверх монету, ясно, что она может упасть либо гербом, либо решеткой. Если мы бросаем игральный кубик, то неопределенность (или, как говорят математики, энтропия) исхода возрастает. Ведь с одинаковой вероятностью может выпасть любая из граней кубика, желанная шестерка столь же часта, как единица, двойка, тройка и т. д. Понятно, что сообщение о том, какой стороной упала монета, несет меньше информации, чем сообщение о том, сколько очков выпало при бросании кубика. Ибо информация — это то, что снимает неопределенность, то есть, попросту говоря, снимает незнание.

    Общепринятой единицей измерения информации считается бит или «да — нет» единица. Слово бит происходит от сокращенных английских слов binary digest — двоичный разряд, так как для измерения информации в битах берутся не привычные нам со школьной скамьи десятичные логарифмы, а двоичные, основанием которых служит число 2.

    Известие о том, что подброшенная в воздух монета упала гербом, принесет нам информацию ровно в один бит. Ведь log2 2 («орел» или «решка»?) равен 1, то есть одному биту. Известие о том, что выпала игральная карта трефовой, пиковой или другой из четырех мастей, принесет нам информацию в два бита, ибо log2 4 = 2. Сообщение об исходе ситуации, где были возможны (и равновероятны!) восемь вариантов, даст информацию в три бита (log2 8 = 3, или 2? = 8, а число битов и есть показатель степени числа два).

    Но эта мера удобна и верна лишь при условии, если все наши «выборы» равноправны, имеют одинаковую вероятность появления. И масть игральной карты, и любая грань кубика, и герб или решетка монеты выпадают с равной вероятностью. А как быть, если вероятности не равны?

    Хартли понимал, что вероятности исходов влияют на количество информации, которое несет сообщение. Почти невероятному исходу нельзя придавать такое же значение, как и самому правдоподобному. Но он считал, что различия между этими исходами нельзя выразить в числах. Они определяются психологическими (если речь идет о людях), метеорологическими (если речь идет о погоде) или другими факторами, неподведомственными математике.

    Однако в 1948 году американский математик и инженер Клод Шеннон показал, что эта точка зрения ошибочна. Любые факторы — психологические, метеорологические и т. д. — можно учесть, привлекая теорию вероятностей. Он предложил формулу, с помощью которой можно измерять количество информации о событиях, происходящих с разной вероятностью.

    Вот эта формула Шеннона:

    H1 = — (P1 log2 P1 + Р2 log2Р2 + … + Рn log2 Рn).

    Н1 — эта величина неопределенности, которую снимает сообщение, и, значит, мера количества информации (ведь информация уничтожает неопределенность); n — число «выборов», а Р1, Р2 …, Рn — вероятности появления этих «выборов».

    Благодаря этой формуле ученые получили возможность измерять информацию, содержащуюся в кодовых знаках самого различного содержания. Более того, благодаря тому, что мы избираем в качестве «меры» информации логарифмы, мы можем складывать информацию, содержащуюся в каждом кодовом знаке, составляющем сообщение, и таким образом измерить количество информации, содержащееся во всем сообщении.

    Действительно, как учит теория вероятностей, вероятность появления двух событий равна произведению вероятностей этих событий. И сумма информации, которую несут кодовые знаки, равна информации всего текста, из этих знаков состоящего. Не будь логарифмов, нам пришлось бы умножать вероятности появления этих знаков. «Логарифмическая» формула Шеннона тем и удобна, что согласно ей информация двух страниц книги — это сумма информации первой страницы и информации второй страницы; информация всей книги — это сумма информации всех ее страниц.

    Впрочем, здесь мы переходим уже не в область математики, а в область другой научной дисциплины — математической лингвистики.

    «Бандвагон» от науки?

    После того, как Клод Шеннон заложил основы вероятностной теории информации, эта теория нашла отклик среди ученых различных специальностей: биологов, лингвистов, философов, генетиков, искусствоведов, психологов, экономистов, геологов, химиков, математиков. Кодом стали называть любую систему знаков, предназначенных для передачи сообщений. Термины теории информации получили широчайшее применение в самых разных публикациях.

    Но вот выходит краткая статья самого создателя этой теории, Клода Шеннона, озаглавленная «Бандвагон». Этим словом в США называют политическую партию, добившуюся популярности и победившую на выборах, или просто группу лиц, программа которых находит у населения широкую поддержку. Родился этот термин, вероятно, потому, что обычно победивший на выборах кандидат проезжал по городу в открытой машине, сопровождаемый оркестром (английское band значит оркестр, джаз, а wagon — повозка, карета).

    За последние годы теория информации превратилась в своего рода бандвагон от науки — так начинает свою статью Шеннон. Появившись на свет в качестве специального метода в теории связи, она заняла выдающееся место как в популярной, так и в научной литературе. А в результате «значение теории информации было, возможно, преувеличено и раздуто до пределов, превышающих ее реальные достижения».

    Очень редко удается открыть одновременно несколько тайн природы одним и тем же ключом, предостерегает Шеннон. Здание нашего искусственно созданного благополучия слишком легко может рухнуть, если в один прекрасный день окажется, что при помощи нескольких магических слов вроде информация, энтропия, избыточность и т. п. нельзя решить всех нерешенных проблем.

    «Что можно сделать, чтобы внести в сложившуюся ситуацию ноту умеренности?»— задается вопросом сам Шеннон. И отвечает так: прежде всего представителям различных наук нужно ясно понимать, что основные положения теории информации касаются очень специфического направления, что оно не обязательно должно оказаться плодотворным, скажем, в психологии или экономике. «Я лично полагаю, что многие положения теории информации могут оказаться очень полезными в других областях науки, — говорит Шеннон. — Действительно, уже достигнуты некоторые весьма значительные результаты. Однако поиск путей применения теории информации в других областях не сводится к тривиальному переносу терминов из одной области науки в другую. Этот поиск осуществляется в длительном процессе выдвижения новых гипотез и их экспериментальной проверке».

    Эти олова основоположника теории информации прекрасно иллюстрируют ситуацию, что сложилась в языкознании, когда человеческую речь стали рассматривать в качестве своеобразного кода. Изучение языка как кода началось уже на заре теории информации. Но только сейчас, по мере того как растут наши знания, мы начинаем постигать, насколько сложен, специфичен, можно сказать, удивителен код — наш язык, с помощью которого мы общаемся.

    Биты и буквы

    Сколько информации несет одна буква? Вопрос этот возник в первые же годы рождения теории информации. Простейший ответ на него найти легко. Надо взять число букв в том или ином алфавите мира, а затем выразить его в двоичных логарифмах. Ведь каждая буква — это один из возможных исходов, вроде выпадения герба или решетки монеты, одной из граней кубика и т. д. Число же этих исходов равно числу различных букв.

    В русском алфавите тридцать три буквы, плюс еще нулевая — пробел между словами. Но так как е и ё сейчас практически не различаются, то их можно считать одной буквой. Можно объединить мягкий знак с твердым. В итоге получаем тридцать две буквы, тридцать два кодовых знака нашего языка. Двоичный логарифм тридцати двух равен пяти. Получаем величину в пять бит. Столько информации несет одна буква нашего алфавита.

    В языках, пользующихся латинским алфавитом, число букв равно двадцати шести. Прибавим еще пробел, нулевую букву, а затем выразим это в двоичных логарифмах, то есть в битах. Получаем величину в 4,76 бит. Столько информации несет одна буква английского, испанского, немецкого, французского языков.

    В алфавите самоанского языка, на котором говорят жители одного из полинезийских архипелагов, всего лишь шестнадцать букв. Двоичный логарифм шестнадцати равен четырем, значит, одна буква самоанского алфавита несет информацию в четыре бита, на один бит меньше, чем буква русского.

    Все это было бы совершенно правильно, если бы буквы алфавита встречались с одинаковой вероятностью, если бы языки не имели свойства, называемого в теории информации избыточностью. Избыточность позволяет определять, насколько разнится максимальная информация, которую может нести знак кода, от реальной, которую он несет. Иными словами, это своеобразная мера «неэкономности» кода, в том числе и любого языка мира.

    Интуитивно, не производя подсчетов, мы догадываемся, что одни буквы, вроде о или с, встречаются часто, другие, вроде ф или э — реже. То же самое и со словами: союз и или местоимение я весьма часты, а прилагательное сиятельный или глагол выковыривать — гораздо реже. Мы согласуем нашу речь в роде, числе, падеже, залогах, наклонениях и т. д. Наша речь осмысленна, значит, не всякое слово может соединяться с другим… Короче говоря, на язык наложены ограничения, начиная с употребительности отдельных букв и кончая сочетаемостью слов по смыслу.

    Подсчитать частоту употребления букв в различных алфавитах мира нетрудно. Выше приводилась величина информации, которую несет одна буква различных языков мира. Но если учитывать, что буквы имеют разную вероятность появления в тексте, то эта величина будет иной. Причем даже в языках, которые пользуются одним и тем же латинским алфавитом. В немецком она равна 4,1 бита, в английском — 4,03 бита, в испанском — 3,98 бита, во французском — 3,96 бита (исходная величина для всех них была, как вы помните, 4,76 бита). Для русского языка величина информации, которую несет одна буква, сократилась до 4,35 бита, для самоанского — до 3,4 бита.

    Но это — лишь первое приближение. Ведь различные вероятности имеют не только отдельные буквы, но и сочетания двух, трех и т. д. букв (в русском языке, например, невозможно сочетание гласная плюс мягкий знак и другие подобные сочетания). Если учесть вероятности двухбуквенных сочетаний, то величина информации, которую несет одна буква русского алфавита, будет равна 3,52 бита, английского — 3,32 бита, французского— 3,17 бита, а самоанского — 2,68 бита. Учет вероятностей трехбуквенных сочетаний для русского алфавита дает величину в 3,01 бита, для английского — 3,1 бита, для французского — 2,83 бита.

    Вы, вероятно, заметили, что по мере того, как мы учитываем все более и более «дальние» связи между буквами, уменьшается количество информации на одну букву и соответственно увеличивается избыточность языка. Возможно, вы заметили и другое: одновременно происходит сближение величины информации в языках, пользующихся различными алфавитами, по мере того, как мы все точнее и точнее описываем наш код-язык.

    Действительно, когда была определена величина информации, приходящаяся на одну букву осмысленного текста в разных языках мира, она оказалась примерно одинаковой.

    Методом отгадывания

    Каким образом удалось определить эту величину? Ведь учет даже трехбуквенных сочетаний, частоты их „употребления в текстах того или иного языка требует работы огромного объема. Между тем статистические связи между буквами, конечно, не ограничиваются триграммами, учетом частот всех этих тся, сть, щий и т. п. Надо знать частоты сочетаний четырех, пяти и более букв.

    Однако на этом пути мы заходим в тупик. Число возможных комбинаций из девяти букв, например, измеряется триллионами. Сколько же текстов мы должны исследовать, чтобы получить достоверную статистику! А ведь и девять букв — не предел. Мы пишем и говорим предложениями, значит, в пределах этого предложения будут существовать статистические связи между буквами, задаваемые лексикой, грамматикой, синтаксисом. Длина же предложения измеряется десятками букв.

    Задача, казалось бы, неразрешимая… Однако Клод Шеннон, одним из первых занявшийся изучением языка как кода, предложил остроумный способ решения этой задачи с помощью так называемого метода отгадывания. Метод этот был усовершенствован крупнейшим математиком нашей страны А. Н. Колмогоровым. С помощью этого метода была определена величина информации, приходящаяся на одну букву русского, английского, французского, польского, румынского, азербайджанского и других языков мира. (Первоначально опыты проводились в МГУ, а затем были продолжены ленинградским лингвистом Р. Г. Пиотровским, описавшим их в книге «Информационные измерения языка».)

    Мы уже говорили о том, что информация — это то, что снимает неопределенность, уничтожает незнание… Где существует неопределенность, которую снимают буквы того или иного языка? Разумеется, в голове читателя осмысленного текста на этом языке. Вот этого-то читателя и надо использовать в качестве своеобразного измерителя величины информации, которую несет одна буква алфавита.

    На одном полюсе будет человек, который не знает языка. Для него все буквы равновероятны, избыточность алфавита равна нулю, и один знак несет максимальную информацию кода (и никакой осмысленной информации не дает!). На другом полюсе—носитель языка, превосходно знающий его, интуитивно чувствующий вероятность появления того или иного слова в тексте. Такому человеку дается определенный текст, он прочитывает несколько страниц, вникает в стиль, сюжет, манеру повествования. Затем текст закрывается, и далее начинается процедура отгадывания. Предлагается найти продолжение этого текста: какая буква должна появиться?

    Например, в опытах Пиотровского предлагался отрывок из статьи, опубликованной в газете «Известия»: «И вот, приехав в тот город, где друг мой в свое время справлял свадьбу, я встретил его жену и сына, который учится уже в пятом классе. И сын его меня расспрашивает, правда ли, что я служил с его отцом, на каких кораблях плавали, где бывали. Я отвечаю на эти как будто нехитрые на первый взгляд…»

    Дальше текст закрывался и предлагалось угадать букву, которая должна последовать. Отгадчик мог отказаться от ответа (в самом деле, мало ли какое слово может последовать после слов «на первый взгляд») или мог предложить какую-либо букву (например, в, считая, что следующим словом будет вопросы). Вслед за тем отгадчику называлась эта буква (в данном случае ею была буква р). Процедура вновь повторялась, причем отгадчик мог называть предполагаемую букву с малой или большой степенью уверенности, назвать две возможные в данном контексте буквы, имеющие, по его мнению, равную вероятность, или же отказаться от угадывания (в нашем примере требовалось угадать слово ребячьи — угадывание его шло безошибочно, когда известны стали три первые буквы; вероятно, столь же нетрудно угадать и дальнейшее продолжение — слово вопросы).

    Полученные результаты обрабатывались математически. В итоге можно было получить величину информации, приходящуюся на одну букву осмысленного русского текста. Опыты, проведенные в МГУ, показали, что для классической русской прозы (отгадывались «Детские годы Багрова-внука» Аксакова и «Литературные вечера» Гончарова) она равна примерно одному биту. Сходную величину дали и опыты Р. Г. Пиотровского. Если сравнить эту величину в пятью «исходными» битами, мы увидим, что избыточность литературного русского языка классической прозы равна восьмидесяти процентам. Иными словами, четыре из пяти букв — «лишние»!

    В пределах семидесяти-восьмидесяти процентов оказалась величина избыточности и для английского, французского, румынского, польского, азербайджанского, казахского языков. Весьма вероятно, что и во всех других языках мира избыточность, которую называют еще своеобразным запасом прочности языка, находится в этих пределах. Если бы в языке не было избыточности, то любое сочетание кодовых знаков, букв, образовало бы осмысленное слово, и тогда почти невозможно было бы исправить ошибку в написании. Не существовало бы и правил грамматики, и сочетаний смыслов слов… Так что избыточность это не излишество, не показатель несовершенства языка по сравнению с техническими кодами, а его важное и нужное свойство, которое возникло многие тысячи лет назад, но лишь сейчас начинает нами осознаваться благодаря теории информации.

    Биты, стили, «подъязыки»

    Во всяком ли русском тексте четыре пятых букв — «лишние»? Нет, не во всяком. Вспомните телеграммы: в текстах телеграмм мы стараемся уменьшить избыточность языка, опускаем предлоги, глагольные связки и т. п. Однако эта экономия имеет свой предел, иначе получатель нашей телеграммы не поймет текст. Ленинградские исследователи О. Л. Смирнов и А. В. Екимова, используя метод отгадывания, попробовали определить величину информации, приходящуюся на одну букву «телеграфного языка» (или если применять лингвистическую терминологию, подъязыка телеграмм). Для этого были взяты телеграфные тексты общим объемом в пятнадцать тысяч букв. Оказалось, что величина информации почти в полтора раза превышает ту, что несет одна буква литературного русского языка!

    На другом полюсе находятся деловые тексты. Величина избыточности здесь, в отличие от телеграмм, наоборот, завышается для большей надежности. Деловые тексты имеют стандартные обороты, словосочетания, синтаксические конструкции. Да и содержание их также вращается в строго заданной сфере — будь это химия, геология, метеорологическая сводка или бухгалтерский отчет. Так, например, опыты по угадыванию специального текста — документации финансового отдела одного из рудоуправлений Донецкой области — показали, что величина избыточности здесь доходит до девяноста процентов.

    Правда, девять из десяти букв текста документации угадывали только специалисты, хорошо знакомые с бухгалтерским делом, имевшие опыт работы с подобного рода текстами изо дня в день. Когда же в эксперименте приняли участие специалисты, знакомые с текстом в меньшей степени, они смогли угадать не девять, а восемь букв из каждых десяти (то есть избыточность равна не девяноста, а восьмидесяти процентам). А неспециалисты могли угадать лишь четыре — шесть букв из каждых десяти букв этого бухгалтерского текста, в котором встречалось много обособленных слов, сокращений, стандартных формулировок, понятных лишь знатокам.

    Здесь мы переходим к интереснейшему вопросу, связанному уже не только с языком-кодом, но и тем, как пользуется получаемой информацией человек. Один и тот же текст может содержать разное количество информации в зависимости от того, кто получает эту информацию: насколько владеет языком получатель, каков его прошлый опыт, какова его психологическая настройка и т. п. Иными словами, от информации объективной мы переходим к информации субъективной.

    Работы в этом направлении только-только начинаются. С помощью теории информации делаются попытки выразить в числах различные аспекты деятельности человека, которые казались прежде чисто субъективными, неподвластными мере и числу. Например, восприятие, понимание, обучение, запоминание, принятие решений и многие другие психические процессы.

    Причем делается это уже не в стиле бандвагона от науки, о котором иронично писал Шеннон, а на основании детальных и серьезных исследований. На первых этапах терминами, взятыми из арсенала теории информации, назывались явления, норой давным-давно известные специалистам в данной области, лишь получавшие модное наименование. Ныне речь идет о точных мерах, не об «информации вообще», которую перерабатывает мозг, а о величине, выраженной в битах, определенной по формуле Шеннона.

    Идеи и методы теории информации оказались плодотворными не только в языкознании и психологии, но и в биологии. Они позволили биохимикам расшифровать сложнейший код, посредством которого передается наследственная информация. Находят применение эти методы и в изучении искусства, прежде всего поэтического. Ведь материалом для поэта служит язык со всеми его статистическими закономерностями.

    Формулы стиха

    Первые исследования русского стиха методами математики были проведены в начале нашего века. В 1910 году известный поэт и теоретик Андрей Белый опубликовал свои работы, посвященные статистическому анализу четырехстопного ямба. В двадцатые годы математику в стиховедении успешно применяли профессиональные литературоведы Г. Шенгели, В. Чудовский, Б. Ярхо и особенно Б. Томашевский.

    Новый этап начался в 1960 году, когда идеи теории информации и кибернетики начали применяться в изучении стиха. Во главе этого направления стал А. Н. Колмогоров. В настоящее время над математическим анализом стиха работают как профессиональные стиховеды и лингвисты, так и математики. Используя богатый опыт русских стиховедов, «стихометрам» удалось внести в поэтику математические характеристики, на основании которых можно точно судить о богатстве и своеобразии ритмики различных русских и советских поэтов. Не так давно вышла в свет монография М. Л. Гаспарова «Современный русский стих», где на основании статистических подсчетов дан подробный анализ таких современных размеров, как дольник, тактовик, акцептный стих, основоположником которого считается Маяковский.

    Делаются попытки применить математику в изучении более «высокого этажа», чем ритмика, — рифмы и звуковой инструментовки стиха. И, что самое интересное, начинают ставиться вопросы, в традиционном литературоведении даже не возникавшие. Например, об информационной «емкости» стиха (тех, кто интересуется «стихометрией» отошлем к книге Гаспарова, вышедшей в 1974 году в издательстве «Наука», а также к статьям, публиковавшимся в журнале «Вопросы языкознания», и брошюре автора этой книги «Математика и поэзия», выпущенной издательством «Знание» в 1962 году).

    Речь подчиняется определенным статистическим закономерностям. Поэзия накладывает на язык еще ряд ограничений: требования ритмики, рифмовки, звуковой инструментовки и т. д. Подсчеты показывают, что современный стих более «легок», чем классический, в отношении ритмических требований. Вероятность случайного возникновения в обычной речи строки четырехстопного ямба равна примерно трем сотым — в последовательности из ста русских слов автоматически может образоваться в среднем три строки четырехстопного ямба. Вероятность случайного образования современного че-тырехдольника (которым написаны «У самого моря» Ахматовой, «Люблю» Маяковского, «Февраль» Багрицкого, «Победитель» Симонова, пьесы В. Гусева и многие другие произведения) равна двум десятым — уже не три, а двадцать строк может автоматически образоваться в последовательности из ста русских слов. Вероятность же образования «акцентного», четырехударного стиха равна единице, ибо любая последовательность из четырех русских слов может служить строкой этого стиха, безразличного к числу безударных слогов в промежутке между ударными.

    Но раскрепостив стих по ритму, сделав его «легче» для языка, современное стихосложение налагает более строгие ограничения по рифме. «Грамматические» рифмы (типа стоять — лежать, окном — пером и т. п.) образовать легко. А рифмы этого типа практически не встречаются в современном стихе. Его организует рифма, это по преимуществу рифменный стих — вспомните слова Маяковского о том, какую большую роль в его творчестве играют поиски глубоких и неожиданных рифм. Сняв одни ограничения — ритмические, поэты налагают другие ограничения — в области рифмовки. И все эти ограничения можно выразить на языке точных чисел.

    Сравнение «степени трудности» различных стихотворных размеров логичнее всего проводить, вычисляя информационные «траты» на ритм и рифму, а не просто сопоставляя вероятности их случайного возникновения в прозе (так, в упомянутой выше брошюре «Математика и поэзия» автор ошибочно полагал, что требования классической рифмовки от десяти до ста раз «труднее», чем требования рифмовки современной, а требования ритма соответственно от десяти до ста раз «легче»).

    Затраты информации на образование двух строк четырехстопного ямба равны примерно десяти битам. Затраты на связывание этих ямбических строк классической рифмой равны семи битам.

    Обратимся к современному стиху. Затрата на ритм в четырехдольнике равна пяти битам, то есть в два раза меньше, чем в ямбе. А на рифму? Так как «грамматические» рифмы современными поэтами не употребляются, траты будут большими, чем в классическом стихе — не семь, а восемь бит. Суммируем траты на ритм и рифмы: в классическом четырехстопном ямбе это составит семнадцать бит, в современном четырехдольнике — тринадцать бит.

    Вполне понятно, что у каждой поэтической школы, большого поэта и, быть может, отдельного произведения имеется свое специфическое распределение «трат» информации на ритм, рифму, звуковую выразительность. Однако, несмотря на все эти траты, в распоряжении поэта есть достаточно средств, чтобы выразить свои мысли, чувства, свою «модель мира»… «Поэт может вложить в сообщение из 400 букв (сообщение чисто «цифровой природы», несущее информацию порядка тысячи битов, т. е. количественно ничтожную с точки зрения современной техники), — пишет академик Колмогоров, — целый мир чувств, который справедливо признается не поддающимся формализации в понятиях, и создать с такими скромными средствами «канал связи» непосредственного общения со своими современниками и потомками, раскрывающий, разрывая ограничения пространства и времени, его неповторимую индивидуальность».

    Мы рассказывали о том, как была определена величина информации, которую несет одна буква русского текста. Она равна примерно одному биту, причем меняется в зависимости от того или иного стиля.

    Опыты по определению количества информации, содержащейся в одной букве поэтического текста, показали, что величина эта превосходит величину, которую несет одна буква прозаического текста.

    На первый взгляд это кажется странным. Ведь речь поэта подчиняется правилам ритма, она рифмована и т. п. (и выше мы приводили величины «трат» по этим правилам). Однако поэтический синтаксис более свободен, чем синтаксис прозы. Да и сочетания слов в поэзии более свободны, неожиданны. Кроме того, наша речь позволяет иам выражать мысли многими способами. В обычной практике мы безразличны к этому множеству. Однако в художественной речи люди сознательно используют богатые возможности, которые предоставляет язык. Это означает, что при сохранении главного требования речи — передачи смысла — достигается еще и дополнительное воздействие через ритм, звучание рифм, звуковую инструментовку. То, что в обычном языке «пропадает зря» (например, ритмическое построение фразы, скопление однородных звуков, случайная рифмовка, возникающая порой в нашей прозаической речи), в поэзии находит применение, и благодаря этому художественная речь несет больше информации, чем речь нехудожественная.

    Разумеется, это относится к стихам больших поэтов, умело и творчески использующих возможности, которые предоставляет им родной язык. Когда же мы имеем дело с ремесленными поделками, то здесь величина информации, которую несет одна буква стиха, гораздо меньше той, что несет одна буква прозы. На кафедре теории вероятностей МГУ сопоставили информационную емкость «Поединка» Куприна и весьма скромного по своим поэтическим высотам стихотворения, напечатанного на обороте листка отрывного календаря. Оказалось, что проза в два раза более емка, чем отштампованный по шаблону стих!

    Скорость устной речи

    Поскольку основное средство общения — разговорная речь, то, вероятно, важно знать не только число бит, приходящихся на тот или иной звук, но и скорость передачи информации при разговоре.

    И в нашей стране, и за рубежом было проведено множество исследований, посвященных этой теме. Кодовой единицей для письменного текста является буква. Для устной речи — фонема, своеобразный атом звукового языка (о нем рассказывает очерк «Формулы фонемы»). Опыты по угадыванию фонем, подсчеты частоты их употребления, наконец, анализ спектрограмм фонем и сравнение их с изображениями букв в машинописном тексте — все это позволило определить величину избыточности звукового кода языка. Она оказалась примерно такой же, как и величина избыточности алфавитного кода. Только в зависимости от «подъязыка», от стиля и характера разговора эта избыточность может варьировать в еще больших пределах, чем «запас прочности» письменного текста.

    Возьмем разговор двух друзей, понимающих, как говорится, друг друга с полуслова. В их речи будут умолчания, намеки, пропуски слов и «съедания» отдельных звуков и даже грамматических окончаний (в письменной речи это недопустимо). Вполне понятно, что избыточность такого разговора будет, пожалуй, еще меньше, чем избыточность телеграфного стиля, о котором мы рассказывали.

    А вот другой разговор: диалог между дежурным на аэродроме и пилотом, находящимся в воздухе. Во-первых, этот разговор по радио имеет определенные стандарты. Во-вторых, тематика его ограничена. В-третьих, он происходит в условиях шума, который создает самолет, поэтому приходится повторять нерасслышанные или нечетко услышанные слова и фразы. В-четвертых — и это самое главное, — ошибка в одно слово может стоить жизни пилоту. В итоге избыточность такого разговора равна девяноста шести процентам. Иными словами, из ста слов пилот и диспетчер предпочитают говорить девяносто шесть «лишних», зато это гарантирует им надежность связи и, стало быть, безопасность жизни пилота, ведущего самолет.

    Скорость передачи информации при таком разговоре очень невелика. Она равна примерно двум десятым бита в секунду. Обычная скорость передачи информации при разговоре примерно в двадцать — тридцать раз больше, она равна пяти — шести битам. Но это при нормальном темпе речи. Как известно, этот темп можно значительно увеличить: очень медленная речь почти в пять раз медленней, чем очень быстрая. Сколько же информации за секунду может передать человек при очень быстром разговоре?

    Вот любопытный расчет. Человеческое ухо может воспринять, а человеческий рот произнести чудовищно много различных звуков. Пропускная способность человеческого уха, то есть количество информации, которое может быть передано в единицу времени, равна пятидесяти тысячам бит в секунду (по телефону мы можем передать только тридцать тысяч бит в секунду, он сужает диапазон). Величина эта огромна. Но, конечно, мозг получает не всю звуковую информацию, он ее фильтрует, просеивает сквозь сито фонем.

    Сколько же информации доходит до мозга? Насколько частым является это сито? Оказывается, оно очень частое. Настолько частое, что количество информации уменьшается в тысячу раз: уже не пятьдесят тысяч, а просто пятьдесят бит в секунду получает мозг, воспринимая предельно быструю речь.

    Но и это величина немалая. Опыты показывают, что большее количество информации наш мозг и не в силах обработать сознательно (например, опытная машинистка или пианист передают сигналы со скоростью двадцать пять бит в секунду). Таким образом, скорость передачи информации при предельно быстром разговоре (сорок — пятьдесят бит в секунду) в двести—триста раз превышает скорость передачи информации при разговоре диспетчера с летчиком и в десять раз скорость разговора в нормальном темпе.

    Измерение фонации

    Главная задача письменной речи — передача смысла. В устной речи, кроме смысловой, содержится еще немало «несмысловой» информации: в интонации, громкости, индивидуальных особенностях голоса говорящего и т. д. Иногда же она может даже противоречить информации смысловой. Например, когда мы говорим иронически «Спасибо!» или «Здравствуйте!» Очень часто мы больше доверяем интонации, с которой произносится фраза, чем прямому смыслу слов этой фразы.

    Изучение несмысловой информации важно для техники связи. Ведь при трансляции театральных постановок, музыкальных концертов и т. д. нам нужно передавать как раз эту несмысловую информацию. Да и при передаче чисто деловых текстов по радио интонация, тембр голоса, громкость речи также играют большую роль: вспомним голос Юрия Левитана, когда он читает важное правительственное сообщение.

    Можно ли оценить несмысловую информацию, что содержится в речи? Более двадцати лет назад немецкий специалист по технике связи К. Кюпфмюллер попытался сделать это. Он разбил несмысловую информацию, содержащуюся в устной речи, на три большие группы. Первая — информация, что содержится в интонации, вторая — информация, связанная с индивидуальными особенностями голоса, третья — информация, доставляемая громкостью речи. Сумма этих трех величин давала несмысловую информацию, которая сравнивалась затем с содержащейся в той же речи смысловой информацией. И вот какие результаты были получены при таком сравнении.

    При нормальном разговоре дополнительная, то есть несмысловая информация, что содержится в интонации, громкости, индивидуальных особенностях голоса, не превышает обычно семидесяти пяти процентов от информации смысловой. При очень быстром разговоре она составляет не более чем тридцать процентов от смысловой информации. А при очень медленной беседе — не более ста пятидесяти процентов.

    Чем объясняется такая разница в цифрах? Почему при медленном разговоре несмысловая информация может в полтора раза превышать смысловую, а при быстром — быть в три раза меньше?

    Видимо, потому, что при быстрой речи гораздо труднее следить за всеми оттенками речи. Да и узнать голос человека при этом гораздо труднее. Ведь наш мозг не может одновременно воспринимать всю смысловую и несмысловую информацию, которую несет человеческий голос при быстром разговоре. Главная задача нашей речи — передача смысла. Когда речь становится слишком быстрой, мы поневоле отказываемся воспринимать несмысловую информацию и направляем сознание только на восприятие смысла. А при медленном разговоре мы спокойно можем воспринять все оттенки интонации, индивидуальные особенности голоса и различные его градации по громкости.

    Разумеется, работа Кюпфмюллера была лишь самым первым приближением к тем поистине неисчерпаемым возможностям, которые дает изучение человеческой речи методами теории информации. В последние годы оформилась новая область исследования. Ее предмет — неязыковые средства общения. Называют эту область исследования паралингвистикой. И. пальма первенства принадлежит тут явлению, которое принято называть фонацией.

    Говорят, что древнегреческий философ Сократ высказывал свое мнение о человеке лишь тогда, когда слышал его голос. Арабский ученый Абуль-Фарадж, живший в XIII столетии, полагал, что тот, «кто разговаривает, постепенно снижая голос, — несомненно чем-то глубоко опечален… кто говорит слабым голосом — робок, как ягненок, тот, кто говорит пронзительно и несвязно, — глуп, как коза». А вот что говорит В. П. Морозов в своей книге «Тайны вокальной речи»: «Человек произносит слова. Мы воспринимаем их смысл. Но как много смысла, помимо слов, кроется в самом звуке голоса! Прислушайтесь к звукам речи незнакомого человека… Разве тембр голоса, манера говорить, интонации не расскажут вам многое о его чувствах и характере? Ведь голос бывает теплый и мягкий, грубый и мрачный, испуганный и робкий, ликующий и уверенный, ехидный и вкрадчивый, твердый, живой, торжествующий и еще с тысячью оттенков, выражающих самые разнообразные чувства, настроения человека и даже его мысли».

    Необычайно сложно измерить в битах все эти тысячи оттенков человеческого голоса. А ведь они, вне всякого сомнения, несут информацию и весьма существенную при разговоре. Как-то Британское радио провело эксперимент: в эфире выступило девять чтецов, а слушателям было предложено определить не только возраст и пол этих чтецов, но и профессию. Безошибочно были распознаны актер, судья и священник — голос их имеет профессиональную постановку, причем она разнится у актера, священника и судьи.

    Голос человека обладает тембром, который называют образно колоритом, окраской звука и даже его цветом. По тембру мы легко можем отличить знакомый голос или тип голоса певца. Это — индивидуальное свойство голоса, оно не связано прямо с системой языка (хотя, вне всякого сомнения, тембр речи несет информацию, иначе мы бы не узнавали голоса по тембру). Однако есть в звучащей речи признаки, которые характеризуют язык как систему. Это так называемые тона. Слова в таких языках, называемых тоновыми, различаются не только звуками, но и тоном, с каким они произносятся.

    Тон может быть высоким или низким, восходящим или нисходящим. В некоторых языках, например вьетнамском, число разных тонов доходит до шести. Тоновые языки распространены в Юго-Восточной Азии, в Западной Африке, системы тонов имеет китайский язык, на котором существует древнейшая письменность, и бесписьменные наречия бушменов. В тех же языках, где системы тонов нет, существует интонация. И она, как правило, тоже связана не только с речью конкретного человека, но и системой языка.

    Например, во многих языках, в том числе русском, большую роль играет логическое ударение. С его помощью мы выделяем слово, которое хотим подчеркнуть или сместить смысловой акцент, переместить члены предложения, как бы перегруппировать смысл фразы.

    Возьмем простейшую фразу: «Я еду в Москву». У нее может быть разный смысл, в зависимости от того, на какое слово мы поставим логическое ударение; именно я (а не ты) еду в Москву; я еду в Москву, а не лечу самолетом; я еду в Москву, хотя собирался в Киев…

    Английский связист Дж. Берри сделал попытку вычислить количество информации, которое несут такие логические ударения в английском языке. Он проанализировал магнитофонные записи типичных телефонных разговоров. Выяснилось, что ударение чаще всего падает на наиболее редкие слова. Применив формулу Шеннона и взяв данные частотных словарей, французский ученый Б. Мандельброт вычислил, что средняя величина информации, которую мы получаем от логического ^ударения, близка 0,65 бита на слово.

    Но ведь это — лишь один из компонентов, связанных с той информацией, которую несет интонация нашей речи. На VII Международном конгрессе по фонетике, состоявшемся в Монреале в 1971 году, французский лингвист Пьер Леон выступил с докладом «Где изучают интонацию?» Ученые выделяют две основные функции интонации — лингвистическую, о которой речь шла выше, и нелингвистическую. Но, говорит Леон, «один и тот же вид информации дается всеми системами, присутствующими одновременно, и любая из них может преобладать над другой».

    С помощью интонации человек может выражать свое внутреннее состояние сознательно или непроизвольно. Интонация позволяет чтецам и актерам передавать тончайшие оттенки смысла слов и отдельных фраз. Интонация играет большую роль в грамматическом оформлении речи (логическое ударение, завершенность, фразовое ударение и т. д.). Интонация характеризует определенные стили речи и языка: недаром мы говорим об ораторской, снобистской, фамильярной, изысканной, казенной, дружеской интонации. Интонация выражает наши эмоции — радость, страх, грусть, гнев…

    Пьер Леон экспериментально установил, что для выражения грусти служат следующие признаки, выраженные в терминах акустики: узкий мелодический интервал; ровный мелодический контур; медленный темп; слабая интенсивность. Для выражения гнева интенсивность будет не слабой, а сильной и т. д. Словом, ученые начинают с помощью современной акустической техники выявлять параметры, по которым передается интонационная информация.

    Интуитивно же мы все прекрасно воспринимаем эту информацию. В одном из экспериментов фразу, произнесенную с определенной интонацией, пятьдесят восемь человек из ста опознали. как выражение сомнения, а сорок восемь — как иронию. Когда же эта фраза была произнесена со вздохом, ее единогласно признали выражением грусти.

    Универсальный код

    Мы могли бы очень долго рассказывать об интонации, о чудесах, которые творят с ее помощью актеры и чтецы, об удивительном мире звучащей речи. Но об этом достаточно много написано и в популярной литературе, и в научных трудах, и в мемуарах (прочитайте, например, «Мою жизнь в искусстве» Станиславского, и вы найдете там десятки самых ярких примеров артистической фонации). Наша цель была другой: показать, насколько сложно и трудно измерить информацию, которую несет наша разговорная речь, насколько еще грубы и прикидочны оценки этой информации в битах.

    А ведь это еще далеко не все сложности, которые возникают при описании языка как кода. «В настоящее время едва ли можно мыслить себе лингвистическое исследование без учета двух противоположных процедур: устранения избыточности и использования избыточности», — так говорил профессор Р. О. Якобсон, подводя итоги IX Международного конгресса лингвистов.

    При разговоре мы ориентируемся на контекст, на собеседника, на ситуацию, мы пользуемся не только интонацией, но и жестами, телодвижениями, мимикой, сопровождающими нашу речь. «Дай мне!» — говорим мы, указывая пальцем на предмет, не называя его. «Это?»— спрашивает собеседник, протягивая соседний предмет. «Нет, это», — отвечаем мы, указывая на нужный. В разговоре, казалось бы, опущено самое важное — наименование предмета. Тем не менее мы понимаем друг друга и передаем нужную информацию.

    В экстренных случаях мы сокращаем нашу речь до предела, ограничиваемся одним-единственным словом вместо фразы, сказав, однако, все, что требовалось в данной ситуации. Вспомните восклицания вроде «Тревога!», «Пожар!», «Вор!», «Сюда» и т. п. В любом другом коде это было бы невозможно.

    Для описания грамматики любого человеческого языка требуется объемистый том, а то и не один. И, что опять-таки делает язык уникальным кодом, нарушение правил грамматики все-таки позволяет нам понимать друг друга. Иностранец, плохо владеющий русским языком, спросит у нас: «Троллибас берет Астория, пожалуйста?» — и мы поймем, что гостю Ленинграда надо проехать к гостинице «Астория». Попробуйте-ка нарушить правила сочетаний знаков любого другого кода, и вы получите либо бессмыслицу, либо совсем не то, что хотели бы выразить.

    Не менее поразительное свойство языка как кода — это возможность свободно сочетать значения слов. «Все человеческие языки — китайский или аранта, современный английский или неизвестный язык кроманьонца — являются по определению семантическими кодами — условными моделями, зрительными или словесными, представляющими заранее согласованные между членами коллектива значения», — так американские ученые Дж. Перри и А. Кент, создатели «семантического кода» для электронных вычислительных машин, характеризуют язык человека.

    Но эта характеристика не совсем верна. Во-первых, никто никогда не договаривался — ни китаец с австралийцем аранта, ни англичанин с кроманьонцем, — что одно слово будет значить то-то, а другое то-то. Да и на каком, собственно говоря, языке они должны были договариваться о значениях слов? Во-вторых, в отличие от семантических кодов, предназначенных для ЭВМ, сочетания смыслов в нашем языке не подчиняются строго определенным правилам. Иначе мы не могли бы сказать ничего принципиально нового ни в жизни, ни в науке, ни в искусстве.

    Вспоминается такой курьез. На одной из конференций по лингвистике приводились образцы фраз, правильных грамматически, но не имеющих смысла. Однако для каждой из этих фраз удавалось найти контекст, в котором она становилась осмысленной! Даже для классической фразы «Идея яростно спит», попавшей во все работы по современной лингвистике как образец бессмысленной, но грамматически правильной.

    Доктор филологических наук И. И. Ревзин предложил сделать фразу первой строкой четверостишия:

    Идея яростно спит,
    Ворочается во сне…
    Идея в висках стучит,
    Нашептывая мне.

    И, казалось бы, бессмысленная фраза сразу же становится осмысленной в контексте четверостишия. Шутки ради добавим, что фразу эту можно осмыслить и не только с помощью поэзии. Если «Идею» считать женским именем (а такие имена давались многим девочкам в двадцатых — тридцатых годах), то «Идея яростно спит» будет означать, что девушка по имени Идея спит, тяжело и глубоко дыша, разметавшись на подушках, — словом, «яростно».

    Таким образом, ни в грамматике, ни в семантике языка нет таких строгих ограничений, как в остальных кодах, которыми пользуется ученый, инженер, телеграфист и т. д. Нет правил без исключений — таков наш язык. Между тем в других кодах правила строги и однозначны, исключений они не признают — на то они и коды!

    В языке, в отличие от кодов, один и тот же смысл может быть выражен различными словами или фразами.

    Одно и то же слово может иметь несколько смыслов. Слово может иметь антоним, своего антипода по смыслу. Все это обогащает язык, делает его гибким, живым, выразительным. Кстати сказать, в одном из фантастических романов описывается диктатура, типа фашистской, лидеры которой вводят новый язык. На языке этом нельзя сказать ничего такого, что противоречило бы догмам. Синонимы и даже антонимы устраняются: к чему иметь слово плохо, когда можно сказать нехорошо? Устраняются и прилагательные типа прекрасно, восхитительно, великолепно — их заменяют обороты очень хорошо и очень-очень хорошо… Человеческий язык переделывается в технический код для того, чтобы превратить людей в послушных диктатуре рабов-роботов.

    Почти любое слово имеет несколько значений. И, как считает академик Л. В. Щерба, «в нашем повседневном употреблении мы скатываемся на формальную точку зрения, придавая слову слово значение «фонетического слова»… Это, в сущности говоря… даже просто типографская точка зрения. На самом деле мы имеем всегда столько слов, сколько данное фактическое слово имеет значений (так и печаталось, между прочим, в старых словарях: заглавное слово повторялось столько раз, сколько у него было значений)».

    Словарь омонимов русского языка содержит несколько тысяч слов. Загляните, однако, в любой толковый словарь нашего языка (да и любого другого), и вы увидите, что каждая словарная статья дает, как правило, не одно, а два и более значений слова. А ведь омонимия, совпадение знаков по форме, имеющих разное значение, исключается в любом коде — любом, кроме нашего разговорного языка!

    Мы всегда можем в случае необходимости сокращать избыточность. В устной речи, особенно когда мы говорим торопливо, опускаются не только связки и служебные слова, но и многие звуки внутри, в начале или в конце слова. Сан Саныч вместо Александр Александрович, чеэк вместо человек…

    В письменной речи мы пользуемся сокращениями, так называемыми аббревиатурами: НТО, НТР, ВЦСПС, РСФСР и много, много других (существуют даже специальные словари аббревиатур для некоторых языков мира).

    Для технических кодов, разумеется, такие аббревиатуры невозможны хотя бы потому, что сочетания букв, их образующие, с точки зрения обычного языка запрещены. Русский язык не Допускает, чтобы после начального н следовала согласная, как в словах НТО и НТР. Русский язык не допускает стечения пяти согласных подряд, как в словах ВЦСПС или РСФСР. Но это, так сказать, ограничения кода простого. Наш же язык недаром назван в заголовке этого очерка удивительным кодом. Несмотря на все свои правила, он ухитряется эти правила нарушать — и грамматические, и смысловые и, как вы сейчас убедились, фонетические (кстати сказать, не только в аббревиатурах, но и в иноязычных словах и именах, попавших в русский язык, также происходит нарушение кодовых правил: в наименовании народа Сибири нганасаны после н идет согласная; в слове контрстратегия шесть согласных следуют подряд; примеров же собственных имен, нарушающих правила фонетики русского языка, можно привести сколько угодно).

    Еще одна удивительная черта нашего языка — это его способность к саморефлексии. Книга «Звуки и знаки» рассказывает о языке. Написана она также на языке. Об этой книге, повествующей о языке, можно говорить опять-таки на языке. Научные труды лингвистов, о которых рассказывает наша книга, также написаны на языке. И посвящены они анализу языка… Словом, мы можем строить целую иерархию различных уровней. Есть обычный человеческий язык, на котором можно говорить просто, говорить о нем самом, говорить о том, как язык этот говорит о нем самом, и т. д.

    И еще одна иерархия есть в языке, которой не обладает ни один из технических кодов, ни одна из других знаковых систем, что существуют в человеческом обществе. Любой знак системы дорожных указателей, шахматной нотации, азбуки Морзе или морской сигнализации флажками имеет определенное значение. А какое значение имеют звуки или буквы, из которых складываются слова? Никакого! Это не знаки, а только составные части знаков или, как говорят лингвисты, фигуры, из которых строится языковый знак.

    В первом очерке мы приводили слова Ельмслева о том, что в языке с помощью горстки фигур может быть построен легион знаков. Но и эти фигуры имеют сложное строение, свою иерархию. «Атомы речи», фонема, как показывают исследования последних лет, строятся из набора элементарных различительных признаков, своего рода «элементарных частиц» языка. Фонемы, в свою очередь, образуют фигуры более высокого порядка — морфемы, то есть корни слов и служебные частицы, приставки, суффиксы и т. д. Да и слова не являются изолированными и совершенно самостоятельными единицами в отличие от знаков кода. Существуют тысячи словосочетаний вроде «круглый отличник» или «круглый невежа», фразеологизмы и непереводимые буквально на другой язык идиоматические выражения вроде «взять быка за рога», «час от часу не легче», «держи карман шире», «приказал долго жить»… Наш язык — сложнейшая иерархическая система, причем элементы ее в отличие от технических кодов могут выступать на различных уровнях (вспомните пример с римлянами, поспорившими о том, кто скажет самую короткую речь или напишет самый короткий текст!).

    Этот вывод подтверждается и анализом языка методами математической теории информации. Уже первые опыты по угадыванию показали, что информация распределяется в текстах неравномерно, какой бы язык или стиль ни был взят. «Начала слов несут максимумы информации, в то время как последние буквы слов и особенно следующие за ними пробелы оказываются либо мало информативными, либо вообще избыточными, — пишет Р. Г. Пиотровский в книге «Информационные измерения языка». — Квантовый характер распределения статистической информации связан, очевидно, с теми особенностями, которые характеризуют работу головного мозга человека в ходе переработки им лингвистического текста».

    «Квантовое», зернистое строение имеют не только слова, но и словосочетания, да и вообще любые тексты. Связано это также с работой нашего мозга. И с тем, что любой текст состоит из элементарных фнгур, образующих знаки-слова, которые в свою очередь, сочетаются в предложения, а из предложений строятся тексты… Так с помощью психологии, лингвистики, семиотики, математической теории информации начинают проясняться поистине удивительные свойства нашего уникального кода — языка.

    Все системы знаков, которыми мы пользуемся, в сравнении с языком слишком жестки, вспомогательны, условны. В человеческом обществе язык был и остается основным средством передачи информации. И количество этой информации в наши дни начинает измеряться точными мерами, числами, понятными как человеческому, так и «электронному мозгу» вычислительных машин.

    Однако язык способен не только передавать информацию о мире, который нас окружает. Он может и моделировать, своеобразно преломлять этот мир сквозь призму того или иного слова, выражения, текста, наконец, национального языка. И в этом — еще одно уникальное свойство человеческого языка, принципиальное отличие его от сигнализации животных, «языка машин» и любых технических кодов.









    Главная | Контакты | Нашёл ошибку | Прислать материал | Добавить в избранное

    Все материалы представлены для ознакомления и принадлежат их авторам.