Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта — Тревор Кокс

^{36}. По-видимому, когда почти полмиллиона лет назад появился Homo heidelbergensis, все адаптации среднего уха как реакция на вокализации уже были завершены^{37}. Следовательно, речь развивалась, используя преимущества уже существовавшей способности к слуху, а не наоборот^{38}.

Эволюция устной речи более противоречива, чем эволюция слуха. Сегодня споры ведутся в основном о роли неандертальцев, живших в Европе в ледниковый период и вымерших около 35 000 лет назад^{39}. Homo sapiens мигрировал из Африки и распространился по миру около 60 000 лет назад. Поскольку язык существовал еще до того, как Homo sapiens покинул Африку, это означает, что современные люди обладали способностью говорить, еще когда существовали неандертальцы^{40}. Последние явно могли слышать речь. Но могли ли они присоединиться к беседе?

Одни ученые считают, что язык возник недавно, с появлением Homo sapiens, и что именно эта языковая способность дала человеку возможность превзойти остальных доисторических людей^{41}. Другие ученые утверждают, что неандертальцы были умнее, чем принято считать, обладали некоторой способностью к производству речи и скрещивались с нашими предками, а не просто были ими вытеснены. Некоторые идут даже дальше и утверждают, что Homo heidelbergensis, общий предок обоих видов, уже умел говорить. Если это правда, то язык гоминини мог возникнуть сотни тысяч лет назад. Таким образом, эти две соперничающие теории определяют возникновение языка промежутком между 700 000 и 70 000 лет назад — более полумиллиона лет! Какие данные имеются в пользу обеих точек зрения? Может ли наука вообще разрешить эту проблему?

Речевой аппарат человека не особенно отличается от того, как производят звуки другие млекопитающие. Рассмотрим простой гласный звук [э]. Когда этот звук произносится, воздух выходит из легких и проходит через голосовые складки (часто называемые голосовыми связками), которые расположены в гортани. Голосовые связки быстро раскрываются и закрываются, перекрывая путь воздушной струе, выходящей из легких, таким образом создается вибрирующий звук. Скорость, с которой голосовые связки раскрываются и закрываются, определяет высоту голоса. Например, взрослая женщина раскрывает и закрывает голосовые связки в среднем двести раз в секунду, что соответствует частоте 200 Гц (частота мужского голоса ниже, около 110 Гц).

Вибрация голосовых связок далее переходит в голосовой тракт. Так называется воздушное пространство, которое составляют верхняя часть горла, рот и носовые ходы, и именно здесь звук изменяется. Подобно большинству звуков, вибрация голосовых связок происходит как на базовой частоте, так и на обертонах, которые кратны следующим величинам: 400, 600, 800 Гц и т. д. Эти обертоны необходимы для производства речи, потому что именно их относительная сила используется горлом, языком, ртом и носовыми ходами для получения разных гласных звуков. От других приматов человека отличает именно ловкость и скорость, с которой он может изменять голосовой тракт. Познавательные способности дают человеку возможность совершать невероятно быстрые и сложные изменения голосового тракта, скоординированные с изменением дыхания и мускулов, поддерживающих голосовые связки; именно это обеспечивает плавность речи.

Анатомия звука

Создание гласного звука с частотой 200 Гц и первым формантным резонансом 500 Гц^{42}

Голосовой тракт подобен воздушной колонке внутри трубы: он имеет набор частот, при которых воздух внутри громко вибрирует. Это — резонансные частоты, и любые гармоники вибрации голосовой складки, которые совпадают с этими частотами, усиливаются. (Другие гармоники выравниваются не столь успешно и подавляются.) Резонансы голосового тракта называются формантами. Произнесите «ток — так — тень», и вы заметите, как изменяется форма рта при произнесении разных гласных. Мягкое нёбо, язык и губы, которые в совокупности называются артикуляторами, формируют голосовой тракт таким образом, чтобы получить подходящие для каждой гласной форманты.

Голосовой тракт должен обладать большой гибкостью, чтобы изменять форму для произнесения разных гласных звуков. Изображения получены методом ядерного магнитного резонанса^{43}

Можно говорить скучным монотонным голосом и производить членораздельную речь, просто изменяя форманты с помощью артикуляторов. Поскольку высота звука определяется голосовыми связками, их можно заставить колебаться одинаково для каждого слова. Это пригодилось Клинту Иствуду в фильме «Хороший, плохой, злой», где его герой Блондин разговаривает хриплым монотонным голосом^{44}. Как это демонстрирует Иствуд, высота голоса отличается от формантов, которые фильтруют звук и сообщают слушателю, какая из гласных произносится. Еще одна хорошая демонстрация этого явления — поющий синтезатор, который можно услышать на записях хитов, таких как Mr Blue Sky группы ELO или Harder, Better, Faster, Stronger группы Daft Punk. В этом случае используются специальные приемы музыкальной индустрии, и здесь вибрация голосовых связок заменяется музыкальными нотами; в то же время форманты, которые позволяют нам слышать и понимать слова, остаются неизменными[9].

Чтобы лучше понять эволюцию речи, можно сравнить человека с другими видами. Между тем, как производят звуки шимпанзе и как это делают современные люди, имеются два важнейших отличия. Гортань современного человека расположена значительно ниже, чем гортань шимпанзе, у обезьяны вдоль горла располагаются воздушные мешки. Многие исследователи пытались точно определить, когда гортань опустилась, в надежде, что именно это поможет определить момент возникновения речи.

У большинства млекопитающих гортань расположена достаточно высоко, что позволяет дышать через нос и одновременно глотать. Это очень важно и для человеческого детеныша, которому нужно одновременно сосать и дышать. В возрасте от трех месяцев до четырех лет гортань человека опускается и занимает более низкое положение^{45}. У мужчин в период полового созревания гортань опускается еще ниже.

По сравнению с человеком гортань шимпанзе расположена выше, кроме того, у шимпанзе имеются воздушные мешки

Такое низкое расположение гортани жизненно необходимо, поскольку именно это позволяет языку использовать свои возможности: иначе мы не могли бы производить гласные звуки в словах «бал» и «бил». Низкое расположение гортани позволяет языку округляться и двигаться во всех направлениях, обеспечивая быстрые изменения верхней части горла и рта, что необходимо для быстрых и четких изменений формантов во время акта говорения. Если гортань расположена низко, корень языка оттягивается вниз, что позволяет глотке (верхней части горла) изменяться независимо от положения полости рта. Без этого речь была бы более медленной и нечеткой.

В своей книге «Биология и эволюция языка» (The Biology and Evolution of Language) Филип Либерман описывает простой эксперимент, который демонстрирует эффективность речи в передаче информации. Чтобы повторить этот эксперимент, вам понадобится помощь друга. Попросите его очень быстро постукивать карандашом, а сами оценивайте скорость, подсчитывая количество постукиваний за пять секунд. Ваш друг сможет стучать значительно быстрее, чем вы — считать, особенно если он немножко попрактикуется. Самая большая скорость счета составляет около девяти постукиваний в секунду. Но, слушая речь, мы схватываем изменения со скоростью примерно от 20 до 30 звуков в секунду, примерно в три раза быстрее. Произнося, например, слово «кот», мы не произносим каждый звук отдельно ([к] — [о] — [т]), потому что это будет слишком медленно. Вместо этого мы позволяем звукам набегать друг на друга, что дает возможность передавать информацию очень быстро.

Чтобы речь была плавной и членораздельной, оральная и фарингальная трубки должны быть примерно одной длины. Горизонтальное расстояние от губ до задней части ротовой полости должно быть таким же, как расстояние от голосовых связок до мягкого нёба (задней части нёба). В таком случае чрезвычайно подвижный язык может изменять площадь поперечного сечения этих трубок независимо друг от друга. Посмотрите видео МРТ поперечного сечения головы: в покое язык представляет собой круглое пятно. Но как только человек начинает разговаривать, язык быстро трансформируется, принимая различные формы, движется назад и вперед, вверх и вниз, изменяя форму голосового тракта. Попробуйте сказать «вид», а потом «мам» и обратите внимание, как меняется положение языка при производстве гласных звуков. При произнесении слова «вид» язык двигается вверх, ограничивая полость рта, а для «мам» он опускается и расширяет трубку. Гораздо труднее ощутить, как изменяется вертикальная фарингальная трубка. Для «вид» язык движется во рту вперед и открывает фарингальную трубку, но для «мам» он сдвигается назад и ограничивает фарингальную трубку.

Гласный звук в слове «вид» называется гласным сверхвысокого уровня, потому что он играет решающую роль в способности понимать разговор разных людей. У людей голосовые тракты различаются, а это означает, что различаются и частоты формантов. Если вы скажете «бис — бес», различия в частотах гласных очень четкие, и это помогает слушателю догадаться, какие слова произносятся. Но эта разница может быть не такой ясной у разных людей. Когда человек маленького роста говорит «бес», может получиться так, что это будет похоже на то, как человек высокого роста говорит «бис», потому что различия в длинах голосовых трактов создадут схожие частоты первого форманта. Чтобы избежать такой путаницы, слушатель подсознательно оценивает длину голосового тракта говорящего. Когда мы произносим гласную в слове «липа», язык поднимается вверх и как можно дальше вперед. Попробуйте сказать «липа», а потом чуть-чуть продвинуть язык вперед: звук начнет дрожать. Эта гласная сверхвысокого уровня ставит язык в его самое крайнее положение: он не может продвинуться дальше, потому что звук не будет чистым, а именно это позволяет слушателю оценить длину голосового тракта говорящего и таким образом настроить свое восприятие.

Предыдущая Стр. 6 из 53 Следующая

Оглавление