15. Слух и речь

79 мин видео 10 мин чтения MIT
VidDoc
Транскрибировано с помощью VidDoc
AI-транскрибация видео и аудио с точностью 95%
Попробовать бесплатно

Переход к разговору о слухе

Мы переходим от наших различных тем к разговору о слухе сегодня. Давайте начнем с размышлений о том, какие крутые вещи можно делать, просто слушая.

Что можно делать, просто слушая

Просто слушая, вы можете определить сцену, в которой находитесь, и что в ней происходит. Например, вот так. Вы знаете, в какой вы комнате и что примерно происходит, основываясь на этом небольшом звуке.

Вы можете локализовать события, людей и объекты. Закройте глаза. Если вы просто послушаете, как я говорю, это очень наглядно, не так ли? Насколько очевидно, где я нахожусь. Вы знаете, где находится источник звука.

Вы можете распознавать источники звука. Например, такие звуки. Вы знаете, что там произошло. Целое яркое событие развернулось за полторы секунды. Или случайная серия звуков, как эта. Должен быть то ли дождь, то ли снег. Каждый из этих звуков вы мгновенно узнаете, вы точно знаете, что это. Это звуки окружающей среды, вещи, происходящие на улице, речь, то, что говорится, голоса, кто говорит. Если вы не знаете человека, вы знаете, мужчина это или женщина, молодой или старый, почти как по лицам.

Вы можете избирательно сосредоточиться на одном звуке среди других. Например, если бы у вас был маленький скрытый наушник, и вы хотели послушать свой любимый подкаст, вы могли бы слушать его время от времени, а затем вернуться и слушать меня. Вы могли бы просто избирательно выбирать, какой из этих разных аудиовходов слушать.

Эффект коктейльной вечеринки

Мы поговорим подробнее об этой классической проблеме слуха, известной как эффект коктейльной вечеринки. Кажется, его назвали в 50-х, когда коктейльные вечеринки были популярны. Он заключается в том, что когда есть несколько источников звука, например, много говорящих в комнате, вы можете настроиться на один канал, а затем переключиться на другой. Вы можете избирательно уделять внимание одному из многих источников звука, даже несмотря на то, что эти источники звука massively перекрываются друг с другом на входе. Это большая вычислительная задача.

Определение материалов на слух

Вы можете наслаждаться музыкой и определять, из чего сделаны вещи. Закройте глаза, и я буду ронять вещи на стол. Не смотрите. Посмотрим, сможете ли вы сказать, что падает на стол, или хотя бы из чего это сделано.

  • Дерево? Точно.
  • А это что? Из чего это сделано? Да!
  • Отлично.

Я просто уронил эти предметы, которые нашел сегодня утром на своей кухне, и вы смогли сказать, из чего они сделаны! Это удивительно.

Все это, что вы только что сделали, происходит из простейшего возможного сигнала. Это просто звуковое сжатие, проходящее через воздух, и оно говорит вам всю эту богатую информацию о вашем окружении.

Как мы это делаем?

Вопрос в том, как мы это делаем? Как начать думать о том, как работает слух, как вы способны на все это? Мы начинаем с вычислительной теории, рассматривая, каковы входные данные, каковы выходные данные, физику звука. Что было бы необходимо, если бы мы попытались запрограммировать машину, чтобы она принимала эти аудиовходные данные и выдавала результат, который вы только что выдали без каких-либо проблем?

  • Какие сигналы есть в стимуле?
  • Каковы ключевые вычислительные задачи?
  • Что делает эти аспекты слуха сложными?

После того как мы сделаем все это на уровне вычислительной теории, мы можем изучать слух другими способами, например, изучая его поведенчески (что люди могут и не могут делать, что трудно, что менее трудно) и измеряя нейронные реакции.

Что такое звук?

Звук — это просто одномерный сигнал, поступающий в уши. Это действительно очень просто. И из этого вы получаете весь этот богатый опыт. Вопрос в том, что происходит в этом волшебном ящике посередине, который позволяет вам извлекать такого рода информацию из этого действительно простого сигнала?

Звук — это просто набор продольных сжатий и разрежений воздуха, идущих от источника к вашему уху. Эти волны распространяются от источников к уху в виде маленьких волн сжатия, где воздух просто сжимается, и разрежения, где область расширяется.

Существует так называемая шлирен-фотография, которая является способом визуализировать эти сжатия воздуха. Просто сжатия воздуха, идущие от источника к вашим ушам.

Частоты и спектрограммы

Естественные звуки происходят на разных частотах. Один из способов описания звуков — это рассмотрение этих частот. Давайте посмотрим на спектрограммы разных звуков.

  • Свист: в основном одна частота в каждый момент времени. Узкая полоса частот.
  • Тромбон: много разных полос частот, гармоники — параллельные линии, кратные частотам. Это тональные звуки, звуки, у которых есть высота тона.
  • Речь: наборы полос, но в основном вертикальные полосы (согласные). Если замедлиться и растянуть гласные, можно увидеть больше гармоник.

Спектрограмма показывает вам энергию на каждой частоте с течением времени в ответ на естественную речь.

Почему слух сложен?

Есть несколько причин, почему сложно перейти от звукового сигнала к информации.

Проблемы инвариантности

Данный источник звука звучит очень по-разному в разных ситуациях. Если разные люди произносят одно и то же слово, это будет выглядеть очень по-разному на спектрограммах. Стимул на самом деле разный, хотя мы хотим знать только то, какое слово произносится. И наоборот, если один и тот же человек произносит два разных слова, это будет выглядеть очень по-разному.

  • Чтобы распознавать голоса, нам нужна инвариантность голоса по отношению к словам.
  • Чтобы распознавать слова, нам нужна вариативность слов, независимая от голоса.

Нам нужно оценить одинаковость этих стимулов при этих изменениях.

Проблема нескольких источников звука

В нормальных ситуациях в этой комнате довольно тихо. Но во многих ситуациях есть несколько источников звука. Например, музыка и человек, говорящий одновременно. У вас не было проблем с тем, чтобы услышать, что говорит человек, и узнать что-то о поле и возрасте этого человека, даже несмотря на то, что музыка накладывается прямо на нее.

Входные данные складываются вместе, и мозг должен их разделить. Это классическая некорректно поставленная задача. Имея только это, у нас нет способа вернуться к тому, если это все, что у нас есть, потому что есть несколько возможных решений. Это все равно что сказать x + y = 9, теперь найдите x и y.

Всякий раз, когда мы оказываемся в ситуации некорректно поставленной задачи с несколькими возможными решениями, обычный ответ заключается в том, что вам нужно привнести некоторые другие предположения или знания о мире, чтобы ограничить эту задачу и сузить пространство возможных ответов до одного правильного.

Проблема реверберации

Реальные звуки, включая звук моего голоса прямо сейчас, имеют реверберацию. Часть звука идет прямо от источника звука к ушам человека, но большая часть звука рикошетит от стен, прежде чем попасть в уши. Все эти разные пути звука накладываются друг на друга в ушах, прибывая в разное время, создавая ужасный беспорядок во входном звуке.

Вместо чистого прямого входного сигнала у вас есть входной сигнал плюс слегка задержанный входной сигнал, более задержанный входной сигнал, все наложенные друг на друга.

Пример из зрения: предположим, у нас есть фотография моего лица, и вам нужно его узнать. Теперь предположим, что мы взяли эту фотографию, сдвинули ее на 10%, наложили и сложили. А затем сдвинули еще... Эти вещи наложены друг на друга, так же как два говорящих одновременно. У вас есть реальная проблема с возвратом назад.

Сухая речь (без реверберации): "Они съели лимонный пирог. Отец забыл хлеб." Речь с большой реверберацией: вы все еще можете ее слышать, потому что ваша слуховая система знает, как решить эту проблему. На спектрограмме сухой речи вы видите красивые вертикальные вещи, а с реверберацией — размытый беспорядок. Тем не менее, вы можете слышать это нормально.

Более того, реверберация также говорит нам что-то о месте, в котором мы находимся, если мы знаем, как это извлечь.

Исследование реверберации

Есть красивая статья, которую Джош Макдермотт опубликовал несколько лет назад. Они хотели охарактеризовать, что именно такое реверберация. Реверберация будет различаться для разных звуков. Вы можете многое сказать о пространстве, в котором находитесь, потому что свойства реверберации разные: расстояние до стен разное, отражающие свойства разные.

Вы можете охарактеризовать природу реверберации в любом одном месте, издав мгновенный короткий щелчок в этой среде и записав то, что происходит после этого. Затем вы можете собрать все реверберационные отражения этого звука от стен.

Они обошли множество естественных мест, воспроизвели щелчок и записали его. Затем они сделали это в целом ряде мест.

Импульсная характеристика для места определяется путем выполнения этого щелчка и записи. Она показывает вам все эхо, которые происходят в этом месте, их различные временные задержки, различные интенсивности и частотную зависимость.

То, что приходит к вашему уху — это в основном источник, умноженный на импульсную характеристику. Вам дано это, и вы должны вернуться назад и решить для источника.

Аналогия с цветовым зрением: В цветовом зрении мы хотим знать цвет объекта, но все, что у нас есть, это свет, попадающий в наши глаза от этого пятна. Свет является функцией не только свойства объекта, но и того света, который случайно падает на него. В цветовом зрении у нас есть набор трюков, чтобы попытаться решить эту проблему и восстановить фактические свойства объекта. Это чрезвычайно аналогично слуху: мы пытаемся решить, что такое источник звука, и должны иметь дело с проблемой, которая полностью запутана с реверберацией комнаты.

Трейер и Макдермотт измерили импульсные характеристики в естественных средах и обнаружили, что есть некоторые систематические свойства реверберации, связанные с функцией затухания как функцией частоты. Эти систематические свойства сохраняются в разных средах.

Затем они показали, что ваша слуховая система знает о том, как работает реверберация. Если вы придумаете другое, нефизическое свойство реверберации и воспроизведете его людям, это будет звучать странно, и они не смогут восстановить источник звука. Это означает, что в вашу слуховую систему встроено знание физики звука и особенностей функции затухания реверберации, так что вы можете использовать это знание, чтобы отменить эту проблему и решить для источника звука.

Мы решаем некорректно поставленную задачу восстановления источника звука, несмотря на реверберацию, встраивая знание физики мира в нашу слуховую систему и используя его для ограничения некорректно поставленной задачи.

Резюме: почему слух вычислительно сложен?

  1. Проблемы инвариантности: оценка одинаковости голоса при разных словах, оценка одинаковости слова при разных голосах.
  2. Разделение нескольких источников звука, которые поступают одновременно и massively наложены во входном сигнале — проблема коктейльной вечеринки (некорректно поставленная задача).
  3. Проблема реверберации.

Восприятие речи

Давайте поговорим об одном из самых интересных примеров слуха — о восприятии речи.

Как выглядят речевые звуки?

Вот спектрограммы человека, говорящего hot, hat, hit и head. Это один и тот же человек, произносящий эти четыре слова, человек с высоким голосом. А вот человек с более низким голосом, произносящий то же самое.

  • Гласные имеют регулярно расположенные гармоники (красные полосы). Голоса тональны. Каждая из этих вещей со сложенными гармониками является гласным звуком. У него есть высота тона, и он длится в течение некоторого времени.
  • Согласные — это более мутные вещи, которые происходят до и после. Согласные не имеют высоты тона.

Форманта — это полоса частот, которая присутствует во всех речевых звуках. Некоторые из этих частотных полос особенно диагностичны для разных гласных.

Пример с гласными A, E, I, O, U: энергия перемещается для разных гласных.

Согласные — это полосы энергии, которые идут вертикально, а гласные — это большие длинные гармонические структуры, которые простираются между ними.

Пример с ba и pa: разница между ba и pa связана с интервалом между согласной (первая вертикальная вещь) и гласной (горизонтальная часть). Pa начинается раньше, а ba немного задерживается. Эта крошечная задержка в 65 миллисекунд — то, как вы различаете эту разницу.

Демонстрация эффекта коктейльной вечеринки

Доброволец читает текст, а лектор одновременно декламирует что-то другое. Когда оба говорят одновременно, становится мутно. Это показывает, насколько это сложно и как есть вариативность между говорящими, произносящими одно и то же, и очень тонкие различия между звуками, которые звучат для нас совершенно по-разному.

Нейронные основы восприятия речи

Существует много разных видов фонем. Любое из взаимодействий между этими объектами происходит на электродах. Ключевой график показывает электрод E1 у одного пациента. Электрод обычно имеет размер два миллиметра с каждой стороны и, вероятно, регистрирует активность нескольких десятков тысяч нейронов. Это на один-два порядка лучше, чем воксель при функциональной МРТ, но всё равно усреднение по множеству нейронов.

Обратите внимание, насколько точными, специфичными и удивительно разделёнными являются реакции этих электродов. Разделение по контуру высоты тона, или идентичности говорящего, или тому, какое предложение произносилось. Похоже, что эти вещи пространственно разделены в мозге на мелком уровне. Увидели бы вы это с помощью функциональной МРТ — возможно, нет, так как у нас может не хватить разрешения.

15. Слух и речь
Оригинальное видео
15. Слух и речь
MIT
Смотреть на YouTube