Мы переходим от наших различных тем к разговору о слухе сегодня. Давайте начнем с размышлений о том, какие крутые вещи можно делать, просто слушая.
Просто слушая, вы можете определить сцену, в которой находитесь, и что в ней происходит. Например, вот так. Вы знаете, в какой вы комнате и что примерно происходит, основываясь на этом небольшом звуке.
Вы можете локализовать события, людей и объекты. Закройте глаза. Если вы просто послушаете, как я говорю, это очень наглядно, не так ли? Насколько очевидно, где я нахожусь. Вы знаете, где находится источник звука.
Вы можете распознавать источники звука. Например, такие звуки. Вы знаете, что там произошло. Целое яркое событие развернулось за полторы секунды. Или случайная серия звуков, как эта. Должен быть то ли дождь, то ли снег. Каждый из этих звуков вы мгновенно узнаете, вы точно знаете, что это. Это звуки окружающей среды, вещи, происходящие на улице, речь, то, что говорится, голоса, кто говорит. Если вы не знаете человека, вы знаете, мужчина это или женщина, молодой или старый, почти как по лицам.
Вы можете избирательно сосредоточиться на одном звуке среди других. Например, если бы у вас был маленький скрытый наушник, и вы хотели послушать свой любимый подкаст, вы могли бы слушать его время от времени, а затем вернуться и слушать меня. Вы могли бы просто избирательно выбирать, какой из этих разных аудиовходов слушать.
Мы поговорим подробнее об этой классической проблеме слуха, известной как эффект коктейльной вечеринки. Кажется, его назвали в 50-х, когда коктейльные вечеринки были популярны. Он заключается в том, что когда есть несколько источников звука, например, много говорящих в комнате, вы можете настроиться на один канал, а затем переключиться на другой. Вы можете избирательно уделять внимание одному из многих источников звука, даже несмотря на то, что эти источники звука massively перекрываются друг с другом на входе. Это большая вычислительная задача.
Вы можете наслаждаться музыкой и определять, из чего сделаны вещи. Закройте глаза, и я буду ронять вещи на стол. Не смотрите. Посмотрим, сможете ли вы сказать, что падает на стол, или хотя бы из чего это сделано.
Я просто уронил эти предметы, которые нашел сегодня утром на своей кухне, и вы смогли сказать, из чего они сделаны! Это удивительно.
Все это, что вы только что сделали, происходит из простейшего возможного сигнала. Это просто звуковое сжатие, проходящее через воздух, и оно говорит вам всю эту богатую информацию о вашем окружении.
Вопрос в том, как мы это делаем? Как начать думать о том, как работает слух, как вы способны на все это? Мы начинаем с вычислительной теории, рассматривая, каковы входные данные, каковы выходные данные, физику звука. Что было бы необходимо, если бы мы попытались запрограммировать машину, чтобы она принимала эти аудиовходные данные и выдавала результат, который вы только что выдали без каких-либо проблем?
После того как мы сделаем все это на уровне вычислительной теории, мы можем изучать слух другими способами, например, изучая его поведенчески (что люди могут и не могут делать, что трудно, что менее трудно) и измеряя нейронные реакции.
Звук — это просто одномерный сигнал, поступающий в уши. Это действительно очень просто. И из этого вы получаете весь этот богатый опыт. Вопрос в том, что происходит в этом волшебном ящике посередине, который позволяет вам извлекать такого рода информацию из этого действительно простого сигнала?
Звук — это просто набор продольных сжатий и разрежений воздуха, идущих от источника к вашему уху. Эти волны распространяются от источников к уху в виде маленьких волн сжатия, где воздух просто сжимается, и разрежения, где область расширяется.
Существует так называемая шлирен-фотография, которая является способом визуализировать эти сжатия воздуха. Просто сжатия воздуха, идущие от источника к вашим ушам.
Естественные звуки происходят на разных частотах. Один из способов описания звуков — это рассмотрение этих частот. Давайте посмотрим на спектрограммы разных звуков.
Спектрограмма показывает вам энергию на каждой частоте с течением времени в ответ на естественную речь.
Есть несколько причин, почему сложно перейти от звукового сигнала к информации.
Данный источник звука звучит очень по-разному в разных ситуациях. Если разные люди произносят одно и то же слово, это будет выглядеть очень по-разному на спектрограммах. Стимул на самом деле разный, хотя мы хотим знать только то, какое слово произносится. И наоборот, если один и тот же человек произносит два разных слова, это будет выглядеть очень по-разному.
Нам нужно оценить одинаковость этих стимулов при этих изменениях.
В нормальных ситуациях в этой комнате довольно тихо. Но во многих ситуациях есть несколько источников звука. Например, музыка и человек, говорящий одновременно. У вас не было проблем с тем, чтобы услышать, что говорит человек, и узнать что-то о поле и возрасте этого человека, даже несмотря на то, что музыка накладывается прямо на нее.
Входные данные складываются вместе, и мозг должен их разделить. Это классическая некорректно поставленная задача. Имея только это, у нас нет способа вернуться к тому, если это все, что у нас есть, потому что есть несколько возможных решений. Это все равно что сказать x + y = 9, теперь найдите x и y.
Всякий раз, когда мы оказываемся в ситуации некорректно поставленной задачи с несколькими возможными решениями, обычный ответ заключается в том, что вам нужно привнести некоторые другие предположения или знания о мире, чтобы ограничить эту задачу и сузить пространство возможных ответов до одного правильного.
Реальные звуки, включая звук моего голоса прямо сейчас, имеют реверберацию. Часть звука идет прямо от источника звука к ушам человека, но большая часть звука рикошетит от стен, прежде чем попасть в уши. Все эти разные пути звука накладываются друг на друга в ушах, прибывая в разное время, создавая ужасный беспорядок во входном звуке.
Вместо чистого прямого входного сигнала у вас есть входной сигнал плюс слегка задержанный входной сигнал, более задержанный входной сигнал, все наложенные друг на друга.
Пример из зрения: предположим, у нас есть фотография моего лица, и вам нужно его узнать. Теперь предположим, что мы взяли эту фотографию, сдвинули ее на 10%, наложили и сложили. А затем сдвинули еще... Эти вещи наложены друг на друга, так же как два говорящих одновременно. У вас есть реальная проблема с возвратом назад.
Сухая речь (без реверберации): "Они съели лимонный пирог. Отец забыл хлеб." Речь с большой реверберацией: вы все еще можете ее слышать, потому что ваша слуховая система знает, как решить эту проблему. На спектрограмме сухой речи вы видите красивые вертикальные вещи, а с реверберацией — размытый беспорядок. Тем не менее, вы можете слышать это нормально.
Более того, реверберация также говорит нам что-то о месте, в котором мы находимся, если мы знаем, как это извлечь.
Есть красивая статья, которую Джош Макдермотт опубликовал несколько лет назад. Они хотели охарактеризовать, что именно такое реверберация. Реверберация будет различаться для разных звуков. Вы можете многое сказать о пространстве, в котором находитесь, потому что свойства реверберации разные: расстояние до стен разное, отражающие свойства разные.
Вы можете охарактеризовать природу реверберации в любом одном месте, издав мгновенный короткий щелчок в этой среде и записав то, что происходит после этого. Затем вы можете собрать все реверберационные отражения этого звука от стен.
Они обошли множество естественных мест, воспроизвели щелчок и записали его. Затем они сделали это в целом ряде мест.
Импульсная характеристика для места определяется путем выполнения этого щелчка и записи. Она показывает вам все эхо, которые происходят в этом месте, их различные временные задержки, различные интенсивности и частотную зависимость.
То, что приходит к вашему уху — это в основном источник, умноженный на импульсную характеристику. Вам дано это, и вы должны вернуться назад и решить для источника.
Аналогия с цветовым зрением: В цветовом зрении мы хотим знать цвет объекта, но все, что у нас есть, это свет, попадающий в наши глаза от этого пятна. Свет является функцией не только свойства объекта, но и того света, который случайно падает на него. В цветовом зрении у нас есть набор трюков, чтобы попытаться решить эту проблему и восстановить фактические свойства объекта. Это чрезвычайно аналогично слуху: мы пытаемся решить, что такое источник звука, и должны иметь дело с проблемой, которая полностью запутана с реверберацией комнаты.
Трейер и Макдермотт измерили импульсные характеристики в естественных средах и обнаружили, что есть некоторые систематические свойства реверберации, связанные с функцией затухания как функцией частоты. Эти систематические свойства сохраняются в разных средах.
Затем они показали, что ваша слуховая система знает о том, как работает реверберация. Если вы придумаете другое, нефизическое свойство реверберации и воспроизведете его людям, это будет звучать странно, и они не смогут восстановить источник звука. Это означает, что в вашу слуховую систему встроено знание физики звука и особенностей функции затухания реверберации, так что вы можете использовать это знание, чтобы отменить эту проблему и решить для источника звука.
Мы решаем некорректно поставленную задачу восстановления источника звука, несмотря на реверберацию, встраивая знание физики мира в нашу слуховую систему и используя его для ограничения некорректно поставленной задачи.
Давайте поговорим об одном из самых интересных примеров слуха — о восприятии речи.
Вот спектрограммы человека, говорящего hot, hat, hit и head. Это один и тот же человек, произносящий эти четыре слова, человек с высоким голосом. А вот человек с более низким голосом, произносящий то же самое.
Форманта — это полоса частот, которая присутствует во всех речевых звуках. Некоторые из этих частотных полос особенно диагностичны для разных гласных.
Пример с гласными A, E, I, O, U: энергия перемещается для разных гласных.
Согласные — это полосы энергии, которые идут вертикально, а гласные — это большие длинные гармонические структуры, которые простираются между ними.
Пример с ba и pa: разница между ba и pa связана с интервалом между согласной (первая вертикальная вещь) и гласной (горизонтальная часть). Pa начинается раньше, а ba немного задерживается. Эта крошечная задержка в 65 миллисекунд — то, как вы различаете эту разницу.
Доброволец читает текст, а лектор одновременно декламирует что-то другое. Когда оба говорят одновременно, становится мутно. Это показывает, насколько это сложно и как есть вариативность между говорящими, произносящими одно и то же, и очень тонкие различия между звуками, которые звучат для нас совершенно по-разному.
Существует много разных видов фонем. Любое из взаимодействий между этими объектами происходит на электродах. Ключевой график показывает электрод E1 у одного пациента. Электрод обычно имеет размер два миллиметра с каждой стороны и, вероятно, регистрирует активность нескольких десятков тысяч нейронов. Это на один-два порядка лучше, чем воксель при функциональной МРТ, но всё равно усреднение по множеству нейронов.
Обратите внимание, насколько точными, специфичными и удивительно разделёнными являются реакции этих электродов. Разделение по контуру высоты тона, или идентичности говорящего, или тому, какое предложение произносилось. Похоже, что эти вещи пространственно разделены в мозге на мелком уровне. Увидели бы вы это с помощью функциональной МРТ — возможно, нет, так как у нас может не хватить разрешения.
