- A cóclea (cochlea) processa o som recebendo vibrações geradas por mudanças na pressão do ar por meio de uma estrutura física que separa por frequência
- Cada posição da membrana basilar (basilar membrane) ressoa com uma frequência específica; as frequências altas respondem na base rígida, e as baixas, na extremidade flexível
- Nesse processo, as células ciliadas (hair cell) abrem e fecham canais iônicos de acordo com a vibração, convertendo-a em sinais elétricos, e as fibras nervosas filtram informações de tempo e frequência
- No entanto, esses filtros mantêm a resolução temporal, ao contrário da transformada de Fourier e, na prática, funcionam em uma forma entre wavelet e Gabor
- Essa estrutura é uma estratégia de codificação eficiente (efficient coding) que reduz a redundância dos sons naturais, e a linguagem humana ocupa um espaço tempo-frequência singular
Estrutura de separação de frequências da cóclea
- A membrana timpânica (tympanic membrane) vibra conforme as mudanças de pressão do ar, e os ossículos do ouvido médio amplificam isso e transmitem para o líquido da cóclea
- A vibração se desloca ao longo da membrana basilar (basilar membrane) e, de acordo com as características físicas de cada posição, ressoa com frequências específicas
- A base é rígida e leve, respondendo a altas frequências, enquanto a extremidade é flexível e pesada, respondendo a baixas frequências
- A frequência de ressonância da membrana basilar diminui de forma logarítmica (logarithmic) no espaço
- Isso corresponde à característica de a percepção humana de pitch variar de forma logarítmica
Transdução mecanoelétrica das células ciliadas
- As células ciliadas (hair cell) sobre a membrana basilar vibram de acordo com a frequência daquela posição, e esse movimento induz a abertura e o fechamento de canais iônicos
- A estrutura em mola na ponta das células ciliadas atua como uma “trapdoor”, liberando neurotransmissores de acordo com a frequência da vibração
- Por meio desse processo, a vibração mecânica é convertida em sinal elétrico e transmitida ao nervo auditivo
Filtros auditivos e resolução tempo-frequência
- As fibras do nervo auditivo funcionam como filtros que extraem informações de tempo e frequência
- Filtros concentrados em um curto intervalo têm alta resolução temporal, mas distribuição de frequência desigual
- Filtros distribuídos ao longo de um intervalo maior têm alta resolução em frequência, mas informação temporal borrada
- A transformada de Fourier (Fourier transform) não contém informação temporal e, como na figura à direita, tem uma distribuição uniforme de frequências, mas isso difere dos filtros reais do ouvido
- Os filtros da cóclea têm uma forma intermediária entre filtros wavelet e Gabor,
- na faixa de altas frequências, elevam a resolução temporal
- e na faixa de baixas frequências, elevam a resolução em frequência, em uma estrutura de compensação mútua
Codificação eficiente e análise de sons naturais
- O estudo de Lewicki (2002) propõe que essa estrutura de filtros é uma estratégia para reduzir a redundância dos sons naturais
- Por meio de ICA (Independent Component Analysis) para maximizar a independência, compara sons ambientais, vocalizações animais e voz humana
- Sons ambientais e voz humana apresentam resultados próximos de filtros do tipo wavelet, enquanto vocalizações animais ficam mais próximas de filtros do tipo Fourier
- A linguagem humana ocupa um espaço tempo-frequência próprio, e
- alguns pesquisadores mencionam a possibilidade de a linguagem ter evoluído para preencher regiões não ocupadas pelos sons naturais existentes
Codificação ecológica e processamento sensorial
- Os sistemas sensoriais formam formas de codificação adequadas ao ambiente, e a audição é apresentada como um exemplo disso
- Essa representação ecologicamente relevante (ecologically-relevant representation) baseia-se na interação entre comportamento e ambiente
- No final do texto, é dito que as próximas aulas mudarão o foco para os cálculos biofísicos no nível dos neurônios
- De forma geral, o ouvido funciona como um sistema de filtragem eficiente e adaptativo, e não como uma transformada de Fourier
1 comentários
Comentários do Hacker News
Em resumo, o ouvido não realiza uma Transformada de Fourier (Fourier Transform), mas sim uma transformação de frequência localizada no tempo, em algum ponto entre wavelets e a transformada de Gabor
Isso acontece porque o som é localizado no tempo
Também é apresentada a teoria de que a linguagem humana evoluiu para ocupar regiões vazias no espaço de duração de envelope de frequência
É possível que a cóclea humana tenha sido otimizada para a voz humana
Quem entende de processamento de sinais não afirma que o ouvido faz uma transformada de Fourier sobre um intervalo de tempo infinito
Na prática, o ouvido faz algo parecido com uma FFT (Fast Fourier Transform), ou seja, calcula a intensidade por frequência
Wavelets e transformadas de Gabor são matematicamente diferentes, mas no fim produzem resultados 95~99% iguais
Então, para simplificar, dá para dizer que o ouvido faz uma transformada discreta de Fourier com janela
Isso pode ser explicado pelo princípio da incerteza tempo-frequência
É mais fácil entender o banco de filtros do ouvido como um conjunto arbitrário de filtros baseado em resultados fisiológicos
O tamanho do animal também influencia — quanto menor o animal, maior a capacidade de emitir e ouvir sons na faixa ultrassônica
Por exemplo, um alerta de “um tigre está atacando” e um “som para acalmar um bebê” ficam em regiões diferentes
O título é um tanto caça-cliques, e o conteúdo, estritamente falando, também está errado
As transformadas de Gabor e wavelet são formas generalizadas da transformada de Fourier, oferecendo análise espectral ao longo do tempo
O ouvido de fato faz algo bastante fourieriano
A transformada de Fourier é infinita e contínua, enquanto a DFT é finita e discreta
A audição humana pode ser vista como algo mais próximo de uma série de Fourier (Fourier Series)
Wavelets são outra abordagem, usando formas de onda deformadas em vez de senos
No fim, em termos cotidianos, o ouvido faz um processamento “fourieriano”
O resumo do artigo afirma explicitamente que “quando otimizado para vocalizações animais, ele se parece com uma transformada de Fourier; quando otimizado para sons ambientais não biológicos, ele se parece com uma transformada wavelet”
Se quiser se aprofundar, vale a pena ver o modelo CARFAC de Richard Lyon (Cascade of Asymmetric Resonators with Fast-Acting Compression)
Ele é considerado um dos modelos digitais mais precisos da audição humana
O PDF do livro dele pode ser visto aqui
A ideia de que a voz humana ocupa regiões menos congestionadas do espectro também conversa com o livro 『The Great Animal Orchestra』
Link do livro
Ele trata de como várias espécies evoluíram para ocupar seus próprios nichos acústicos
Mas é um pouco triste pensar que a destruição de habitats vem enfraquecendo esse fenômeno
Nas cidades, cantam cedo, antes do ruído do trânsito aparecer; nas florestas, cantam mais tarde, quando o ruído dos insetos diminui
Em vez de diversidade espacial, a evolução pode caminhar para uma diversidade temporal
Há uma confusão de termos, mas a transformada de Fourier pressupõe um intervalo de tempo infinito
Em um intervalo de tempo finito, série de Fourier é uma expressão mais precisa
O funcionamento real do ouvido se parece mais com a aplicação de uma função de ponderação temporal, ficando em algum ponto entre a série e a transformada de Fourier
O texto acerta bem nesse ponto
Também é possível que a voz humana e a estrutura auditiva tenham coevoluído
O ouvido não realiza uma transformada de Fourier sobre um tempo infinito
Em vez disso, faz uma transformação discreta com janela, semelhante ao princípio da incerteza entre resolução temporal e em frequência
Janelas longas aumentam a resolução em frequência e reduzem a temporal; janelas curtas fazem o contrário
A cóclea humana funciona aumentando a resolução em frequência nas baixas frequências para distinguir formantes (formant), e aumentando a resolução temporal nas altas frequências para detectar plosivas (plosive)
A membrana basilar (basilar membrane) é uma estrutura biológica impressionante
A FFT é útil no processamento de áudio em computadores, mas tem limitações para modelar a audição humana baseada em percepção temporal
O vídeo mostrando os tip links e canais iônicos das células ciliadas é interessante
Vídeo relacionado
Se essa estrutura for danificada, pode surgir zumbido (tinnitus)
O ouvido também tem uma função de amplificação ativa (active amplification), de modo que as células podem até ser vibradas por sinais elétricos
O vídeo acima termina com um tom muito agudo, então vale tomar cuidado se você estiver de fones de ouvido
Como o córtex de associação auditiva no lobo parietal distingue frequências, existe uma transformação tempo-frequência entre o ouvido e o cérebro
Como os disparos neuronais são discretos, trata-se de uma transformação discreta realizada em tempo finito
Uma maneira simples de estender um sinal finito para um sinal infinito é supor que ele se repete infinitamente no passado e no futuro