4 pontos por GN⁺ 2025-10-31 | 1 comentários | Compartilhar no WhatsApp
  • A cóclea (cochlea) processa o som recebendo vibrações geradas por mudanças na pressão do ar por meio de uma estrutura física que separa por frequência
  • Cada posição da membrana basilar (basilar membrane) ressoa com uma frequência específica; as frequências altas respondem na base rígida, e as baixas, na extremidade flexível
  • Nesse processo, as células ciliadas (hair cell) abrem e fecham canais iônicos de acordo com a vibração, convertendo-a em sinais elétricos, e as fibras nervosas filtram informações de tempo e frequência
  • No entanto, esses filtros mantêm a resolução temporal, ao contrário da transformada de Fourier e, na prática, funcionam em uma forma entre wavelet e Gabor
  • Essa estrutura é uma estratégia de codificação eficiente (efficient coding) que reduz a redundância dos sons naturais, e a linguagem humana ocupa um espaço tempo-frequência singular

Estrutura de separação de frequências da cóclea

  • A membrana timpânica (tympanic membrane) vibra conforme as mudanças de pressão do ar, e os ossículos do ouvido médio amplificam isso e transmitem para o líquido da cóclea
    • A vibração se desloca ao longo da membrana basilar (basilar membrane) e, de acordo com as características físicas de cada posição, ressoa com frequências específicas
    • A base é rígida e leve, respondendo a altas frequências, enquanto a extremidade é flexível e pesada, respondendo a baixas frequências
  • A frequência de ressonância da membrana basilar diminui de forma logarítmica (logarithmic) no espaço
    • Isso corresponde à característica de a percepção humana de pitch variar de forma logarítmica

Transdução mecanoelétrica das células ciliadas

  • As células ciliadas (hair cell) sobre a membrana basilar vibram de acordo com a frequência daquela posição, e esse movimento induz a abertura e o fechamento de canais iônicos
    • A estrutura em mola na ponta das células ciliadas atua como uma “trapdoor”, liberando neurotransmissores de acordo com a frequência da vibração
  • Por meio desse processo, a vibração mecânica é convertida em sinal elétrico e transmitida ao nervo auditivo

Filtros auditivos e resolução tempo-frequência

  • As fibras do nervo auditivo funcionam como filtros que extraem informações de tempo e frequência
    • Filtros concentrados em um curto intervalo têm alta resolução temporal, mas distribuição de frequência desigual
    • Filtros distribuídos ao longo de um intervalo maior têm alta resolução em frequência, mas informação temporal borrada
  • A transformada de Fourier (Fourier transform) não contém informação temporal e, como na figura à direita, tem uma distribuição uniforme de frequências, mas isso difere dos filtros reais do ouvido
  • Os filtros da cóclea têm uma forma intermediária entre filtros wavelet e Gabor,
    • na faixa de altas frequências, elevam a resolução temporal
    • e na faixa de baixas frequências, elevam a resolução em frequência, em uma estrutura de compensação mútua

Codificação eficiente e análise de sons naturais

  • O estudo de Lewicki (2002) propõe que essa estrutura de filtros é uma estratégia para reduzir a redundância dos sons naturais
    • Por meio de ICA (Independent Component Analysis) para maximizar a independência, compara sons ambientais, vocalizações animais e voz humana
    • Sons ambientais e voz humana apresentam resultados próximos de filtros do tipo wavelet, enquanto vocalizações animais ficam mais próximas de filtros do tipo Fourier
  • A linguagem humana ocupa um espaço tempo-frequência próprio, e
    • alguns pesquisadores mencionam a possibilidade de a linguagem ter evoluído para preencher regiões não ocupadas pelos sons naturais existentes

Codificação ecológica e processamento sensorial

  • Os sistemas sensoriais formam formas de codificação adequadas ao ambiente, e a audição é apresentada como um exemplo disso
    • Essa representação ecologicamente relevante (ecologically-relevant representation) baseia-se na interação entre comportamento e ambiente
  • No final do texto, é dito que as próximas aulas mudarão o foco para os cálculos biofísicos no nível dos neurônios
  • De forma geral, o ouvido funciona como um sistema de filtragem eficiente e adaptativo, e não como uma transformada de Fourier

1 comentários

 
GN⁺ 2025-10-31
Comentários do Hacker News
  • Em resumo, o ouvido não realiza uma Transformada de Fourier (Fourier Transform), mas sim uma transformação de frequência localizada no tempo, em algum ponto entre wavelets e a transformada de Gabor
    Isso acontece porque o som é localizado no tempo
    Também é apresentada a teoria de que a linguagem humana evoluiu para ocupar regiões vazias no espaço de duração de envelope de frequência
    É possível que a cóclea humana tenha sido otimizada para a voz humana

    • Este texto dá muito a impressão de montar um espantalho argumentativo
      Quem entende de processamento de sinais não afirma que o ouvido faz uma transformada de Fourier sobre um intervalo de tempo infinito
      Na prática, o ouvido faz algo parecido com uma FFT (Fast Fourier Transform), ou seja, calcula a intensidade por frequência
      Wavelets e transformadas de Gabor são matematicamente diferentes, mas no fim produzem resultados 95~99% iguais
      Então, para simplificar, dá para dizer que o ouvido faz uma transformada discreta de Fourier com janela
    • Em frequências altas, sacrifica-se a resolução em frequência para aumentar a resolução temporal; em frequências baixas, acontece o contrário
      Isso pode ser explicado pelo princípio da incerteza tempo-frequência
      É mais fácil entender o banco de filtros do ouvido como um conjunto arbitrário de filtros baseado em resultados fisiológicos
      O tamanho do animal também influencia — quanto menor o animal, maior a capacidade de emitir e ouvir sons na faixa ultrassônica
    • Se as características da cóclea humana estiverem ajustadas à voz humana, talvez isso pudesse ser aproveitado na masterização de áudio de diálogos em filmes ou TV para tornar as falas mais inteligíveis
    • Fico pensando que, se o ouvido realmente fizesse uma transformada de Fourier, não teríamos de esperar a vida inteira para ouvi-la terminar? Como ouvimos em tempo real, claramente não é isso que acontece
    • Levando essa ideia mais adiante, palavras e fonemas específicos devem ocupar regiões específicas do espaço de compromisso entre frequência e tempo
      Por exemplo, um alerta de “um tigre está atacando” e um “som para acalmar um bebê” ficam em regiões diferentes
  • O título é um tanto caça-cliques, e o conteúdo, estritamente falando, também está errado
    As transformadas de Gabor e wavelet são formas generalizadas da transformada de Fourier, oferecendo análise espectral ao longo do tempo
    O ouvido de fato faz algo bastante fourieriano

    • Concordo que é caça-cliques, mas, sendo rigoroso, não está errado
      A transformada de Fourier é infinita e contínua, enquanto a DFT é finita e discreta
      A audição humana pode ser vista como algo mais próximo de uma série de Fourier (Fourier Series)
      Wavelets são outra abordagem, usando formas de onda deformadas em vez de senos
      No fim, em termos cotidianos, o ouvido faz um processamento “fourieriano”
    • Este texto é um post de journal club em que um pós-graduando apresentou o artigo de Lewicki de 2002
      O resumo do artigo afirma explicitamente que “quando otimizado para vocalizações animais, ele se parece com uma transformada de Fourier; quando otimizado para sons ambientais não biológicos, ele se parece com uma transformada wavelet”
  • Se quiser se aprofundar, vale a pena ver o modelo CARFAC de Richard Lyon (Cascade of Asymmetric Resonators with Fast-Acting Compression)
    Ele é considerado um dos modelos digitais mais precisos da audição humana
    O PDF do livro dele pode ser visto aqui

    • Excelente material. Obrigado
  • A ideia de que a voz humana ocupa regiões menos congestionadas do espectro também conversa com o livro 『The Great Animal Orchestra』
    Link do livro
    Ele trata de como várias espécies evoluíram para ocupar seus próprios nichos acústicos
    Mas é um pouco triste pensar que a destruição de habitats vem enfraquecendo esse fenômeno

    • As aves também evoluíram para escolher horários em que são mais fáceis de ouvir
      Nas cidades, cantam cedo, antes do ruído do trânsito aparecer; nas florestas, cantam mais tarde, quando o ruído dos insetos diminui
    • Quando características evolutivas que davam vantagem na natureza desaparecem, traços adaptados ao ambiente urbano passam a ocupar esse espaço
      Em vez de diversidade espacial, a evolução pode caminhar para uma diversidade temporal
  • Há uma confusão de termos, mas a transformada de Fourier pressupõe um intervalo de tempo infinito
    Em um intervalo de tempo finito, série de Fourier é uma expressão mais precisa
    O funcionamento real do ouvido se parece mais com a aplicação de uma função de ponderação temporal, ficando em algum ponto entre a série e a transformada de Fourier
    O texto acerta bem nesse ponto

    • No fim, o ouvido não faz uma única transformada de Fourier, mas várias transformações com compromisso entre resolução temporal e em frequência
      Também é possível que a voz humana e a estrutura auditiva tenham coevoluído
    • O título é um pouco provocativo, mas o texto é interessante por tratar bem da implementação fisiológica detalhada da audição humana, como o mecanismo de transdução das células ciliadas da cóclea
  • O ouvido não realiza uma transformada de Fourier sobre um tempo infinito
    Em vez disso, faz uma transformação discreta com janela, semelhante ao princípio da incerteza entre resolução temporal e em frequência
    Janelas longas aumentam a resolução em frequência e reduzem a temporal; janelas curtas fazem o contrário
    A cóclea humana funciona aumentando a resolução em frequência nas baixas frequências para distinguir formantes (formant), e aumentando a resolução temporal nas altas frequências para detectar plosivas (plosive)

    • Acho que a referência correta não era o “princípio de exclusão de Pauli”, mas sim o princípio da incerteza de Heisenberg
    • O ouvido não faz amostragem de dados; ele opera como um processo mecânico contínuo
    • Pensar em STFT (Short-Time Fourier Transform) ajuda a entender
  • A membrana basilar (basilar membrane) é uma estrutura biológica impressionante
    A FFT é útil no processamento de áudio em computadores, mas tem limitações para modelar a audição humana baseada em percepção temporal

  • O vídeo mostrando os tip links e canais iônicos das células ciliadas é interessante
    Vídeo relacionado
    Se essa estrutura for danificada, pode surgir zumbido (tinnitus)
    O ouvido também tem uma função de amplificação ativa (active amplification), de modo que as células podem até ser vibradas por sinais elétricos

  • O vídeo acima termina com um tom muito agudo, então vale tomar cuidado se você estiver de fones de ouvido

  • Como o córtex de associação auditiva no lobo parietal distingue frequências, existe uma transformação tempo-frequência entre o ouvido e o cérebro
    Como os disparos neuronais são discretos, trata-se de uma transformação discreta realizada em tempo finito
    Uma maneira simples de estender um sinal finito para um sinal infinito é supor que ele se repete infinitamente no passado e no futuro