1 pontos por GN⁺ 2026-01-06 | 1 comentários | Compartilhar no WhatsApp
  • O motivo de a reta de regressão linear por mínimos quadrados parecer mais inclinada do que o real em dados de teste simples é a característica do processo de geração dos dados
  • O modelo de regressão segue a forma ( Y = \beta_0 + \beta_1 X + \varepsilon ) sob a suposição de que o termo de erro é independente de X
  • À medida que a variância do erro aumenta, a dispersão dos dados cresce na direção vertical, e a direção do componente principal da PCA fica progressivamente mais próxima da vertical
  • Em contrapartida, quando a variância de X é muito maior do que o erro, a PCA e a reta de regressão OLS praticamente coincidem
  • Essa diferença existe porque PCA e OLS têm objetivos distintos (maximização da variância vs. minimização do erro) e, dependendo da forma da distribuição dos dados, produzem resultados visualmente diferentes

Modelo de regressão e processo de geração dos dados

  • O OLS simples (método dos mínimos quadrados) tem a forma ( Y = \beta_0 + \beta_1 X + \varepsilon ), partindo da suposição de que X e o termo de erro (\varepsilon) são independentes
  • Quando o termo de erro é 0, todos os pontos ficam sobre a reta de regressão, e a direção do componente principal da PCA coincide com a reta de regressão
  • Ao adicionar erro, a variância aumenta na direção vertical, e a PCA reflete essa dispersão escolhendo como componente principal uma direção com inclinação mais acentuada

Quando a variância do erro é dominante

  • Na relação ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ),
    se ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ), então a maior parte da variação se concentra na direção vertical
  • Nesse caso, a direção do componente principal da PCA se torna quase vertical, ou seja, parece mais inclinada do que a reta de regressão
  • Por outro lado, se ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ), PCA e OLS quase coincidem

Elipse de covariância e forma da distribuição

  • A elipse de covariância (covariance ellipse) representa bem a forma dos dados apenas quando ( (X, Y) ) segue uma distribuição normal conjunta
  • Mesmo quando a distribuição de X muda para binomial, uniforme, bimodal, triangular etc.,
    se a variância de X for grande, PCA e reta de regressão coincidem; se o erro for grande, a PCA se desloca na direção vertical
  • A elipse indica a direcionalidade dos dados, mas não representa com precisão a densidade nem a forma real da distribuição

Natureza de X e considerações de modelagem

  • No código, a função make_y_from_x gera Y como função linear de X com ruído gaussiano IID, de acordo com as suposições do OLS
  • X não precisa necessariamente ser uma variável aleatória; também pode assumir valores fixos definidos pelo desenho experimental
  • A elipse de covariância trata X e Y de forma simétrica, mas o processo real de geração dos dados é assimétrico

Resumo essencial

  • ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA e OLS coincidem
  • ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): a PCA se desloca para a direção vertical
  • X não precisa necessariamente ser uma variável aleatória nem seguir distribuição normal
  • PCA foca na direção da variância, enquanto OLS foca na minimização do erro de previsão, por isso os resultados aparecem de forma diferente

1 comentários

 
GN⁺ 2026-01-06
Comentários do Hacker News
  • A regressão linear, isto é, Ordinary Least Squares (OLS), assume que há ruído apenas em Y e que X é exato
    Já a abordagem em que visualmente há ruído tanto em X quanto em Y é chamada de Total Least Squares (TLS)
  • Há algum tempo, um professor de QuantSci perguntou: “cite um cenário de coleta em que não haja absolutamente nenhum erro nos dados de x”
    Por isso, ele ensinava que em geral é melhor preferir a regressão de Deming (Deming regression)
    • Na maioria dos dados de sensores, o ruído no eixo Y é muito maior do que no eixo X
      Por exemplo, em um sensor amostrado a 1 kHz, o ruído do próprio sensor é muito maior que o jitter de clock do MCU
    • Na regressão de Deming, delta (δ) é a razão entre a variância de y e a variância de x
      Se a variância de x for muito pequena, delta fica grande e o modelo pode ter má condição numérica
    • Na minha área, o jitter de medição dos dados X é inferior a 10 ns, então na prática o erro é desprezível
    • OLS é BLUE (Best Linear Unbiased Estimator), e isso é especial porque é o estimador linear de variância mínima
    • Na maioria das séries temporais, o ruído na medição do tempo é desprezível, mas em outras variáveis, como coordenadas de GPS, podem surgir efeitos de acoplamento complexos
  • A regressão linear modela apenas o ruído em Y, mas a elipse/autovetores da PCA consideram o ruído em X e em Y
    • É interessante que, em muitos sistemas, o ruído em Y seja maior do que em X
      Por exemplo, em conversores analógico-digitais, o tempo é estável por causa do oscilador a cristal, mas o valor medido não é
    • Ao analisar dados para obter uma linha de tendência, surge a dúvida se não seria melhor usar a direção do autovetor da PCA
    • Seria interessante treinar uma rede neural assumindo que há ruído tanto na entrada quanto na saída
    • Se soubéssemos que Y é n vezes mais ruidoso que X, fico curioso se daria para usar essa informação para obter um ajuste melhor
  • Faz muito tempo que não lido com estatística, e não entendo por que se usa necessariamente quadrados (squares)
    Poderiam existir outras potências, como primeira, terceira, quarta etc.; por que os quadrados sempre aparecem?
    • Minimizar a soma dos quadrados fornece a estimativa de máxima verossimilhança (MLE) quando se assume que os erros seguem distribuição normal iid
      Se a distribuição dos erros for diferente, outras funções de perda podem ser mais apropriadas
      Por exemplo, a Huber loss age como quadrática para erros pequenos e linear para erros grandes, sendo robusta a outliers
      Para as fórmulas detalhadas, veja as páginas 352–353 de Convex Optimization, de Boyd & Vandenberghe
      Além disso, a ANOVA se baseia no teorema de Pitágoras, então os termos quadráticos são essenciais
    • A média minimiza a norma L2; portanto, se você olhar OLS do ponto de vista de variáveis aleatórias, o L2 aparece naturalmente como forma de estimar o valor esperado condicional E[Y|X]
      O teorema de Gauss–Markov garante que esse estimador é não viesado e de variância mínima
    • A primeira potência não produz solução única. Por exemplo, com os três pontos (0,0), (1,0), (1,1), qualquer a entre 0 e 1 gera a mesma soma de erros
      Expoentes menores que 1 têm a propriedade estranha de preferir um erro grande a vários erros pequenos
      Já os quadrados são matematicamente fáceis de tratar e também têm boas propriedades numéricas na regressão linear simples
    • O verbete Least Squares da Wikipedia resume várias abordagens
      Termos de ordem mais alta, como quarta potência ou superiores, têm muitos ótimos locais e derivadas mais complicadas, o que reduz a simplicidade computacional
    • Em resumo: abs não é diferenciável perto de 0, a quarta potência é sensível demais ao ruído, e a terceira potência quebra a linearidade da variância
  • A maior parte do conteúdo desta thread já está bem organizada em discussões no StackExchange
    Não é fácil apresentar uma perspectiva realmente nova
    • As respostas do StackExchange já são bastante completas
      É interessante mais como observação matemática
    • Ainda assim, trazer esse tipo de tema aqui faz sentido porque permite uma conversa mais livre do que no StackExchange
    • Talvez seja uma resposta madura demais para este fórum
  • Least Squares e PCA minimizam funções de perda diferentes
    O primeiro minimiza a soma dos quadrados das distâncias na direção do eixo Y; o segundo minimiza a soma dos quadrados das distâncias ortogonais até a reta
    • Então por que a reta de mínimos quadrados parece inclinada para baixo? A direção parece arbitrária
    • Fica mais fácil entender se você enxergar mínimos quadrados como um processo de ajuste a uma distribuição gaussiana
  • Se você faz regressão de y em função de x e depois de x em função de y, obtém duas retas diferentes
    Descobri isso em aula e fiquei confuso. Pensei se normalização poderia resolver
    • Mas a forma correta de remover esse viés não é normalização, e sim usar uma técnica de regressão independente de coordenadas
  • Só para organizar a terminologia: um modelo de mínimos quadrados fornece previsões com erro médio igual a 0, ou seja, previsões estatisticamente não viesadas, independentemente de x ter ruído ou não
  • Ao olhar o resultado de uma regressão, a reta pode parecer visualmente errada, mas na prática o modelo pode estar correto
    Para verificar a inclinação correta, vale olhar se, em um x específico, os resíduos (residuals) ficam equilibrados dos dois lados
    Por exemplo, se você gerar dados como y = 1.5x + noise, a reta de regressão recupera bem a inclinação 1.5, embora visualmente possa parecer estranha
    • Comparar gráficos de resíduos deixa isso mais claro
  • Esse problema costuma ser chamado de Regression Dilution (link da Wikipedia)
    • Mas Regression Dilution se refere ao caso em que a reta de regressão fica viesada por causa de erro nos dados de X
      A pergunta no StackExchange quer saber por que, mesmo sem erro em X, a reta de regressão não coincide com o eixo da elipse de 3σ
      Esta resposta mostra um exemplo em que o erro em X é 0