R-quadrado

« Back to Glossary Index

R-quadrado é uma medida estatística que representa a proporção da variância de uma variável dependente que é explicada por uma variável ou variáveis independentes em um modelo de regressão. A faixa varia de 0 a 1, indicando a qualidade do ajuste do modelo.

Entendendo R-quadrado

Definição e Interpretação

  • Faixa de Valores: Os valores de R-quadrado variam de 0 a 1.
  • Interpretação:
    • Um R-quadrado de 0 significa que o modelo não explica nenhuma da variabilidade dos dados de resposta em torno da sua média.
    • Um R-quadrado de 1 indica que o modelo explica toda a variabilidade dos dados de resposta em torno da sua média.
    • Um valor mais próximo de 1 implica um melhor ajuste, enquanto um valor mais próximo de 0 indica um ajuste ruim.

Cálculo de R-quadrado

R-quadrado pode ser calculado usando a seguinte fórmula:

R² = 1 – (SSres / SStot)

  • SSres: A soma dos quadrados dos resíduos (as diferenças entre os valores observados e previstos).
  • SStot: A soma total dos quadrados (a variância dos dados observados).

Exemplo de R-quadrado

Considere uma análise de regressão linear simples onde queremos analisar a relação entre o número de horas estudadas e as notas obtidas em um exame.

  • Suponha que temos os seguintes dados:
    • Horas Estudadas: [1, 2, 3, 4, 5]
    • Notas Obtidas: [50, 55, 65, 70, 80]
  • Assuma que o modelo de regressão linear nos dá as notas previstas equipadas com o modelo.
  • A soma dos quadrados dos resíduos (SSres) pode ser calculada da seguinte forma:
    – Notas Previstas: [52, 57, 62, 67, 72] – Resíduos: [50-52, 55-57, 65-62, 70-67, 80-72] = [-2, -2, 3, 3, 8] – SSres = (-2)² + (-2)² + (3)² + (3)² + (8)² = 4 + 4 + 9 + 9 + 64 = 90
  • A soma total dos quadrados (SStot) é calculada da seguinte forma:
    – Média das Notas = (50 + 55 + 65 + 70 + 80) / 5 = 62
    – SStot = (50-62)² + (55-62)² + (65-62)² + (70-62)² + (80-62)² = 144 + 49 + 9 + 64 + 324 = 590
  • Substituindo os valores na fórmula de R-quadrado:
    R² = 1 – (90 / 590) ≈ 0.846

Isso significa que aproximadamente 84,6% da variabilidade nas notas do exame pode ser explicada pelo número de horas estudadas, indicando uma forte relação entre as duas variáveis.