R-quadrado é uma medida estatística que representa a proporção da variância de uma variável dependente que é explicada por uma variável ou variáveis independentes em um modelo de regressão. A faixa varia de 0 a 1, indicando a qualidade do ajuste do modelo.
Entendendo R-quadrado
Definição e Interpretação
- Faixa de Valores: Os valores de R-quadrado variam de 0 a 1.
- Interpretação:
- Um R-quadrado de 0 significa que o modelo não explica nenhuma da variabilidade dos dados de resposta em torno da sua média.
- Um R-quadrado de 1 indica que o modelo explica toda a variabilidade dos dados de resposta em torno da sua média.
- Um valor mais próximo de 1 implica um melhor ajuste, enquanto um valor mais próximo de 0 indica um ajuste ruim.
Cálculo de R-quadrado
R-quadrado pode ser calculado usando a seguinte fórmula:
R² = 1 – (SSres / SStot)
- SSres: A soma dos quadrados dos resíduos (as diferenças entre os valores observados e previstos).
- SStot: A soma total dos quadrados (a variância dos dados observados).
Exemplo de R-quadrado
Considere uma análise de regressão linear simples onde queremos analisar a relação entre o número de horas estudadas e as notas obtidas em um exame.
- Suponha que temos os seguintes dados:
- Horas Estudadas: [1, 2, 3, 4, 5]
- Notas Obtidas: [50, 55, 65, 70, 80]
- Assuma que o modelo de regressão linear nos dá as notas previstas equipadas com o modelo.
- A soma dos quadrados dos resíduos (SSres) pode ser calculada da seguinte forma:
– Notas Previstas: [52, 57, 62, 67, 72] – Resíduos: [50-52, 55-57, 65-62, 70-67, 80-72] = [-2, -2, 3, 3, 8] – SSres = (-2)² + (-2)² + (3)² + (3)² + (8)² = 4 + 4 + 9 + 9 + 64 = 90 - A soma total dos quadrados (SStot) é calculada da seguinte forma:
– Média das Notas = (50 + 55 + 65 + 70 + 80) / 5 = 62
– SStot = (50-62)² + (55-62)² + (65-62)² + (70-62)² + (80-62)² = 144 + 49 + 9 + 64 + 324 = 590 - Substituindo os valores na fórmula de R-quadrado:
R² = 1 – (90 / 590) ≈ 0.846
Isso significa que aproximadamente 84,6% da variabilidade nas notas do exame pode ser explicada pelo número de horas estudadas, indicando uma forte relação entre as duas variáveis.