A regressão linear é uma técnica estatística usada para modelar a relação entre uma variável dependente (também chamada de variável resposta ou alvo) e uma ou mais variáveis independentes (também chamadas de preditoras ou explicativas). A ideia principal é encontrar a linha reta (ou plano, no caso de múltiplas variáveis independentes) que melhor se ajusta aos dados observados.
A explicação acima pode ter ficado um pouco confusa, por isso irei tentar explicar de uma forma mais simples possível para que todos possam entender
A regressão linear é uma maneira de encontrar uma linha reta que melhor descreve a relação entre dois conjuntos de dados. Think about que você tem um conjunto de pontos em um gráfico, onde cada ponto representa uma medição, como a quantidade de horas que você estudou (eixo x) e a nota que você tirou em uma prova (eixo y).
O objetivo da regressão linear é traçar uma linha reta através desses pontos de modo que a linha esteja o mais próximo possível de todos os pontos. Esta linha pode ser usada para prever a nota que você tiraria em uma prova com base em quantas horas você estudou.
1. Variável Dependente (Resposta)
A variável dependente, também chamada de variável resposta ou alvo, é a variável que estamos tentando prever ou explicar. No exemplo das horas de estudo e nota, a variável dependente é a nota da prova.
2. Variável Independente (Preditoras)
As variáveis independentes, também chamadas de preditoras ou explicativas, são as variáveis que usamos para fazer a previsão. No exemplo, a variável independente é o número de horas estudadas.
3. Coeficiente de Regressão (Inclinação)
O coeficiente de regressão, também conhecido como inclinação, indica a mudança esperada na variável dependente(nota) para cada unidade adicional da variável independente. No nosso exemplo, se a inclinação é 10, isso significa que a nota aumenta em 10 pontos para cada hora additional de estudo.
4. Intercepto
O intercepto é o valor da variável dependente quando a variável independente é zero. Em outras palavras, é o ponto onde a linha de regressão cruza o eixo y. No exemplo, se o intercepto é 50, isso significa que, mesmo sem estudar, a previsão inicial da nota seria 50.
5. Erro (Termo de Erro)
O erro ou termo de erro representa a diferença entre os valores observados e os valores previstos pela linha de regressão. Ele captura a variação nos dados que não é explicada pela relação linear entre as variáveis dependente e independente.
A equação da linha de regressão linear simples é dada por:
y = β0 + β1x + ϵ
- y é a variável dependente (nota da prova),
- x é a variável independente (horas estudadas),
- β0 é o intercepto,
- β1 é o coeficiente de regressão (inclinação),
- ϵ é o erro.
usando o método dos mínimos quadrados podemos chegar que
β0 (intercepto) = 52 e β1 (coeficiente de regressão) = 8,6
brand:
nota = 52 + 8,6 × (horas estudadas)
Para prever a nota com base no número de horas estudadas, substituímos o valor de x (horas estudadas) na equação.
- Por exemplo, se alguém estudou 4 horas, substituímos x por 4:
- nota = 52 + 8,6 × 4
- nota = 52 + 34,4
- nota = 86,4
Portanto, a previsão da nota para alguém que estudou 4 horas é 86,4.