Quais são as pressuposições para a realização da Análise de Variância?
Tabela 1: Número de estacas enraizadas por variedade de pêssego.
Variedades | REP. 1 | REP. 2 | REP. 3 | REP. 4 | REP. 5 | Total | Média | Variância |
---|---|---|---|---|---|---|---|---|
A | 2 | 2 | 1 | 1 | 0 | 6 | 1,2 | 0,7 |
B | 1 | 0 | 0 | 1 | 1 | 3 | 0,6 | 0,3 |
C | 12 | 10 | 14 | 17 | 11 | 64 | 12,8 | 7,7 |
D | 7 | 9 | 15 | 8 | 10 | 49 | 9,8 | 9,7 |
\[\begin{equation} y_{ij} = \mu + \tau_i + e_{ij} = \mu_i + e_{ij} \end{equation}\]
em que:
\(y_{ij}\) é o valor observado na j-ésima repetição do iésimo tratamento, com:
\(i = 1, ... , I\) e
\(j = 1, ... , n_i\)
\(\mu\) é uma constante inerente a todas as observações, geralmente a média geral,
\(\tau_i\) é o efeito do iésimo tratamento,
\(e_{ij}\) é o erro experimental, tal que \(e_{ij} \overset{iid}{\sim} N(0,\sigma^2)\).
Para obter o valor predito do resíduo.
\[\begin{equation} y_{ij} = \mu_i + e_{ij} \end{equation}\]
\[ e_{ij} = \mu_i - y_{ij} \] Resíduos Padronizados (\(z_{ij}\)) e Resíduos estudentizados (\(d_{ij}\))
Observações discrepantes e aparente homogeneidade/heterogeneidade de variâncias.
\[z_{ij} = \displaystyle{\frac{e_{ij}}{\sqrt{\text{QM}_{\text{Resíduo}}}}}\]
\[d_{ij} = \displaystyle{\frac{e_{ij}}{\sqrt{(1-1/J)\text{QM}_{\text{Resíduo}}}}}\]
Observações discrepantes são valores que se afastam muito do esperado para a variável.
Avaliação gráfica:
Alguns possíveis gráficos:
#> 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
#> 0.8 0.8 -0.2 -0.2 -1.2 0.4 -0.6 -0.6 0.4 0.4 -0.8 -2.8 1.2 4.2 -1.8 -2.8
#> 17 18 19 20
#> -0.8 5.2 -1.8 0.2
#> 1 2 3 4 5 6 7
#> 0.4170288 0.4170288 -0.1042572 -0.1042572 -0.6255432 0.2085144 -0.3127716
#> 8 9 10 11 12 13 14
#> -0.3127716 0.2085144 0.2085144 -0.4170288 -1.4596009 0.6255432 2.1894013
#> 15 16 17 18 19 20
#> -0.9383149 -1.4596009 -0.4170288 2.7106874 -0.9383149 0.1042572
Observações:
95% dos resíduos devem pertencer ao intervalo (-2,2);
Valores não pertencentes ao intervalo (-3,3) podem ser classificados como discrepantes;
Não podemos excluir observações discrepantes antes de conversar com o pesquisador, pois pode ter ocorrido algum erro de tabulação ou a observação pode indicar uma característica importante associada ao respectivo tratamento;
boxplot(res_Studpessego
)
São observados dois valores discrepantes para os resíduos, quando esperada a normalidade dos erros. Logo, não se observa 95% dos resíduos entre -2 e 2, entretanto 100% destes estão entre -3 e 3.
Observa-se que os dois valores discrepantes estão relacionados às variedades C e D. A dispersão dos resíduos por tratamento será discutida posteriormente.
Até certo ponto, a independência dos erros é garantida pelo princípio da casualização. Entretanto, devemos “verificá-la” nos casos em que poderiam existir correlações entre as observações;
observações no mesmo indivíduos/parcela ao longo do tempo;
observações na mesma parcela em profundidades diferentes;
observações de indivíduos agrupados, como por exemplo cobaias em uma mesma gaiola.
Gráficos
Testes de hipóteses
grafico pontos homogeneidade
Observa-se que as dispersões dos resíduos estudentizados associados às variedades A e B são menores do que as dispersões dos resíduos estudentizados associados às variedades C e D, aparentemente.
Gráfico dos Resíduos versus Valores Preditos
ggplot( ,
aes(x = fitted(modelopessego),
y = res_Studpessego)) +
geom_point() +
theme_bw () +
geom_hline(yintercept = 0) +
ylab("Resíduos estudentizados") +
xlab("Valores esperados (médias)")
\[H0 : \text{Há homogeneidade de variâncias}\] \[Ha : \text{Não há homogeneidade de variâncias}\]
Estatística do teste: \[F\text{max} = \frac{S^2_{max}}{S^2_{min}}\]
Rejeita-se H0, ao nível 100 × α% de significância, se Fmax ≥ Fmaxtab(α,ν1,ν2), em que ν1 é o número de graus de liberdade do numerador e ν2 é o número de graus de liberdade do denominador da estatística Fmax .
\[H0 : \text{Há homogeneidade de variâncias}\] \[Ha : \text{Não há homogeneidade de variâncias}\] Estatística do teste:
Ajusta-se o modelo yij = µ + τi + eij = µi + eij e obtêm-se os valores preditos para os erros, ˜eij .
Realiza-se a ANOVA para |˜eij |, de acordo com o modelo |˜eij | = ν + γi + ij .
Em caso de efeito significativo de tratamentos, ao nível 100 × α% de significância, há evidências de heterogeneidade de variâncias.
anova(lm(abs(respessego) ~ Variedadepessego, dadospessego))
#> Analysis of Variance Table
#>
#> Response: abs(respessego)
#> Df Sum Sq Mean Sq F value Pr(>F)
#> Variedadepessego 3 12.864 4.288 2.8895 0.06786 .
#> Residuals 16 23.744 1.484
#> ---
#> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Como o valor-p = 0,06786 > 0,05 = α, considerando-se o nível de 5% de significância não rejeitamos H0. Logo, não há evidências para afirmarmos que as variâncias não são homogêneas.
Assim como para a verificação da homogeneidade de variâncias, podem ser utilizados gráficos e testes para a verificação da pressuposição a respeito da normalidade dos erros.
Gráficos:
Testes de hipóteses:
qqnorm(res_Studpessego)
qqline(res_Studpessego, col=2)
Observa-se o afastamento de dois pontos da reta que passa pelos pontos (Q1esp , Q1obs ) e (Q3esp , Q3obs ). Desse modo, espera-se que os erros não sigam uma distribuição normal.
Gráfico half normal plot com envelope de simulação
Atkinson (1985) propôs a adição de um envelope simulado, a partir dos seguintes passos:
Ajuste um modelo a um conjunto de dados e obtenha d(i), valores absolutos ordenados de uma certa estatística de diagnóstico (resíduos, hii, etc.);
Simule 19 amostras da variável resposta usando as estimativas obtidas após o ajuste do modelo e os mesmos valores para as variáveis explanatórias;
Ajuste o modelo a cada uma das 19 amostras e calcule os valores absolutos ordenados da estatística de diagnóstico de interesse, d∗j(i), j = 1, . . . , 19, i = 1, . . . , n.
Para cada i, calcule a média, o mínimo e o máximo d∗j(i)
Construa um gráfico para as quantidades calculadas no item anterior e d(i) versus zi (quantil esperado).
library(hnp)
#> Carregando pacotes exigidos: MASS
hnp(modelopessego,
print.on = TRUE)
#> Gaussian model (lm object)
É aceitável que pelo menos 95% dos pontos pertençam ao intervalo de confiança gerado. Para o exemplo, tem-se 30% destes foram do intervalo. Assim, é esperado que os erros não sigam uma distribuiçãonormal.
\[H0 : \text{Os erros seguem uma distribuição normal}\] \[Ha : \text{Os erros não seguem uma distribuição normal}\]
\[ W = \frac{(\sum_{i=1}^n a_iy_{(i)})^2}{\sum_{i=1}^n(y_i-y)^2} \]
em que y(i) representa a i-ésima estatística de ordem e os coeficientes ai são pesos ótimos para o estimador de mínimos quadrados ponderados dos desvios-padrões para uma população normal.
shapiro.test(res_Studpessego)
#>
#> Shapiro-Wilk normality test
#>
#> data: res_Studpessego
#> W = 0.88533, p-value = 0.02209
Como o valor-p = 0,02209 < 0,05 = α, considerando-se o nível de 5% de significância, rejeitamos H0. Logo, há evidências para afirmarmos que os erros não seguem uma distribuição normal.
Se alguma pressuposição nao for atendida é possivel realizar a transformação dos dados.
Como visto, uma alternativa para os casos em que alguma(s) das pressuposições não é(são) atendida(s) é a transformação dos dados. Vejamos, agora, possíveis casos para o gráfico dos resíduos versus os valores preditos y˜ij , como ferramenta para diagnóstico preliminar.
y*= logy se \(\lambda\)=0
y*= \(y^\lambda\) se \(\lambda\) \(\neq\) 0
\(\lambda\) | \(Transformação\) |
---|---|
\(-1\) | $ 1/(y+0,5)$ |
\(-0,5\) | \(1/{\sqrt{(y+0,5)}}\) |
\(0\) | $ log(y+0,5)$ |
\(0,5\) | \(\sqrt{y+0,5}\) |
\(1\) | \(nenhuma\) |
Após realizar a transformação dos dados, deve-se verificar novamente as pressuposições da análise de variância. Caso sejam atendidas, pode-se prosseguir com a análise, lembrando de realizar a transformação inversa ao final.
library(MASS)
boxcox(dadospessego$estacasenraizadas+0.5 ~ dadospessego$Variedadepessego,
ylab= "logaritmos da verossimilhança")
Observe que o valor 1 não pertence ao intervalo de confiança a 95% para λ, porém, o valor 0,5 pertence, sendo este o valor indicado de λ.
#dadospessego$estacasenraizadast <- (estacasenraizadas+0.5)^0.5
#modelotransformado <- lm(estacasenraizadast ~ Variedadepessego, dadospessego)
#qqnorm(rstandard(modelotransformado), xlab= "Quantis da distribuição normal", ylab= "Resíduos estudentizados")
#qqline(rstandard(modelotransformado), col=2)
Com os dados transformados e novo modelo ajustado, tem-se que 95% dos resíduos encontram-se entre -2 e 2 e, os pontos não apresentam grande afastamento da reta, o que indica possível normalidade dos erros.
library(hnp)
#hnp(modelotransformado, print.on = TRUE)
Com os dados transformados e novo modelo ajustado, tem-se que a maioria dos pontos pertencem ao envelope simulado, indicando possível normalidade dos erros.
#shapiro.test(rstandard(modelotransformado))
Como o valor-p = 0,8943 > 0,05 = α, considerando-se o nível de 5% de significância, não rejeitamos H0. Logo, há evidências para afirmarmos que os erros seguem uma distribuição normal.
#ggplot(dadospessego,
# aes(x = Variedadepessego,
# y = rstandard(modelotransformado))) +
# geom_point() +
# geom_hline(yintercept = 0) +
# theme_bw() +
# ylab("Resíduos estudentizados") +
# xlab("Variedade")
Aparentemente, as dispersões dos resíduos por tratamento são semelhantes.
# levene.test(rstandard(modelotransformado), dadospessego$Variedadepessego, location = "mean")
Como o valor-p = 0,9258 > 0,05 = α, considerando-se o nível de 5% de significância, não rejeitamos H0. Logo, há evidências para afirmarmos que há homogeneidade de variâncias dos erros.
# ggplot(dadospessego,
# aes(x = fitted(modelotransformado),
# y = rstandard(modelotransformado))) +
# geom_point() +
# geom_hline(yintercept = 0) +
# theme_bw () +
# ylab("Resíduos Estudentizados") +
# xlab(" Valores esperados (médias0")
Agora, aparentemente, há um leve aumento na dispersão dos resíduos conforme o valor predito aumenta.
# boxcox(modelotransformado, ylab="logaritmo da verossimilhança")
Quando utilizados os dados transformados, verifica-se que o valor 1 pertence ao intervalo de confiança para λ. Desse modo, nova transformação não é indicada.
Atendidas as pressuposiões para a realização da análise de variância, considerando-se os dados transformados, temos:
# anova(modelotransformado)
Como o valor-p = 4, 623 × 10−9 < 0, 05 = α, considerando o nível de 5% de significância, rejeitamos H0. Desse modo, há evidências para afirmarmos que pelo menos um contraste de médias difere de zero.
# library(ExpDes.pt)
# with(dadospessego,
# dic(Variedadepessego,
# estacasenraizadast))
Grupos | Tratamentos | Médias |
---|---|---|
a | C | 3,63 |
a | D | 3,18 |
b | A | 1,26 |
b | B | 1,01 |
A partir do teste de Tukey, ao nível de 5% de significância, há evidências para afirmarmos que as médias para as variedades C e D diferem das médias paras as variedades A e B, e as demais médias não diferem entre si.
Faça o upload da resolução e tire suas aqui