Estimação do nível de DBO, através da Regressão Múltipla (Passo a Passo)

July 7, 2017 | Autor: David Venacio | Categoria: Multiple Linear Regression
Share Embed


Descrição do Produto








2929
29
29
UFRPE UFRPE
UFRPE

UFRPE


UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO
PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO
PROGRAMA DE PÓS-GRADUAÇÃO EM BIOMETRIA E ESTATÍSTICA APLICADA


Disciplina: Métodos Estatísticos aplicados a Floresta
Profa. José Aleixo da Silva
Semestre: 2015.1
Alunos: David Venancio da Cruz.
Simara Lúcia Ramos

Análise de RegressãoAnálise de Regressão
Análise de Regressão
Análise de Regressão



Sumário
1. Introdução 1
2. Situação Experimental. 1
2.1 Motivação 1
2.2 Contextualização da Área em Estudo 2
3. Material e métodos. 3
3.1 Análise de Regressão. 3
3.2 Tabela de Análise de Variância 3
3.3 Coeficiente de correlação linear múltiplo (r) e coeficiente de determinação 4
3.5 Análise gráfica dos resíduos 5
4. Resumo Estatístico. 5
4.1 Caracterização dos dados. 5
5. Matriz de Correlação 6
6. Modelo de Regressão 9
7. Contribuição das variaveis para o modelo. 15
Contribuição de X4 15
Contribuição de X3 18
Contribuição de X2 19
8. Modelo para (X2,X3). 22
9. Análise de Residuos 24
10. Modelo intrinsecamente linear 26
10.1. Análise de residuos p/intrinsecamente linear 28
Conclusão 31
Referências 32







1. Introdução

Uma das preocupações estatísticas ao analisar dados é criar modelos que explicitem estruturas do fenômeno em observação, as quais freqüentemente estão misturadas com variações acidentais ou aleatórias. A identificação dessas estruturas permite conhecer melhor o fenômeno, bem como fazer afirmações sobre possíveis comportamentos das mesmas. Utilizando simplesmente a intuição, será conveniente examinar o comportamento de cada variável, bem como tentar formar idéia da existência da relação funcional entre as variáveis.
A análise de regressão se constitui num conjunto de métodos e técnicas estatísticas que buscam interpretar a relação funcional entre duas ou mais variáveis com boa aproximação, tendo como resultado uma equação matemática que descreve o relacionamento entre duas ou mais variáveis. A equação pode ser usada para estimar, ou predizer, valores futuros de uma variável quando se conhece ou se supõem conhecidos valores das outras variáveis.
O raciocínio é obter uma equação de previsão para uma variável dependente Y baseada em uma variável independente . Por conseguinte, restringiremos nossa atenção ao problema de prever como função linear de uma única variável independente.
Também iremos ilustrar o ajuste de um modelo linear a partir de um conjunto de dados. Posteriormente, estudaremos como reduzir essas informações numa única Análise de variância e, em seguida, veremos as hipóteses envolvidas no modelo.

2. Situação Experimental.

2.1 Motivação

A preocupação com a qualidade dos recursos naturais e com a proteção da saúde humana tem papel central nas discussões do mundo contemporâneo. Assim, diante do comprometimento da qualidade de vida, a sociedade vem direcionando suas atenções para os impactos ambientais negativos potenciais de suas atividades, produtos ou serviços.
O planejamento e ordenamento de um ambiente dependem de uma metodologia que possibilite aos gestores avaliarem os impactos inerentes ao uso e ocupação de um ambiente, de modo que seja possível atuar na prevenção ou mitigação de seus riscos. Nesta perspectiva, os modelos teóricos contribuem para a interpretação de dados, tornando possível o diagnóstico de determinada situação e a formulação de soluções apropriadas para a gestão dos recursos naturais. Este trabalho tem como objetivo analisar o comportamento ao longo dos dados relacionados a DBO (Demanda bioquimica de oxigenio).
A Demanda Bioquímica de Oxigênio (DBO), que nada mais é que a degradação de matéria orgânica por micro-organismos sob condições controladas de temperatura em um determinado período de tempo. Os micro-organismos aeróbios transformam a carga orgânica disponível em CO2 e água. O monitoramento da DBO é de suma importância pois o lançamento de efluentes
com altas concentrações de carga orgânica pode causar graves consequências ao meio ambiente. O lançamento de resíduos com alta carga orgânica pode exceder a capacidade autodepurativa do corpo receptor, deixando-o deficiente em oxigênio. Assim, a vida aquática fica comprometida, os peixes morrem por asfixia, forte odor é exalado e dizemos que o rio está "morto". Com a crescente fiscalização dos órgãos ambientais, cresce a demanda por monitoramento da qualidade de água e efluentes, sendo a DBO o principal parâmetro de qualidade utilizado atualmente.

2.2 Contextualização da Área em Estudo

A Bacia Hidrográfica do Rio Paraíba envolve uma superfície de aproximadamente 18.640 km². Suas nascentes encontram-se nas serras da Borborema e dos Cariris Velhos no extremo sul e nas serras do Capitão Mor e Açai a sudeste e, integra o planalto da Borborema no terço superior da bacia. O trecho, embasamento deste estudo, situa-se no baixo curso do referido Rio abrangendo os municípios de Itatuba, proximo a grande João Pessoa. Com as seguintes coordenadas UTM , 25M0293138, UTM9217541 e 25M0293160, UTM9216342, respectivamente os pontos PB 01 e TG 01, como apresentado na Figuras 1.

Figura 1: Localização dos pontos de coleta.
3. Material e métodos.

3.1 Análise de Regressão.

A técnica estatística de regressão linear múltipla é usada para estudar a relação entre uma variável dependente e várias variáveis independentes. Em engenharia de avaliações geralmente trabalha-se com modelos de regressão múltipla, tendo em vista a multiplicidade de fatores que interferem na avaliação do DBO da água (DANTAS, 2003).
O modelo genérico é dado pela expressão, segundo LEVINE et al. (2005), quando aplicado a uma amostra de tamanho n.
Yi=β0+β1Xi1+β2Xi2+ +βp-1Xi,p-1+εi
Em que: Yi = variável dependente ou explicada i=1,2,...,n, também chamada de resposta; b0= intercepto ou termo independente de variável; b1= inclinação de Y em relação a variável X1, mantendo constante as variáveis X2, X3, ..., Xp; b2= inclinação de Y em relação a variável X2, mantendo constante as variáveis X1, X3, ..., Xk; bp-1= inclinação de Y em relação a variável Xi,p-1, mantendo constante as variáveis X1,X3, ..., Xp-2; ei= erro aleatório em Y, para a observação i, i=1,2, ...,n.

3.2 Tabela de Análise de Variância

Uma outra opção é a construção da tabela de análise de variância do modelo, ilustrada abaixo:
Tabela 1: ANOVA modelo Yi=β0+β1Xi1+β2Xi2+ +βp-1Xi,p-1+εi.





Regressão
p

SQRegp=QMReg
QMReg/S2

n-p-1

SQResn-p-1=S2







Lembrando que:
As hipóteses são e .
Fixar (nível de significância)
é a variável aleatória com distribuição de Snedecor, com p grau de liberdade do numerador e n-p-1 graus de liberdade do denominador. De maneira geral, para m e n graus de liberdade, a distribuição F-Snedecor é dada por:

No nosso caso,como:
e então temos uma F(p,n-p-1,α) Determinação da Região critica e da Região de Aceitação. Como estamos testando , de acordo com a Figura 4, temos a seguinte configuração:

Figura 2: Representação Gráfica da Região de Aceitação (F-Snedecor).

Conclusão: Se (calculado) > F(α,p,n-p-1) rejeita-se e existe regressão.

3.3 Coeficiente de correlação linear múltiplo (r) e coeficiente de determinação

O coeficiente de correlação traduz numericamente o quanto as variáveis estão linearmente relacionadas entre si (NADAL et. al. 2003). É fornecido matricialmente pela raiz quadrada da expressão:
R2=SQRegSQtotal
O valor de R encontra-se no intervalo de 1 r 1, já o coeficiente de determinação indica numericamente o valor de avaliações que está sendo explicado pelo modelo, encontra-se entre o intervalo de 0 R2 1. Segundo BAPTISTELLA (2005), a desvantagem do coeficiente de determinação é que para uma mesma amostra ele cresce na medida em que aumentam o número de variáveis independentes incluídas no modelo, não levando em conta o número de graus de liberdade perdidos a cada parâmetro estimado. Para corrigir esta deficiência é preferível utilizar o conceito de Coeficiente de Determinação Ajustado, que para um modelo com p variáveis independentes, ajustado a uma amostra de n elementos, é calculado através da seguinte expressão:

Raj2=1-(1-R2)n-1n-p-1

3.5 Análise gráfica dos resíduos

Ao se colocar em um gráfico os resíduos e as variáveis explicativas é possível a verificação da existência de uma multicolinearidade, ou seja, uma relação exata entre as variáveis, se o coeficiente de correlação apresenta-se muito próximo da unidade. Se o gráfico demonstrar que os resíduos não estão alinhados então a correlação é meramente casual e os resíduos não mostram nenhuma tendência. Ao se analisar graficamente as distribuições (resíduos versus valor estimado) verifica-se a existência de homocedasticidade, ou seja, a hipótese de variância constante, que é aceita quando não há nenhuma tendência dos resíduos em relação ao valor estimado, neste caso denominado de heterocedasticidade (NADAL et. al. 2003).
4. Resumo Estatístico.

A aplicação da metodologia utilizada desenvolveu-se com o uso da estatística básica, tabela 2, observando-se os parâmetros da qualidade da água considerados mais importantes, considerando a utilização da água, tanto do ponto de vista estetico como sanitário. Esses parâmetros foram: DBO, pH, Turbidez e OD.

Tabela 2: Estatística descritiva dos parâmetros da qualidade da água
Estatística descritiva das varíaveis
Estatísticas
DBO
Turbidez
pH
OD
Min.
0.2
7
7.1
1
1st Qu.
0.75
11
7.2
2.67
Mediana
1.8
15
7.39
3.4
Média
3.14
19.33
7.652
3.8
3rd Qu.
4.67
22.25
7.92
4.9
Max.
14.9
64
7.90
8.2
Variância
12.11
175.71
0.027
3.74
Desvio-Padrão
3.48
13.25
0.164
1.93

Observando-se na análise descritiva com relação ao desvio-padrão as estimativas referentes ás variáveis Turbidez, obteve-se desvio-padrão elevado que, por consequencia resulta em elevada dispersão em torno da media. Apenas para variável OD oxigenio dissolvido) apresentou-se de forma homogenea.

4.1 Caracterização dos dados.

O objetivo deste trabalho foi estimar a DBO (Demanda Bioquimica de Oxigenio), variável independente (Y), atráves das variáveis explicativas pH (X1), Turbidez (X2), Oxigenio dissolvido (X3) e por fim o Local da coleta (X4 ), ponto PB 01 assumirá valor (1), enquanto o ponto TG 01 será (0), (ver figura 1) caracterizando uma variável dummy. Os dados estão disponiveis no site da SUDEMA (Superintendência de Administração do Meio Ambiente), www.sudema.pb.gov.br, atraves do programa Monitoramento de corpos d´água, implantado no estado da Paraíba. Os dados estão referentes ao estuario do ano de 2004.

Tabela 3: Dados relativos aos parametros do estuario de 2004.
OBS.
Y
X1
X2
X3
X4
Y2
X12
X22
X32
X42
YX1
YX2
YX3
YX4
1
7,2
7,9
22
8,2
1
51,84
62,41
484
67,24
1
56,88
158,4
59,04
7,2
2
0,6
7,4
11
3,2
1
0,36
54,76
121
10,24
1
4,44
6,6
1,92
0,6
3
0,6
7,38
11
1
1
0,36
54,4644
121
1
1
4,428
6,6
0,6
0,6
4
0,2
7,37
14
1,4
1
0,04
54,3169
196
1,96
1
1,474
2,8
0,28
0,2
5
2
7,38
23
1,6
1
4
54,4644
529
2,56
1
14,76
46
3,2
2
6
2,2
7,28
26
2,7
1
4,84
52,9984
676
7,29
1
16,016
57,2
5,94
2,2
7
14,9
7,13
39
4,9
1
222,01
50,8369
1521
24,01
1
106,237
581,1
73,01
14,9
8
5,4
7,58
18
7,4
1
29,16
57,4564
324
54,76
1
40,932
97,2
39,96
5,4
9
1,1
7,28
10
2,9
1
1,21
52,9984
100
8,41
1
8,008
11
3,19
1,1
10
3,7
7,44
19
4
1
13,69
55,3536
361
16
1
27,528
70,3
14,8
3,7
11
1,8
7,3
16
2
1
3,24
53,29
256
4
1
13,14
28,8
3,6
1,8
12
2,6
7,45
14
4,3
1
6,76
55,5025
196
18,49
1
19,37
36,4
11,18
2,6
13
9,6
7,26
64
6
0
92,16
52,7076
4096
36
0
69,696
614,4
57,6
0
14
0,8
7,52
11
2,6
0
0,64
56,5504
121
6,76
0
6,016
8,8
2,08
0
15
0,6
7,54
17
3,2
0
0,36
56,8516
289
10,24
0
4,524
10,2
1,92
0
16
0,4
7,41
19
2,8
0
0,16
54,9081
361
7,84
0
2,964
7,6
1,12
0
17
1,4
7,17
45
1,2
0
1,96
51,4089
2025
1,44
0
10,038
63
1,68
0
18
5,2
7,48
10
6,1
0
27,04
55,9504
100
37,21
0
38,896
52
31,72
0
19
4,5
7,45
24
4,5
0
20,25
55,5025
576
20,25
0
33,525
108
20,25
0
20
5,2
7,57
8
4,4
0
27,04
57,3049
64
19,36
0
39,364
41,6
22,88
0
21
0,5
7,54
7
4,9
0
0,25
56,8516
49
24,01
0
3,77
3,5
2,45
0
22
1,7
7,22
14
6,3
0
2,89
52,1284
196
39,69
0
12,274
23,8
10,71
0
23
1,8
7,37
9
3,5
0
3,24
54,3169
81
12,25
0
13,266
16,2
6,3
0
24
1,4
7,23
13
3,3
0
1,96
52,2729
169
10,89
0
10,122
18,2
4,62
0
TOTAL
75,4
177,65
464
92,4
12
515,46
1315,606
13012
441,9
12
557,668
2069,7
380,05
42,3

5. Matriz de Correlação

Duas variáveis apresentam uma correlação linear quando os pontos do diagrama de dispersão se aproximam de uma reta. Essa correlação pode ser positiva (paravalores crescentes de X, há uma tendência a valores também crescentes de Y) ou negativa (para valores crescentes de X, a tendência é observarem-se valores decrescentes de Y).
O coeficiente de correlação linear de Pearson é adimensional e varia entre -1 e +1, o que não ocorre com a covariância. Assim, as unidades adotadas pelas variáveis não afetam o valor do coeficiente de correlação. Caso os dados se alinhem perfeitamente ao longo de uma reta com declividade positiva teremos acorrelação linear positiva perfeita com o coeficiente de Pearson igual a 1.
Multicolinearidade é o relacionamento entre duas ou mais variáveis independentes: cov(Xi,Xj) = 0. Relacionamento entre variáveis independentes é chamado de multicolinearidade, e resulta em variâncias inflacionadas, artificialmente maiores que as verdadeiras, que inviabiliza a análise da significância dos coeficientes. Para resolver esse problema, uma das variáveis correlacionadas é eliminada, ou é construído um índice combinando as duas ou mais variáveis (PINTO, 2007).
Dessa forma conseguimos verificar as varíaveis que teram maior contribuição para o modelo, obsevar a multicolinearidade. O coeficiente de correlação linear amostral, também e representado por ry,x, é expresso por:


rY,X=i=1nxy-i=1nxi=1nyni=1nx2-i=1nx2ni=1ny2-i=1ny2n
Calculando para nossos dados:

rY,X1=3870.8-2227×133.47764462-2227277882.6-133.4277=0.06808071

rY,X2=7452.8-3138×133.477163632-3138277882.6-133.4277=0.4178088

rY,X3=1590.99-584×133.4779348.9-584277882.6-133.4277=0.3235429

rY,X4=999.285-589.23×133.4774515.1525-589.23277882.6-133.4277=-0.3398143


rX1,X2=90346-2227×31387764462-2227277163632-3138277=-0.300267

rX1,X3=16827-2227×5847764462-22272779348.9-584277=-0.1248966

rX1,X4=17043.76-2227×589.237764462-22272774515.1525-589.23277=0.1113531

rX2,X3=31351.9-3138×58477163632-31382779348.9-584277=0.5694682

rX2,X4=23751.55-3138×589.2377163632-31382774515.1525-589.23277=-0.5569716


rX3,X4=4423.031-584×589.23779348.9-5842774515.1525-589.23277=-0.263745

Tabela 3: Matriz de Correlação para os dados referentes aos parâmetros de qualidade.

DBO
pH
Turbidez
OD
Local
DBO
1




pH
-0,03401
1



Turbidez
0,576756
-0,3757
1


OD
0,57937
0,4554
0,107781
1

Local
0,112515
0,033539
-0,0578
-0,11435
1

A análise de correlação, de modo geral, revelou fraca correlação entre as variáveis independentes. No entanto, para pH versus OD a correlação foi positiva e próxima de 0,5, o que segundo DANTAS (2005), merece maior atenção já que gera degeneração do modelo e limita sua utilização.

















Figura 3: Gráficos de dispersão para as varíaveis.

6. Modelo de Regressão

O modelo estatístico para essa situação adotado:

Yi=β0+β1Xi1+β2Xi2+β3Xi3+β4Xi4+εi

Para se obter a equação estimada, vamos utilizar o Método dos Minímos Quadrados, visando a minimização dos erros. Assim, tem-se que:
εi=Yi-β0-β1Xi1-β2Xi2-β3Xi3-β4Xi4,
aplicando o somatório,
i=1nεi=i=1nYi-β0-β1Xi1-β2Xi2-β3Xi3-β4Xi4,
elevando ambos os membros da equação ao quadrado.
i=1nεi2=i=1nYi-β0-β1Xi1-β2Xi2-β3Xi3-β4Xi42,
(1)


Por meio da obtenção de estimadores de β0,β1,β2,β3, e β4, que minimizem o valor obtido na expressão anterior (1), é possível alcançar a minimização da soma de quadrados dos erros.
Para encontrar o mínimo para uma equação, deve-se derivá-la à varíavel de interesse e igualá-la a zero.

Derivando e igualando a zero:
i=1nεi2β0=0 i=1nεi2β1=0 i=1nεi2β2=0 i=1nεi2β3=0 i=1nεi2β4=0 2i=1nyi-b0-b1x1i-b2x2i-b3x3i-b4x4i.-1=02i=1nyi-b0-b1x1i-b2x2i-b3x3i-b4x4i.-x1=02i=1nyi-b0-b1x1i-b2x2i-b3x3i-b4x4i.-x2=02i=1nyi-b0-b1x1i-b2x2i-b3x3i-b4x4i.-x3=02i=1nyi-b0-b1x1i-b2x2i-b3x3i-b4x4i.-x4=0

(2)

(3)

(4)

(5)

(6)


Dividindo ambos os termos de (2),(3),(4),(5) e (7) por -1/2 e desenvolvendo-se somatórios temos:


i=1nyi-nb0-b1i=1nx1i-b2i=1nx2i-b3i=1nx3i-b4i=1nx4i=0i=1nyix1i-b0i=1nx1i-b1i=1nx1i2-b2i=1nx2ix1i-b3i=1nx3ix1i-b4i=1nx4ix1i=0i=1nyix2i-b0i=1nx2i-b1i=1nx2ix1i-b2i=1nx2i2-b3i=1nx3ix2i-b4i=1nx4ix2i=0i=1nyix3i-b0i=1nx3i-b1i=1nx1ix3i-b2i=1nx2ix3i-b3i=1nx3i2-b4i=1nx4ix3i=0i=1nyix4i-b0i=1nx4i-b1i=1nx1ix4i-b2i=1nx2ix4i-b3i=1nx3ix4i-b4i=1nx4i2=0

i=1nyi-nb0-b1i=1nx1i-b2i=1nx2i-b3i=1nx3i-b4i=1nx4i=0

nb0=i=1nyi-b1i=1nx1i-b2i=1nx2i-b3i=1nx3i-b4i=1nx4i

b0=i=1nyi-b1i=1nx1i-b2i=1nx2i-b3i=1nx3i-b4i=1nx4in
b0=y-b1x1-b2x2-b3x3-b4x4

Sitema de equações normais para o modelo:
Yi=β0+β1Xi1+β2Xi2+β3Xi3+β4Xi4+εi

b1i=1nx1i2+b2i=1nx2ix1i+b3i=1nx3ix1i+b4i=1nx4ix1i=i=1nyix1ib1i=1nx2ix1i+b2i=1nx2i2+b3i=1nx3ix2i+b4i=1nx4ix2i=i=1nyix2ib1i=1nx1ix3i+b2i=1nx2ix3i+b3i=1nx3i2+b4i=1nx4ix3i=i=1nyix3ib1i=1nx1ix4i+b2i=1nx2ix4i+b3i=1nx3ix4i+b4i=1nx4i2=i=1nyix4i


i=1nx1i2=i=1nX11i2-i=1nX3i2n=1315.606-31559.5224=0.6259958
i=1nx2i2=i=1nX2i2-i=1nX2i2n=13012-21529624= 4041.333
i=1nx3i2=i=1nX3i2-i=1nX3i2n=441.9-8537.7624=86.16
i=1nx4i2=i=1nX4i2-i=1nX4i2n= 12-14424=6
i=1nx1ix2i=i=1nX1iX2i-i=nX1ii=nX2in= 3415.67-82429.624=-18.89667
i=1nx1ix3i=i=1nX1iX3i-i=nX1ii=nX3in= 687.297-16414.8624=3.3445
i=1nx1ix4i=i=1nX1iX4i-i=nX1ii=nX4in= 88.89-2131.824=0.065
i=1nx1iyi=i=1nX1iYi-i=nX1ii=nYin= 557.668-13394.8124=-0.4490833
i=1nx2ix3i=i=1nX2iX3i-i=nX2ii=nX3in= 1850-42873.624=63.6
i=1nx2ix4i=i=1nX2iX4i-i=nX2ii=nX4in= 223-556824=-9
i=1nx2iyi=i=1nX2iYi-i=nX2ii=nYin= 2069.7-34985.624=611.9667
i=1nx3ix4i=i=1nX3iX4i-i=nX3ii=nX4in= 43.6-1108.824=-2.6
i=1nx3iyi=i=1nX3iYi-i=nX3ii=nYin= 380.05- 6966.9624=89.76
i=1nx4iyi=i=1nX4iYi-i=nX4ii=nYin= 42.3-904.824=4.6

Sistema de equações Normais.

0.6259958b1-18.8966b2+3.3445b3-18.89667b1+4041.333b2+63.6b33.3445b10.065b1+63.6b2-9b2+86.16b3-2.6b3 +0.065b4=-0.4490833-9b4= 611.9667-2.6b4+6b4= 89.76= 4.6
(1)
(2)
(3)
(4)
Dividindo a equação (1) por: 0.6259958; a (2) por: -18.8966 e a (3) por: -3.344; a (4) por 0.065 obtém-se:

b1-0.21931987b2+0.0388173b3b1-213.865616b2-3.3656848b3b1b1+19.0162954b2 -138.46154b2+0.1871717b3 -40.00000b3 +0.000754b4=-0.0052122017+0.476276b4= -32.3850164-0.777395b4+92.30769b4= 26.8380924= 70.76923
(5)
(6)
(7)
(8)

Subtraindo: (9) = (5) - (6) , (10) = (5) – (7) e (11) = (8) - (5), obtem-se:
183.6783593b2+8.7083600b3-0.3724398b4 = 31.6675061-49.2027599b2-20.4190107b3 +0.881230b4=-27.5554 108.27507b2+45.34269b3 -92.20386b4 = -71.48662
(9)
(10)
(11)

Dividindo a equação (9) por 183.6783593; a (10) por -49.2027599; a (11) por 108.27507 obtem-se:
b2+0.047410920b3-0.002027674b4=0.17240738b2+0.414997260b3-0.017910180b4= 0.56003937b2+0.418773100b3-0.851570500b4=-0.6602316
(12)
(13)
(14)
Subtraindo: (15) = (12) - (13) e (16) = (14) – (13) , obtem-se:
-3.675863e-01b3 + 1.588251e-02b4=3.876320e-01 3.775845e-03b3-8.336603e-01b4 =-1.220271e+00
(15)
(16)
Dividindo a equação (15) por -3.675863e-01; a (16) por 3.775845e-03, obtem-se:
b3 -4.320756e-02b4=1.054533e+00 b3 -2.207878e+02b4 =-3.231782e+02
(17)
(18)
Subtraindo: (19) = (17) - (18) , obtem-se:
2.207445e+02b4=3.242328e+02
(19)
Dividindo a equação (19) por 2.207445e+02; obtem-se o valor de b4.
b4=1.468815
Substituindo o valor de b4 na equação (17) chega-se ao valor de b3.
b3-4.320756e-02×1.468815=1.054533e+00
b3=1.117997
Substituindo o valor de b4 e b3 na equação (14) chega-se ao valor de b2.
b2+0.418773100×1.117997-0.851570500×1.468815=-0.6602316
b2= 0.1223813
Substituindo o valor de b4, b3 e b2 na equação (11) chega-se ao valor de b1.
b1-138.46154b2-40.00000b3+92.30769b4= 70.76923
b1-138.46154×0.1223813-40.00000×1.117997+92.30769×1.468815= 70.76923
b1= -3.14871
E por fim obtem-se o valor de b0 usando a expressão:
b0=y-b1x1-b2x2-b3x3-b4x4
b0=3,141667--3.14871×7,402083-0.1223813×19,333-1.117997×3,85-(0,5×1.468815)

b0=19.04399
A equação final:
Yi=19.04399-3.14871X1+0.1223813X2+1.117997X3+1.468815X4
Ou, o que e equivalente, em função das variáveis originais:

DBOi=19.04399-3.14871pHi+0.1223813Turbidezi+1.117997ODi+1.468815Locali

A interpretação dos coeficientes é a seguinte:

b0 - o valor previsto do DBO com um valores nulos das varíaveis (pH, Turbidez, Oxigenio dissolvido e local). Neste caso, a taxa de prevista seria 19.04399.

b1- a diminuição (porque o valor de b1 é negativo) prevista da taxa de DBO para o aumento de 3.14871 unidade na taxa de pH. Neste caso a diminuição prevista da taxa de DBO por aumento de 1 unidade da taxa de pH é de 3.14871.

b2- o aumento (porque o valor de b3 é positivo) prevista da taxa de DBO para o aumento de 0.12238 unidade na taxa de Turbidez.

b3- o aumento (porque o valor de b2 é positivo) prevista da taxa de DBO para o aumento de 1.1179 unidade na taxa de OD.

b4- o aumento (porque o valor de b4 é positivo) prevista da taxa de DBO para o aumento de 1.1179 unidade om relação Local.

CÁLCULO DAS VARIAÇÕES

Soma de Quadrados Total.
SQtotal=i=1n(Yï-Y)2=i=1nyi2-i=1nyi2n;
SQtotal=515.46-5685.1624=278.5783
Soma de Quadrados Regressão.
SQReg(X1,X2,X3,X4)=b1×i=1nx1iyi+b2×i=1nx2iy1+b3×i=1nx3iyi+b4×i=1nx4iyi

SQRegX1,X2,X3,X4=-3.14871×-0.4490833+0.1223813×611.9667
+1.117997×89.76+(1.468815×4.6).
SQRegX1,X2,X3,X4=183.4153
Soma de Quadrados Resíduo.
SQResiduo=SQtotal-SQRegX1,X2,X3,X4

SQResiduo=278.5783-183.4153=278.5783
Com os valores das somas de quadrados, podemos obter a Tabela Anova.
Tabela 4- Análise de variância
FV
GL
SQ
QM
F
Regressão
4
183.4153
45,85368
9,154968**
Resíduo
19
95.163
5,008612

Total
23
278.5783


Fα,p,n-p-1;F0.05,4,19=2,90
F(α,p,n-p-1); F0.01,4,19=3,94

Pela Tabela 4, observa-se a análise de variância, onde o coeficiente F calculado foi maior que o tabelado, aceitando-se a hipótese de existência de regressão.

R2=183.4153278.5783= 0.6583977



Raj2=1-1-0.658397724-124-4-1=0.5864815

O coeficiente de determinação (R2) foi de 06583977, ou seja, 65,8% do valor da taxa da demanda bioquimica oxigenio está sendo explicado pela equação, e o coeficiente de determinação ajustado foi de (Raj2) foi de 0,5864815.

7. Contribuição das variaveis para o modelo.

Contribuição de X4


Equivalente a construir um modelo em função de X1, X2 e X3 Para isto, como no caso anterior em função das tres variaveis, segue-se aos passos:

b1i=1nx1i2+b2i=1nx2ix1i+b3i=1nx3ix1i=i=1nyix1ib1i=1nx2ix1i+b2i=1nx2i2+b3i=1nx3ix2i=i=1nyix2ib1i=1nx1ix3i+b2i=1nx2ix3i+b3i=1nx3i2+=i=1nyix3i


Inicialmente encontra-se a solução do sistema:


0.6259958b1-18.8966b2+3.3445b3=-0.4490833-18.89667b1+4041.333b2+63.6b3= 611.96673.3445b1 +63.6b2 +86.16b3 = 89.76

(20)
(21)
(22)


Dividindo (20) por 0.6259958, (21) por -18.89667 e (22) por 3.3445, obtemos:

b1-30.186465b2+5.342688b3=-0.7173903b1-213.865616b2-3.365685b3= -32.385016b1 -30.1864645b2 +5.3426876b3=-0.7173903

(23)
(24)
(25)

Subtraindo: (26) = (23) - (24) e (17) = (25) – (24) , obtem-se:

183.679152b2+8.708372b3=31.667626232.88191b2+29.12738b3=59.22311
(26)
(27)

Dividindo (26) por 183.679152e (27) por 232.88191, obtemos:


b2+0.04741078b3=0.17240730b2+0.1250736b3=0.2543053
(28)
(29)

Subtraindo: (30) = (28) - (29) , obtem-se:
-7.766284e-02b3=-8.189802e-02

(30)
Dividindo a equação (30) por -7.766284e-02; obtem-se o valor de b3.
b3=1.054533

Substituindo o valor de b3 na equação (29) chega-se ao valor de b2.
b2+(0.1250736×1.054533)=0.2543053
b2=0.1224111

Substituindo o valor de b2, b3 na equação (25) chega-se ao valor de b1.
b1 -(30.1864645×0.1224111) +(5.3426876×1.054533)=-0.7173903
b1=-2.656272

E por fim obtem-se o valor de b0 usando a expressão:
b0=y-b1x1-b2x2-b3x3

b0=3,141667--2.656272×7,402083-0.1224111×19,333-1.054533×3,85

b0=16.3769
A equação final:
Yi=16.3769-2.656272X1+0.1224111X2+1.054533X3
A interpretação dos coeficientes é a seguinte:

Yi A taxa da Demanda Bioquimica de Oxigenio condicionada as outras variaveis.

b0 - o valor previsto do DBO com um valores nulos das varíaveis (pH, Turbidez, Oxigenio dissolvido). Neste caso, a taxa de prevista seria 16.3769.

b1- a diminuição (porque o valor de b1 é negativo). Neste caso a diminuição prevista da taxa de DBO por aumento de 2.656272 unidade da taxa de pH.

b2- o aumento (porque o valor de b3 é positivo) prevista da taxa de DBO para o aumento de 0.122411 unidade na taxa de Turbidez.

b3- o aumento (porque o valor de b2 é positivo) prevista da taxa de DBO para o aumento de 1.054333 unidade na taxa de OD.

CÁLCULO DAS VARIAÇÕES

Soma de Quadrados Regressão
SQReg(X1,X2,X3)=b1×i=1nx1iyi+b2×i=1nx2iy1+b3×i=1nx3iyi

SQReg(X1,X2,X3)=(-2.656272×-0.4490833)+(0.1224111×611.9667)+(1.054533×89.76)
SQReg(X1,X2,X3)=170.7593

R2=170.7593278.5783=0.612967


Raj2=1-1-0.61296724-124-3-1=0.554912
O coeficiente de determinação (R2) foi de 0612967, ou seja, 61,2% do valor da taxa da demanda bioquimica oxigenio está sendo explicado pela equação, e o coeficiente de determinação ajustado foi de (Raj2) foi de 0,554912.

Contribuição de X3

Equivalente a construir um modelo em função de X1 e X2 Para isto, como no caso anterior em função das duas variaveis, segue-se aos passos:


b1i=1nx1i2+b2i=1nx2ix1i=i=1nyix1ib1i=1nx2ix1i+b2i=1nx2i2=i=1nyix2i


0.6259958b1-18.8966b2=-0.4490833-18.89667b1+4041.333b2=611.9667

(31)
(32)
Dividindo (31) por 0.6259958, (32) por -18.89667, obtemos:

b1-30.1864645b2=-0.7173903b1-213.86562b2=-32.38502

(33)
(34)
Subtraindo: (35) = (33) - (34) , obtem-se:
183.67915 b2=31.66763

(35)
Dividindo a equação (35) por 183.67915; obtem-se o valor de b2.
b2=0.1724073

Substituindo o valor de b2 na equação (34) chega-se ao valor de b1.
b1-(213.86562×0.1724073)=-32.38502
b1=4.48697
E por fim obtem-se o valor de b0 usando a expressão:
b0=y-b1x1-b2x2

b0=3,141667-4.48697×7,402083-0.1724073×19,333

b0=-33.40441
A equação final:
Yi=-33.40441+4.48697X1+0.1724073X2
A interpretação dos coeficientes é a seguinte:

Yi A taxa da Demanda Bioquimica de Oxigenio condicionada as outras variaveis.

b0 - o valor previsto do DBO com um valores nulos das varíaveis (pH, Turbidez). Neste caso, a taxa de prevista seria -33.40441.

b1- o aumento (porque o valor de b1 é positivo) prevista da taxa de DBO para o aumento de 4.4869 unidade na taxa de pH.

b2- o aumento (porque o valor de b2 é positivo) prevista da taxa de DBO para o aumento de 0.1724073 unidade na taxa de Turbidez.

CÁLCULO DAS VARIAÇÕES

Soma de Quadrados Regressão
SQReg(X1,X2)=b1×i=1nx1iyi+b2×i=1nx2iy1

SQReg(X1,X2)=(4.48697×-0.4490833)+(0.1724073×611.9667)
SQReg(X1,X2)=103.4925

R2=103.4925278.5783=0.3715024


Raj2=1-1-0.371502424-124-2-1=0.3116455


O coeficiente de determinação (R2) foi de 0.3715024, ou seja, 37,1% do valor da taxa da demanda bioquimica oxigenio está sendo explicado pela equação, e o coeficiente de determinação ajustado foi de (Raj2) foi de 0,3116455.

Contribuição de X2

Equivalente a construir um modelo em função de X1. Para isto, como no caso anterior em função da variavel, segue-se aos passos:

b1i=1nx1i2=i=1nyix1i


0.6259958b1=-0.4490833
(36)

Dividindo (36) por 0.6259958, (32) , obtemos:

b1=-0.7173903

E por fim obtem-se o valor de b0 usando a expressão:
b0=y-b1x1

b0=3,141667--0.7173903×7,402083

b0=8.45185
A equação final:
Yi=8.45185-0.7173903X1

Yi A taxa da Demanda Bioquimica de Oxigenio condicionada ao pH.

b0 - o valor previsto do DBO com um valor nulo das varíavel (pH). Neste caso, a taxa de prevista seria 8.45185.

b1- a redução (porque o valor de b1 é negativo) prevista da taxa de DBO para o aumento de 0.7173903 unidade na taxa de pH.

CÁLCULO DAS VARIAÇÕES

Soma de Quadrados Regressão
SQReg(X1)=b1×i=1nx1iyi
SQReg(X1)=(-0.7173903×-0.4490833)
SQReg(X1)= 0.322168

R2=0.322168278.5783=0.001156472


Raj2=1-1-0.00115647224-124-2-1=-0.04424593

O coeficiente de determinação (R2) foi de 0.001156471, ou seja, 0,01% do valor da taxa da demanda bioquimica oxigenio está sendo explicado pela equação, e o coeficiente de determinação ajustado foi de (Raj2) foi de aproximadamente 0.

Obs: Como o Raj2 variar em torno 0 Raj2 1, vamos consirar Raj2=0.


Contribuições das variaveis e regressoes.

A contribuição de Xn e dada por:

ContXn=SQReg(X1,X2,…, Xn)-SQReg(X1,X2,…, Xn-1)

Primeiramente, testa-se a regressão entre os critérios (variáveis independentes) e o DBO (variáveis dependentes). As tabelas 5 e 6, representam os resultados realizados de forma isolada, isto é, o teste que prova estatisticamente, se a variável independente explica a variável dependente. Destaca-se que a montagem de uma equação de regressão depende dos resultados obtidos. Logo após, testa-se os critérios de rateio simultaneamente e, enfim, a análise geral.

Tabela 5: Análise de variância para as regressões e contribuições das variaveis.
FV
GL
SQ
QM
F
Regressão(X1,X2,X3,X4)
4
183.4153
45,85368
9,154968**
Regressão(X1,X2,X3)
3
170.7593
56.91977
10.55839**
Regressão(X1,X2)
2
103.4925
51.74625
6.206507**
Regressão(X1)
1
0.322168
0.322168
0.02547185NS
Resíduo(X1,X2,X3,X4)
19
95.163
5.008612

ResíduoX1,X2,X3
20
107.819
5.39095

ResíduoX1,X2
21
175.0858
8.337419

Resíduo(X1)
22
278.2561
12.648

Total
23
278.5783


ContX4
1
12.656
12.656
2.526848ns
ContX3
1
67.2668
67.2668
12.47773**
ContX2
1
103.1703
103.1703
12.37437**
ContX1
1
0.322168
0.322168
0.02547185ns
Fα,p,n-p-1;F0.05,4,19=2,90
F(α,p,n-p-1); F0.01,4,19=3,94
Fα,p,n-p-1;F0.05,3,20=3,10
F(α,p,n-p-1); F0.01,3,20=4,94
Fα,p,n-p-1;F0.05,2,21=3,10
F(α,p,n-p-1); F0.01,2,21=4,87
Fα,p,n-p-1;F0.05,1,22=4,30
F(α,p,n-p-1); F0.01,1,22=7,95


Tabela 6: Coeficiente para as regressões e contribuições das variaveis.

Regressão
R2
Raj2
FCal
(X1,X2,X3,X4)
0.6583977
0.5864815
9,154968**
(X1,X2,X3)
0.612967
0.554912
10.55839**
(X1,X2)
0.3715024
0.3116455
6.206507**








(X1)
0.001156472
0
0.02547185ns
(X2)
0.3703459
0.3116455
12.47773**
(X3)
0.2414646
0.2432665
12.37437**
(X4)
0.0454307
0.0315695
2.526848ns

De acordo com o exposto, anteriormente, o R² varia de zero a um. Quanto mais próximo de um melhor; pois, indica quanto da variação da taxa de DBO é explicada pela variação das variaveis. Para o F não há um intervalo definido, diz-se que quanto maior for o resultado, mais associadas estão as variáveis. Já a coluna de significância representa o teste de hipótese para aceitar ou não o critério para rateio do DBO.

Ainda pode se observar nas tabelas 5 e 6 , que as variaveis X1 X2, contribuiram de forma insignificativa para a equação, tendo pouca relação para explicar a variavel resposta DBO, assim serão descartadas da equação.

8. Modelo para (X2,X3).

Sistema de equações Normais.

b1i=1nx2i2+b2i=1nx2ix3i=i=1nyix2ib1i=1nx2ix3i+b2i=1nx3i2=i=1nyix3i

Inicialmente encontra-se a solução do sistema:

4041.333b1+63.6b2=611.966763.6b1+86.16b2=89.76
(37)
(38)
Dividindo (37) por 4041.333, (38) por 63.6, obtemos:

b1+0.01573738b2=0.15142694b1+1.354717b2=1.411321
(39)
(40)
Subtraindo: (41) = (40) - (39) , obtem-se:
-1.338980b2=-1.259894
(41)
Dividindo (41) por -1.338980, obtemos o valor b2.
b2=0.9409355
Substituindo o valor de b2 na equação (40) chega-se ao valor de b1.
b1+1.354717b2=1.411321
b1+(1.354717×0.9409355)=1.411321
b1=0.13662
E por fim obtem-se o valor de b0 usando a expressão:
b0=y-b1x2-b2x3

b0=3.141667-0.13662×19,333-0.9409355×3,85

b0=-3.122209
A equação final:
Yi=-3.122209+0.13662X2+0.9409355X3
Ou, o que e equivalente, em função das variáveis originais:

DBOi=-3.122209+0.13662Turbidezi+0.9409355ODi

A interpretação dos coeficientes é a seguinte:

b0 - o valor previsto do DBO com um valores nulos das varíaveis (Turbidez e Oxigenio dissolvido). Neste caso, a taxa de prevista seria -3.122209.

b1- o aumento (porque o valor de b1 é negativo) previsto da taxa de DBO para o aumento de 0.13662 unidade na taxa de Turbidez.

b2- o aumento (porque o valor de b3 é positivo) prevista da taxa de DBO para o aumento de 0.904955 unidade na taxa de Turbidez.

CÁLCULO DAS VARIAÇÕES

Soma de Quadrados Regressão

SQReg(X2,X3)=(0.13662×611.9667)+(0.9409355×89.76)

SQReg(X2,X3)=168.0653

R2=168.0653278.5783=0.6032965


Raj2=1-1-0.603296524-124-2-1=0.5655153
O coeficiente de determinação (R2) foi de 0.6032965, ou seja, 60.32% do valor da taxa da demanda bioquimica oxigenio está sendo explicado pela equação, e o coeficiente de determinação ajustado foi de (Raj2) foi de aproximadamente 56.55%.
9. Análise de Residuos

Diagnóstico para a variável resposta é realizado através de uma análise de resíduos. Os resíduos podem ser considerados como erros observados, para distingui-los do erro verdadeiro desconhecido εino modelo de regressão. As figuras 2 e 3, ilustram o valores observados, o plano ajustado em função da Turbidez e o oxigenio dissolvido, de acordo com a equação DBOi=-3.122209+
0.13662Turbidezi+0.9409355ODi:




Figura 2: Valores observados.


Figura 3 :Plano ajustado

Se o modelo é adequado para os dados, os resíduos observados devem refletir essas suposições.
1.A relação entre y e os regressores é aproximadamente linear;
2.O erro tem média zero e variância constante;
3.Os erros são não correlacionados;
4.Os erros são normalmente distribuídos.
Violação das suposições acima podem produzir instabilidade no modelo. Assim são verificadas adiante na figura 4.




Figura 4: Gráficos da análise de residuos.

A análise dos gráficos (Residuos vs Valores ajustados) da distribuição dos resíduos e as variáveis independentes X2 e X3 não revelou qualquer tendência, o que indica que a correlação é meramente casual, afastando a hipótese da existência de colinearidade (Figura 4).
O segundo gráfico (Gráfico de normalidade) mostra o grafico de quantis para os residuos, onde verificamos a normalidade dos dados.
O terceiro grafico (scale-Location Plot) mostra a distribuição da raiz do modulo dos residuos em comparação aos valores preditos . Este grafico permite a verificação da tedencia de heteroscedastidade em que a magnitude da variação dos residuos está correlacionada com os valores preditos. Entretanto, no nosso caso, não existe evidencias para acusar heteroscedastidade.
O último grafico mostra a distancia de Cook para cada observação. A distancia de cook tem uma distribuição F uma regra informal é preocupa-se quando a distancia para uma determinada observação for maior que 1. No nosso caso, não temos nenhuma observação tão influente assim, de modo que não precisamos nos preocupar com isto.

10. Modelo intrinsecamente linear

Os valores que compõe a Demanda Bioquimica de Oxigenio são valores reais estritamente positivos, enquanto que o campo da distribuição normal é todo o intervalo dos reais, isto faz com que esta não seja apropriada para dados hidrologicos. Segundo DANTAS (2005), uma solução que tem sido utilizada é a mudança para a escala logarítmica, uma vez que o logaritmo os valores abrange a reta real, a distribuição log-normal tem se mostrado bastante aderente a dados hidrologicos.

Sistema de equações Normais.

b1i=1nx2i2+b2i=1nx2ix3i=i=1nyix2ib1i=1nx2ix3i+b2i=1nx3i2=i=1nyix3i

Inicialmente encontra-se a solução do sistema:

6.932318b1+0.03079718b2=6.2933790.03079718b1+7.330546b2=8.814759
(42)
(43)
De acordo com Regazzi (2010), seja o sistema de equações lineares:
An nX1=g1
onde An é uma matriz quadrada de ordem n, de elementos conhecidos e não singular; nX1 é um vetor coluna de n componentes desconhecidos e g1 é um vetor coluna de n componentes conhecidos.
Logo, A-1, então Ax = g é consistente e a solução única é obtida de:
A-1Ax = A-1g x = A-1g
Logo assim , obtem-se:
0.1442545862-0.0006060441-0.00060604410.1364180328-1b1b2=6.2933798.814759
b1b2=0.1442545862-0.0006060441-0.00060604410.1364180328-1×6.2933798.814759
b1b2=0.90250671.1986780

E por fim obtem-se o valor de b0 usando a expressão:
b0=y-b1x2-b2x3

b0=3.141667-0.9025067×19,333-1.1986780×3,85

b0=-3.3661
A equação final:
Yi=e-3.3661+0.9025067lnX2+1.1986780lnX3

A interpretação dos coeficientes é a seguinte:

Y- logaritmo na base e do valor da taxa de Demanda Bioquimica de Oxigenio.

b0 - logaritmo na base e do valor previsto do DBO com um valores nulos das varíaveis (Turbidez e Oxigenio dissolvido). Neste caso, a taxa de prevista seria ln (-3.3661).

b1- o aumento (porque o valor de b1 é positivo) previsto da taxa de DBO para o aumento de ln(0.9025067) unidade na taxa de Turbidez.

b2- o aumento (porque o valor de b2 é positivo) prevista da taxa de DBO para o aumento de ln(1.1986780) unidade na taxa de Oxigenio dissolvido.

CÁLCULO DAS VARIAÇÕES:

Soma de Quadrados Regressão
SQReg(X2,X3)=b1×i=1nx2iyi+b2×i=1nx3iy1
SQReg(X2,X3)=(0.9025067×6.293379)+(1.1986780×8.814759)

SQReg(X2,X3)=16.24587
Soma de Quadrados Total.
SQtotal=i=1n(Yï-Y)2=i=1nyi2-i=1nyi2n;
SQtotal=36.53013-215.220924=27.5626
Soma de Quadrados Resíduo.
SQResiduo=SQtotal-SQRegX2,X3

SQResiduo=27.5626-16.24587=11.31673
Com os valores das somas de quadrados, podemos obter a Tabela Anova.
Tabela 7 - Análise de variância
FV
GL
SQ
QM
F
Regressão
2
16.24587
8.122935
15.0734**
Resíduo
21
11.31673
0.5388919

Total
23
27.5626


Fα,p,n-p-1;F0.05,2,19= 3.42
F(α,p,n-p-1); F0.01,2,19=5.66

Pela Tabela 4, observa-se a análise de variância, onde o coeficiente F calculado foi maior que o tabelado, aceitando-se a hipótese de existência de regressão.

R2=16.2458727.5626=0.5894172


Raj2=1-1-0.589417224-124-3-1=0.5278298


O coeficiente de determinação (R2) foi de 0.5894172, ou seja, 58.94% do valor da taxa da demanda bioquimica oxigenio está sendo explicado pela equação, e o coeficiente de determinação ajustado foi de (Raj2) foi de aproximadamente 52.27%.


10.1. Análise de residuos p/intrinsecamente linear

As figuras 5 e 6, ilustram o valores observados, o plano ajustado em função da Turbidez e o oxigenio dissolvido, de acordo com a equação:
Yi=e-3.3661+0.9025067lnX2+1.1986780lnX3




Figura 5: Plano Ajustado e valores observados.

As suposições do modelo ajustado precisam ser validadas para que os resultados sejam confiáveis. Chamamos de Análise dos Resíduos um conjunto de técnicas utilizadas para investigar a adequabilidade de um modelo de regressão com base nos resíduos.






Figura 6: Gráficos da análise de residuos.


Analisando-se o gráfico dos resíduos versus os valores ajustados, vê-se que parece existir um dado atípico, o que pode estar influenciando a variância dos resíduos, fazendo com que esta pareça não ser constante. Ainda através da análise deste gráfico nota-se que existe uma tendência não linear dos resíduos.
O gráfico (Scale-LocationPlot) mostra a distribuição da raiz do módulo dos resíduos em comparação aos valores preditos. O último gráfico mostra a distância de Cook para cada observação. Segundo Júnior (2005), a distância de Cook tem uma distribuição F, o quantil 50 é aproximadamente 1, por isso recomenda-se na prática que se a distância for menor que 1. Neste estudo se observa claramente que há pontos que são de influencia.


Considerações finais

Pode-se observar que a transformação dos dados, não colaborou para ter um melhor ajuste. Antes da transformação tinhamos um coeficiente de determinação ajustado foi de (Raj2) foi de aproximadamente 56.55% que passou para umcoeficiente de determinação de (Raj2) aproximadamente 52.27%, ou seja neste caso em especifico a transformação não melhorou o ajuste. Sugiram problemas nos gráficos de residuos a exemplo da distâcia de Cook, que houve pontos de influencia.






Conclusão

Com todos os resultados adquiridos neste trabalho, há de se ressaltar, que a análise de regressão é uma técnica indispensável na área da estatística. Como foi visto, surgem alguns problemas para se determinar uma função que exprima o relacionamento entre duas variáveis. Admite-se que existe um relacionamento funcional entre os valores dessas variáveis, e que explica grande parte da variação de y com x, ou vice-versa. Este relacionamento funcional corresponde a função linear que relaciona as variáveis. Uma parcela da variação, entretanto, permanece em geral sem ser explicada, e é atribuída ao acaso. Em outras palavras, admite-se existir uma função que justifica, em média, a variação de uma das variáveis em relação à outra.
A análise de regressão pressupõe algumas hipóteses sobre os erros: independência, média zero, variância constante, distribuição normal. Admite-se que os resíduos, em sua totalidade não devam possuir características particulares que sugiram que estas hipóteses não são adequadas. Uma técnica muito útil nesse caso é a análise de resíduos. A ferramenta fundamental para esta análise é o gráfico dos resíduos contra os valores estimados. Se o modelo ajustado é adequado aos dados, o gráfico dos resíduos ei VS valores preditos Yi, deve se assemelhar a uma faixa ao longo do eixo X ao redor de zero. Devemos ressaltar também que existem muitas técnicas para a análise da qualidade do ajuste do modelo que não estamos apresentando aqui.























Referências

BAPTISTELLA, M. O uso de redes neurais e regressão linear múltipla na engenharia de avaliações: determinação dos valores venais de imóveis urbanos.Universidade Federal do Paraná, Dissertação de Mestrado, Curitiba, 2005.

DANTAS, R.A. Engenharia de avaliação: uma introdução à metodologia científica. 2ª.ed. São Paulo: Pini, 2005.

NADAL, C.A. JULIANO, K.A.; RATTON, E. Testes estatísticos utilizados para a
validação de regressões múltiplas aplicadas na avaliação de imóveis urbanos. Bol.Ciênc. Geod., séc. Artigos, Curitiba, v.9, n°2, p.243-262, 200 3.

LEVINE, D.M.; BERENSON, M.L.; STEPHAN, D. Estatística: teoria e aplicações. Rio de Janeiro: LTC, 2005.

PINTO, E. J. A; Hidrologia estatística. Cprm, Serviço Geologico do Brasil. Recursos Hidricos, Belo Horizonte, 2007.

REGAZZI, A. J; Modelos Lineares I. Universidade Federal de Viçosa,Departamento de Estatística, 2010.

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.