Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

Analise de Regressão Estatistica, Notas de estudo de Estatística

Modelo de Regressão Multipla - Suposições do Modelo.

Tipologia: Notas de estudo

2011

Compartilhado em 27/10/2011

rogerio-bernardino-10
rogerio-bernardino-10 🇧🇷

4.3

(9)

16 documentos

1 / 11

Documentos relacionados


Pré-visualização parcial do texto

Baixe Analise de Regressão Estatistica e outras Notas de estudo em PDF para Estatística, somente na Docsity!  Exercício de Análise de Regressão Objetivo: Realizar um estudo a respeito das vendas de telhados em 26 filiais de uma rede de lojas de construção. Através das variáveis regressoras gastos, clientes, marcas e potencial construir um modelo que explique o número total de telhados vendidos (em mil metros quadrados). O principal objetivo do estudo com esse conjunto de dados é tentar prever o número esperado de telhados vendidos dadas as variáveis explicativas, conforme segue abaixo: i) telhados, total de telhados vendidos (em mil metros quadrados), ii) gastos, gastos pela loja com promoções do produto (em mil US$), iii) clientes,número de clientes cadastrados na loja (em milhares), iv) marcas, número de marcas concorrentes do produto e v) potencial, potencial da loja (quanto maior o valor, maior o potencial). Suposições do Modelo de Regressão Múltipla εXβ iY 1. O modelo sendo estimado é, de fato, correto; 2. 0)( E 3. iiV  ,)( 2 tal que 2 >  ; 4. jCov iji ),(  5. Os únicos valores de ),...,( 1 kcc para os quais 0...,110  ikki xcxcc ; i são 0...1  ko ccc . Ou seja, as colunas de X são linearmente independentes (ou ainda, o posto de X é k); Modelo Estimado:   )(4)(3)(2)(10 potencialmarcasclientesgastosY (1) As estimativas dos coeficientes do modelo completo são apresentadas abaixo. Tabela 1: Estimativas para o ajuste do modelo completo Estimativas para o ajuste do modelo completo Coeficientes Estimativas Erro-padrão Valor t Pr(>|t|) Intercepto 178.3203 12.9603 13.759 5.62e-12 *** Gastos 1.8071 1.0810 1.672 0.109 Clientes 3.3178 0.1629 20.368 2.60e-15*** Marcas -21.1850 0.7879 -26.887 2.e-16 *** Potencial 0.3245 0.4678 0.694 0.495 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 9.604 on 21 degrees of freedom Multiple R-squared: 0.9892, Adjusted R-squared: 0.9871 AIC=122.08 Na Tabela 1 acima percebemos que as estimativas dos coeficientes (gastos pela loja com promoções do produto) e (potencial da loja) do modelo completo que não são significativas para o nível de 5% de significância para o teste t que avalia individualmente as variáveis. Tabela 2: Análise de Variância para o Modelo com todas as Variáveis. Análise de Variância para o Modelo com todas as Variáveis Coeficientes gl Soma de Quad. Quad. Médio Valor F Pr(>F) Gastos 1 4511 4511 48.8982 6.635e-07 *** Clientes 1 105118 105118 1139.5540 2.2e-16*** Marcas 1 67104 67104 727.4608 2.2e-16*** Potencial 1 44 44 0.4813 0.4954 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Como o p-valor de fit2.2 que é 2 ^ iY , é 0.2721, e esse valor é maior que o nível de significancia, onde α é 0.05, não rejeitamos 0H , ou seja, o modelo está bem especificado. 3 4 5 6 7 8 9 5 0 1 0 0 2 0 0 3 0 0 Gastos com o produto T ip o s d e T e lh a d o s 30 40 50 60 70 5 0 1 0 0 2 0 0 3 0 0 Número de Clientes cadastrados T ip o s d e T e lh a d o s 4 6 8 10 12 5 0 1 0 0 2 0 0 3 0 0 Área Construída T ip o s d e T e lh a d o s 4 6 8 10 12 5 0 1 0 0 2 0 0 3 0 0 Potencial T ip o s d e T e lh a d o s Figura1 : Gráfico de Dispersão das Variáveis Explicativas . Observa-se na Figura 1, o gráfico de dispersão no modelo completo com as variáveis telhados em relação com as variáveis explicativas no qual foi verificado que há uma certa tendência nas observações.  Verificando a Heterocedasticidade do modelo Suponha: iiVar  ,)( 2 ii xVar 2)(   Aqui, )( iVar  cresce com o aumento de ix . Quando ix é pequeno, )( iVar  será pequena e os dados devem estar concentrados em torno de uma reta (baixa dispersão); o comportamento de iy é quase exclusivamente dito por ix . Quando ix é grande, )( iVar  será grande também e haverá dispersão considerável nos dados ao redor da reta de regressão. Suposições do modelo: 1. O modelo é verdadeiro. 2.   ;0εE 3.   IVar  2ε ; 4. X tem colunas linearmente independentes. O estimador de MQO   yTT XXXb 1 Não satisfaz mais o teorema de Gauss-Markov. Para verificar a heterocedasticidade usaremos os testes: Goldfeld–Quandt e Breush- Pagan.   XY Teste de Goldfeld -Quandt Hipóteses Estatísticas 222 2 2 10 ...:   nH 222 2 2 11 ...:   nH Teste de Breush- Pagan. Hipóteses Estatísticas .0...: 210  SH  Homoscedasticidade :1H não 2 0 2 0 )0...0(:   gH i Através do teste Goldfeld –Quandt obteve-se o p-valor 0.01334 logo rejeitamos ao nível de 5% de significância, logo os dados são heterocedásticos, no entanto ao testarmos com o teste Breush- Pagan apresentou um p-valor 0.2908 ou seja os dados observados não são heterocedásticos. Podemos dizer que o teste é inconclusivo. Analisando o gráfico homocedasticidade podemos perceber que uma certa parte dos resíduos está aleatorizado e a outra parte existe tendência .Sendo assim , podemos dizer que há evidências de heterocedasticidade dos dados. Para verificar a autocorrelação usou-se o teste de autocorrelacão Durbin-Watson. Supondo normalidade para Y, o teste para autocorrelacão tem como hipóteses: :0H ρ=0 contra :1H ρ > 0. Onde temos as seguintes proposições. • Quando d → 4, ̂ → −1, (evidência de autocorrelacão negativa); • Quando d → 2, ̂ → 0, (evidência de não autocorrelacão); • Quando d → 0, ̂ → 1, (evidência de autocorrelacão positiva). A forma geral do teste é Rejeitar 0H se d estiver próximo de zero. O valor crítico ideal seria derivar a distribuição de d sob 0H , (quando 0H for verdadeira) e dele obter dc tal que  )( cddP Uma solução parcial é obter as estatísticas Ld e Ud cujas independem dos dados e tais que valores críticos “aproximados ” para o teste  )( LcL ddP e  )( UcU ddP Assim seus pontos críticos podem ser tabelados. Teste: Para um nível α (0; 1): • Rejeite 0H :  = 0 se d < Lcd ; • Não rejeite 0H se d > Ucd ; • O teste e inconclusivo se 4 − Ucd < d < 4 − Lcd . O valor critico ideal seria derivar a distribuição de d sobe 0H • Rejeite 0H : _ = 0 se d > 4 − Lcd ; • Não rejeite 0H se d < 4 − Ucd ; • O teste e inconclusivo se 4 − Ucd < d < 4 − Lcd . O valor crítico ideal seria derivar a distribuição de d sobe 0H Apresentam-se na Tabela 5 as estimativas para o Teste de Durbin-Watson Tabela 5: Resultados do Teste de Durbin-Watson Autocorrelação Hipótese H1 DW p-valor Negativa ρ<0 1,573 0,8592 Não autocorrelação ρ=0 1,573 0,2815 Positiva ρ>0 1,573 0,1408 Analisando a tabela acima podemos admitir que ao nivel de 5% de significância temos fortes indícios de não rejeitar a hipótese nula, ou seja, não nenhuma evidencia de correlação entre dois valores quaisquer entre a variável telhados.
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved