Probabilidade para Aprovação no Vestibular do Curso de Estatística da UFS: Uma Aplicação Logística Binária

June 28, 2017 | Autor: M. Santos Oliveira | Categoria: Ensino Superior, VESTIBULAR, Classificação, Regressão Logística Binária
Share Embed


Descrição do Produto

XX SINAPE – Simpósio Nacional de Probabilidade e Estatística – João Pessoa/PB – 2012

Probabilidade para Aprovação no Vestibular do Curso de Estatística da UFS: Uma Aplicação Logística Binária Priscila da Silva Carvalho 1 Marcos Santos Oliveira 2 Manuel Luiz Figueiroa 3 Luciano Alves de Jesus Júnior 4 Resumo: O ensino superior público brasileiro costuma ser associado à ascensão social, implicando em discussões sociais e políticas sobre a equidade do acesso a esse patamar de ensino. Desta forma, em comunidades onde o nível educacional e os recursos financeiros disponíveis são constantes, o possível diferencial de desempenho ou desenvolvimento de seus integrantes pode ser explicado pelos laços de confiança estabelecidos entre os membros da comunidade que permite mobilização social coletiva e otimização dos recursos individuais existentes. Nesse trabalho foi utilizada uma base de dados fornecida pela Coordenação de Concursos e Vestibulares (CCV) da Universidade Federal de Sergipe (UFS), coletada através dos questionários socioculturais preenchidos pelos candidatos inscritos no vestibular para estatística da UFS, entre os anos de 2005 a 2010, totalizando o registro de 431 candidatos. Foi desenvolvido um modelo de Regressão Logística Binária, capaz de estimar a probabilidade de aprovação de cada candidato que vier a se inscrever futuramente nos próximos vestibulares da UFS para vagas no curso de estatística. O software utilizado para obtenção da equação de regressão foi o SPSS 17. A percentagem total de acertos foi de 69,8 que nos permitiu concluir uma boa discriminação para o modelo. O teste KS rejeitou a hipótese de nulidade, comprovando que o modelo é adequado na separação dos conjuntos (aprovados e reprovados). Palavras-Chave: Classificação, ensino superior, vestibular, regressão logística binária.

1. Introdução O tema da equidade do acesso ao ensino superior público no Brasil é cada vez mais atual. A forte seletividade social associada aos exames de acesso à universidade pública tem acarretado a adoção de alternativas diferenciadas para enfrentar o problema. Sabe-se que historicamente no Brasil o acesso ao ensino superior é influenciado pela origem social do estudante. A educação pode não só constituir um fator de mudança e mobilidade social como também contribuir para a manutenção das desigualdades. Pesquisas educacionais têm demonstrado que alunos oriundos de escolas públicas obtêm mais sucesso nos processos seletivos das instituições de ensino superior privadas, enquanto os provenientes de escolas particulares, em sua maioria, conseguem êxito nos processos seletivos das instituições públicas de ensino superior. A dualidade escola privada e escola pública tem sido utilizada para explicar em parte as diferenças de desempenho dos candidatos na seleção à educação superior.

1

Bacharela em Estatística pelo Departamento de Estatística e Ciências Atuariais da Universidade Federal de Sergipe. [email protected]. 2 Professor Substituto do Departamento de Estatística e Ciências Atuariais da Universidade Federal de Sergipe e Coordenador de Inteligência de Risco da Cencosud Brasil Ltda.. [email protected]. 3 Professor Doutor e Chefe do Departamento de Estatística e Ciências Atuariais da Universidade Federal de Sergipe. [email protected]. 4 Analista B da Embrapa Tabuleiro Costeiros. [email protected]

XX SINAPE – Simpósio Nacional de Probabilidade e Estatística – João Pessoa/PB – 2012

O ensino superior público brasileiro costuma ser associado à ascensão social, implicando em discussões sociais e políticas sobre a equidade do acesso à esse nível de ensino. Segundo Bourdieu (1998), o conceito de capital cultural é indispensável para explicar a desigualdade de desempenho escolar de crianças provenientes de diferentes classes sociais, bem como para enfatizar a natureza conservadora da instituição escolar. Com base em análises estatísticas o autor constatou a existência de forte correlação entre variáveis relacionadas ao perfil da família e o sucesso escolar dos filhos. O exame de seleção para o ingresso na universidade sempre teve papel relevante na educação brasileira. Uma das influências preeminentes, com uma função normativa mais poderosa do que os programas oficiais, livros didáticos, propostas curriculares ou os atuais parâmetros, sempre foi o exame vestibular. Assim, essas provas, mais do que cumprir a função classificatória para decidir quais os alunos que podem entrar nas escolas superiores, têm grande influência nos ensinos fundamental e médio (KRASILCHICK, 2000). Nossa proposta neste trabalho é de calcular as probabilidades para aprovação através da regressão logística Binária e avaliar as influências dos fatores escolares e socioeconômicos no desempenho (aprovação ou reprovação) dos candidatos às vagas do curso de estatística da Universidade Federal de Sergipe.

2. Metodologia O banco de dados trabalhado consistiu nos registros socioeconômicos dos candidatos às vagas do curso de estatística da UFS desde 2005 a 2010, adquiridos pela universidade, através de questionários preenchidos pelos próprios estudantes no ato da inscrição. 2.1.Regressão Logística Binária O método da Regressão Logística Binária é o da verossimilhança, ou seja, busca maximizar a probabilidade de que um evento ocorra. O modelo é não linear nos parâmetros. A equação que define o modelo logístico binário é dada algebricamente por (HOSMER; LEMESHOW, 1989): (I)

Figura 2.1.1: Curva da Regressão Logística A equação geral para a regressão logística é dada por:

(II)

Associação Brasileira de Estatística – ABE

XX SINAPE – Simpósio Nacional de Probabilidade e Estatística – João Pessoa/PB – 2012

2.2. Teste de Hosmer-Lemeshow O A aplicação do teste verifica se a classificação prevista, gerada pelo modelo, de cada grupo são iguais às observadas, por meio de estratificação das observações em faixas e da aplicação de um teste de Qui-quadrado. O interesse é que não rejeite a hipótese nula para que não haja essas diferenças significativas. O bom ajuste do modelo é indicado pela não significância do Qui-quadrado (HOSMER, LEMESHOW,1998). H0: Classificação Observada = Classificação Previsão H1: Classificação Observada ≠ Classificação Previsão 2.3. Curve Receiver Operating Characteristic (Curva ROC) A Curva ROC é um gráfico elaborado para efetivar a análise preditiva do modelo. É gerado a partir de uma Tabela de Classificação e do estabelecimento de um ponto de corte, cujos valores das probabilidades estimadas acima deste ponto indicam a ocorrência do evento de interesse (FÁVERO et al., 2009). Os valores abaixo indicam a não-ocorrência. A discriminação é aceitável quando a área abaixo da Curva ROC for maior que 0,7 u.a.. Tabela 2.3.1 – Discriminação da área da Curva ROC Área abaixo da Curva Interpretação ROC (u.a.) Menor ou igual a 0,5 Não há discriminação Entre 0,7 e 0,8 Discriminação aceitável Maior que 0,8 Discriminação excelente Fonte: FÁVERO et al.,2009.

2.4.Teste Kolmogorov-Smirnov (K-S) O teste Kolmogorov-Smirnov é um teste de aderência que compara a distribuição de frequência acumulada de um conjunto de valores observados da amostra com uma distribuição esperada ou teórica (FÁVERO et al., 2009). O teste K-S é um teste não-paramétrico e é usado para determinar se duas distribuições de probabilidade subjacentes diferem uma da outra ou se uma das distribuições de probabilidade subjacentes difere da distribuição em hipótese, em qualquer dos casos com base em amostras finitas Neste este estudo as probabilidades geradas pelo modelo obtido na regressão logística binária e categorizado pela variável preditora que é binária, referindo-se a ocorrência ou não-ocorrência do evento de interesse. H0: Ocorrência = Não-corrência H1: Ocorrência ≠ Não-corrência Nesta aplicação do teste K-S o interesse é que rejeite a hipótese nula para que haja diferenças significativas. Tabela 2.4.1 – Discriminação K-S K-S Interpretação Menor que 30 Baixa Discriminação De 30 a 50 Boa discriminação Maior que 50 Ótima discriminação

Associação Brasileira de Estatística – ABE

XX SINAPE – Simpósio Nacional de Probabilidade e Estatística – João Pessoa/PB – 2012

3. Resultados As 75 variáveis foram submetidas ao aplicativo SPSS 17 e através do método Enter foram selecionadas as variáveis com Nível de Significância inferior a 20% para compor o modelo. Submetemos novamente ao aplicativo, para chegar à combinação satisfatória para geração da equação final, exposta na Tabela 3.1, que mostra também o quanto satisfatórios foram os parâmetros estatísticos das variáveis, fortalecendo a adequação ao proposto no nosso problema. Tabela 3.1: Equação Final B 20 anos de Idade ,807 Sexo Feminino -,429 Espanhol como língua estrangeira ,359 Não Isentos da taxa de inscrição ,746 Fundamental em Escola Municipal -1,133 Passo Fundamental em Escola Estadual -,621 1 Médio em Escola Municipal 1,062 Médio em Escola Estadual ,721 Médio em Escola Federal 1,014 Estudou pela manhã ,396 Constante -,936

S.E. ,362 ,204 ,205 ,360 ,379 ,288 ,792 ,316 ,383 ,218 ,459

Wald 4,978 4,441 3,054 4,297 8,937 4,637 1,800 5,213 7,030 3,306 4,163

df Sig. Exp(B) 1 2,6% 2,241 1 3,5% ,651 1 8,1% 1,432 1 3,8% 2,108 1 0,3% ,322 1 3,1% ,538 1 18,0% 2,893 1 2,2% 2,056 1 0,8% 2,757 1 6,9% 1,487 1 4,1% ,392

Destaque para a variável “Médio em Escola Municipal” que apesar de ter a significância de 18% contribuiu par pontuar positivamente, como ocorre também, com “Médio em Escola Federal” com a significância de 0,8%. As variáveis que contribuem para penalizar são “Fundamental em Escola Municipal”, com 0,3%, e “Fundamental em Escola Estadual”, com 3,1%, de significância. O teste Hosmer-Lemeshow indicou que não rejeitamos H0, sendo assim, não há diferenças significativas entre a classificação prevista e a classificação observada, conforme tabela Tabela 3.2. Tabela 3.2: Teste de Hosmer-Lemeshow Etapa Qui-Quadrado g.l. Sig. 1 5,069 8 0,750 Tabela 3.3 – Tabela de Classificação Observado Etapa Reprova Reprova 127 1 Aprova 84 Percentual geral de acertos

Previsto Aprova Percentual de acertos 84 60,2 136 61,8 61,0

Na Tabela de Classificação tem-se outra visualização da eficiência da construção do modelo de regressão logística binária com destaque aos 61,0% de acertos gerais entre as observações e previsões.

Associação Brasileira de Estatística – ABE

XX SINAPE – Simpósio Nacional de Probabilidade e Estatística – João Pessoa/PB – 2012

Figura 3.1: Área da Curva ROC Na Curva ROC também validou-se a aplicabilidade do modelo onde a área abaixo da curva correspondeu a 0,748 u.a. indicando uma discriminação aceitável. O último teste utilizou-se para capacitar a efetiva utilização do modelo para mitigar o risco foi o Kolmogorov-Sminorv (KS). O modelo de regressão logística binária resultou um KS de 40,1%.

4. Conclusão O objetivo deste estudo foi o de desenvolver através de técnicas estatísticas, a principal delas foi a Regressão Logística Binária, um modelo que discriminasse os candidatos às vagas para o curso de estatística da UFS em aprovados ou reprovados, utilizando um banco de dados contendo o comportamento dos candidatos inscritos para o vestibular da universidade em questão. As informações comportamentais foram coletadas em um período de 5 anos através do órgão responsável pelo vestibular da universidade. O modelo de Discriminação desenvolvido apresentou resultados muito satisfatórios quanto ao seu poder de classificação dos candidatos, de acordo com o seu comportamento. O teste de Hosmer-Lemeshow com significância de 0,750, a Tabela de Classificação com acertos de 61,0%, sendo de 61,8% para os aprovados e de 60,2% para os reprovados, discriminado bem os candidatos diante do seu histórico sociocultural. Com a Curva ROC apresentando uma grande área ao utilizar da sensitividade e especificidade, com valor de 0,748 considerado também excelente. E por fim temos o teste de Kolmogorov-Smirnov que confirmou todos os ótimos resultados apresentados nos testes de ajustamento anteriores com o valor de 40,1%, sendo um bom resultado que confirma a confiabilidade no quesito discriminação do modelo.

5. Referências BOURDIEU, P.; PASSERON, J. C. Escritos de educação. Petrópolis, Vozes, 1998. FÁVERO, L. P., et al.. (2009). Análise de Dados: modelagem multivariada para tomada de decisõe. Rio de Janeiro: Elsevier. HOSMER, D. W., & LEMESHOW, S. (1998). Applied Survival Analysis: Regression Modeling of Time to Event Data. New York: Wiley Series in Probability and Statistics. KRASILCHIK, M. Reformas e Realidade: o caso do ensino das ciências, São Paulo em Perspectiva, 14(1), 2000, pp. 85-93. OLIVEIRA, F. E. (2007). SPSS Básico para Análise de Dados. Rio de Janeiro: Ciência Moderna.

Associação Brasileira de Estatística – ABE

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.