Extração de fatores latentes e análise de clusters em dados sobre egressos da UFC/Quixadá

June 14, 2017 | Autor: Crislanio Macedo | Categoria: Multivariate Analysis, ESTATÍSTICA MULTIVARIADA, Cluster, Análise Fatorial Exploratória
Share Embed


Descrição do Produto

Extração de fatores latentes e análise de clusters em dados sobre egressos da UFC/Quixadá Crislânio de Souza Macêdo, Críston Pereira Souza, Lucas Ismaily Bezerra Freitas, Davi Romero de Vasconcelos Curso de Bacharelado em Ciência da Computação – Universidade Federal do Ceará (UFC) – Campus Quixadá Caixa Postal 15.064 – 91.501-970 – Ceará – CE – Brazil [email protected], [email protected], [email protected], [email protected]

Abstract. The aim of this study is to draw the profiles of students who have completed graduation on UFC Campus Quixadá. In order to do it, we applied a questionnaire for former students. The study takes place through the statistical techniques: Factor Analysis and K-Means Clustering. Resumo. O objetivo deste estudo é traçar os perfis de alunos que já concluíram a graduação na UFC em Quixadá. Para isso foi feito um questionário com alunos egressos. O estudo se dá através das técnicas estatísticas: Análise Fatorial (AF) e K-Means Clustering.

1. Introdução Este trabalho segue a metologia do livro “Análise multivariada: para cursos de administração, ciências contábeis e economia” [DIAS FILHO, J.M,; CORRAR, L.J (2009)]. Não apresentamos detalhadamente a metodologia por falta de espaço. Temos como objetivo extrair quais características são mais importantes para diferenciar os alunos que se formam dos que evadem. Essa parte inicial é exploratória, e o estudo remete somente aos alunos egressos.

2. Metodologia Foi utilizado um questionário com 15 questões respondidas por 72 egressos. Em seguida, utilizamos a ferramenta Statistical Package for the Social Sciences (SPSS) da IBM (1) para realizar as análises estatísticas nos dados, a saber: Análise Fatorial (AF) e K-means Clustering.

3. Análise Multivariada de Dados A Análise Multivariada de Dados refere-se a um conjunto de métodos estatísticos que torna possível a análise simultânea de medidas múltiplas para cada indivíduo, objeto ou fenômeno observado [DIAS FILHO, J.M, CORRAR, L.J (2009)]. Para nossa análise utilizaremos duas técnicas descritas brevemente a seguir.

3.1. K-Means Agrupamento k-means é um método de Clusterização que objetiva particionar n observações dentre k grupos, onde cada observação pertence ao grupo mais próximo do ponto médio do grupo.

3.2. Análise Fatorial (AF) A AF é uma técnica estatística que estuda os inter-relacionamentos entre as variáveis, num esforço para encontrar um conjunto de fatores (em menor número que o conjunto de variáveis originais) que exprime o que as variáveis originais partilham em comum. A AF pressupõe que altas correlações entre as variáveis geram agrupamentos que configuram os fatores. Ela é usada para identificação de fatores que podem ser usados para explicar o relacionamento entre um conjunto de variáveis.

4. Análise dos Dados Os dados em análise são descritos na Figura 1, temos as seguintes variáveis: teve_bolsa, ano_ingresso, ano_conc (onde os anos vão de 2007-2015, representados por 2007=0, 2008=1 e assim em diante), tempo_fst_job, escolaridade_pai, escolaridade_mae (onde a escolaridade é representada pelo ponto médio em anos, Fund. Incompleto (FI)=4,5 anos e assim em diante ), n_familiares (representado pelo ponto médio, ou seja, de até 3 pessoas=1,5 e assim por diante), renda (representado pelo ponto médio, renda até R$ 1000=0,5 e assim em diante), curso_es, curso_si, curso_rc, duração_curso, anos_formado, idade_quando_se_formou, dist_cidade_pra_qxd (representado pela distância em km), onde as variáveis representam, respectivamente, as perguntas da Figura 1.

Figura 1.Estatísticas Descritivas da amostra Fonte: O autor, 2015 5. Resultados obtidos

Na AF cada variável é explicada levando em consideração todas as outras, incluindo-se as variáveis latentes. Conseguimos um grau de explicação de 76,4 % com 6 fatores, ou seja, o modelo consegui explicar aproximadamente 77% da variância dos dados originais.

Figura 2. AF fatores Fonte: O autor, 2015

A Figura 2 mostra os fatores após a rotação Varimax (Rotated Component Matrix), onde é possível fazer uma classificação mais precisa dos indicadores em cada um dos fatores. Na análise a seguir, consideramos apenas os coeficientes dos fatores latente acima de 0,5. Desse modo podemos concluir que: o Fator 1 (“graduação”) é composto pelo ano de ingresso, ano de conclusão e anos formado; o Fator 2 (“percurso na graduação”) é composto pela idade quando se formou, se teve bolsa e duração do curso. Alunos com maior valor nesse fator são os mais velhos e que demoraram mais tempo para se formar, além de menor chance de ter obtido bolsa; o Fator 3 (“Estrutura familiar”); o Fator 4 (“Perfil do aluno de SI, RC n° de familiares”) é composto por curso si, rc e n° de familiares que dependem da renda; o Fator 5 (“Conseguir emprego durante a graduação”) é formado por alunos do curso de es. O Fator 6 (“Distância da cidade onde morava pra Quixadá”) formado pela variável dist_cidade_pra_qxd. Na Figura 4 temos a matriz de correlação, onde os valores variam de -1 a 1. Para Cohen (1988), escores entre 0,10 e 0,29 podem ser considerados pequenos; escores entre 0,30 e 0,49 podem ser considerados médios; e escores entre 0,50 e 1 podem ser interpretados como grandes.

Figura 3. Matriz de Correlação Fonte: O autor, 2015

Através da matriz de correlação observamos que alunos com renda acima da média, tende a ter escolaridade dos pais, duração do curso acima da média e menor chance de ser do curso de redes. Os que se formaram mais jovens possuem chance acima da média de ter obtido bolsa durante a graduação, e propendem a se formar em menos tempo. Alunos mais jovens que terminaram a graduação em menos tempo têm chance acima da média de ter obtido bolsa durante a graduação. Alunos que concluíram a graduação mais velhos, tendem a possuir a renda e a duração da graduação acima da média. Alunos que se formaram com idade acima da média, propendem a ter a duração do curso maior e tem menor chance de ter obtido bolsa durante a graduação. A Figura 4 mostra um gráfico em 3D para os três fatores mais explicativos (fatores 1,2,3). As Figuras 5 e 6, mostra os agrupamento com 3 clusters e o número de casos em cada cluster. Consideramos como ponto de corte de 0,4 assim que na Figura 5 para 3 grupos, o cluster 1 desfraldam do Fator 3 (“Estrutura familiar”) e Fator 5 (“Conseguir emprego durante a graduação”) abaixo da média. No cluster 2 temos o Fator 3 acima da média. Para o cluster 3 temos alunos com Fator 2 (“percurso na graduação”) e Fator 3 abaixo da média, e Fator 4 acima da média.

Figura 4. Gráfico Scatter para fatores de mais variância Fonte: O autor, 2015

Figura 5. K-Means para 3 agrupamentos de fatores latentes Fonte: O autor, 2015

Figura 6. Números de casos para casa agrupamento Fonte: O autor, 2015

6. Conclusão Em síntese este trabalho traz um estudo sobre os perfis de alunos egressos do Campus da UFC Quixadá. Como continuação deste trabalho realizaremos estudos para obter uma melhor compreensão dos motivos pelos quais os alunos evadem.

Referências DIAS FILHO, J.M.; CORRAR, L.J. Regressão Logística. In: CORRAR, L.J.; PAULO, E.; DIAS FILHO, J.M. (Coord.). Análise multivariada:para cursos de administração, ciências contábeis e economia. FIPECAFI – Fundação Instituto de Pesquisas Contábeis, Atuariais e Financeiras; São Paulo: Atlas, 2009 COHEN,Jacob. (1988),Statistical power analysis for the behavioral sciences. Hillsdale, NJ,Erlbaum. 1 “Disponível: http://www-01.ibm.com/software/br/analytics/spss/ Outubro/2015.

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.