Análise das interações de estudantes na educação a distância a partir de uma técnica de mineração de dados educacionais

July 27, 2017 | Autor: Jorge Cavalcanti | Categoria: Educational Data Mining, EDM
Share Embed


Descrição do Produto

Universidade Federal do Vale do S˜ ao Francisco Curso de Gradua¸c˜ ao em Engenharia da Computa¸c˜ ao

Ricardo Euller Dantas e Silva

An´ alise das intera¸c˜ oes de estudantes na educa¸c˜ ao a distˆ ancia a partir de uma t´ ecnica de minera¸c˜ ao de dados educacional

Juazeiro - BA 2015

Universidade Federal do Vale do S˜ ao Francisco Curso de Gradua¸c˜ ao em Engenharia da Computa¸c˜ ao

Ricardo Euller Dantas e Silva

An´ alise das intera¸c˜ oes de estudantes na educa¸c˜ ao a distˆ ancia a partir de uma t´ ecnica de minera¸c˜ ao de dados educacional

Trabalho de Conclus˜ao de Curso apresentado `a Universidade Federal do Vale do S˜ao Francisco – UNIVASF, Campus Juazeiro–BA, como Requisito Parcial para obtenc¸˜ao do t´ıtulo de Engenheiro da Computac¸˜ao. Orientador: Jorge Luis Cavalcanti Ramos

Juazeiro - BA 2015

DEDICATORIA

` minha M˜ A ae pelo incentivo, amor e dedica¸c˜ ao de sempre...

AGRADECIMENTOS Agrade¸co inicialmente a Vida e a Deus. A minha Fam´ılia, em especial a minha m˜ae Margarida, minha tia Aparecida, minha irm˜a Agnes e minha ”v´o”Glorinha, pelo amor e carinho incondicional. A meu pai, Ezequias, pelos conselhos e ensinamentos. A meus primos ”irm˜ aos”, Alexandre e Glauber, pela amizade e companheirismo. A Elo´a, minha Namorada e minha parceira em tantas batalhas e vit´orias, pela for¸ca e por ser um exemplo de supera¸c˜ ao. Aos amigos de uma vida inteira, Leo, Marquinhos, Marlon, Marcelo, Whendel ”Pingo”, ”Jun˜ao”, Vin´ıcius e Emerson. Aos amigos da ”Republica”, ”Thiaguinho”, Eduardo, Nadielson, e aos que conheci atrav´es dela, Tˆ amara, Pamela, Guilherme e John. Aos amigos que a vida, atrav´es do Bombeiro, me presenteou: Honei, Johnnatan, ”Dr”Alves Jr., Francisco, Elton, PH Carneiro, Danylo Ferreira, Manoel, Rufino, Semirames, Celso e aos companheiros da Turma ”Golf”. A meu orientador, Jorge Cavalcanti, pela oportunidade, apoio e por sua participa¸c˜ao ´ımpar, durante a constru¸ca˜o deste trabalho. E, ao prof. Rodrigo Lins Rodrigues (UFRPE), pelas valiosas contribui¸c˜ oes para o desenvolvimento deste trabalho. A meu amigo Paulo, um Atlas, pela Amizade, bons papos e incentivo. A ”galera do almo¸co”: Jos´e Matias, Wilson, Nilo, Max, Henrique, Cleidson, Edmilson, Yutaka, Jo˜ ao ”Popˆ o”, Daniel Simi˜ ao e Marlon. Aos bons amigos que a Univasf me oportunizou conquistar: Deleisson, Thiago Gerson, Alisson, Bruno, C´esar, Mateus e aos colegas de turma. A todas as pessoas que n˜ao foram citadas aqui, mas que de alguma forma somam em minha vida e para essa vitoria. Meus sinceros agradecimentos...

”N˜ ao ´e o cr´ıtico que importa; nem aquele que aponta onde foi que o homem trope¸cou ou como o autor das fa¸canhas poderia ter feito melhor. O cr´edito pertence ao homem que est´ a por inteiro na arena da vida, cujo rosto est´ a manchado de poeira, suor e sangue; que luta bravamente; que erra, que decepciona, porque n˜ ao h´ a esfor¸co sem erros e decep¸c˜ oes; mas que, na verdade, se empenha em seus feitos; que conhece o entusiasmo, as grandes paix˜ oes; que se entrega a uma causa digna; que, na melhor das hip´ oteses, conhece no final o triunfo da grande conquista e que, na pior, se fracassar, ao menos fracassa ousando grandemente.” Trecho do discurso “Cidadania em uma Rep´ ublica” (ou “O Homem na Arena”), proferido na Sorbonne por Theodore Roosevelt, em 23 de abril de 1910.

RESUMO O uso crescente de sistemas de informa¸co˜es educacionais (SIE) e de ambientes virtuais de aprendizagem (AVA) tem produzido grande volumes de dados, provenientes de intera¸c˜oes e de registros cont´ınuos de informa¸c˜oes dos professores, alunos, gestores e demais atores dessas plataformas digitais. Esse volume de dados pode fornecer muito mais que informa¸co˜es gerenciais ou relat´orios de desempenho, por exemplo. O uso de t´ecnicas de minera¸ca˜o de dados educacionais (do inglˆes Educational Data Mining - EDM)pode ser u ´til para se descobrir novos conhecimentos relevantes nesses dados. A minera¸ca˜o de dados educacionais pode ser considerada uma extens˜ ao da minera¸c˜ao de dados tradicional, onde as tarefas e t´ecnicas desta u ´ ltima s˜ao adaptadas e aplicadas na extra¸ca˜o de conhecimento relevante em ambientes educacionais. Este trabalho tem como objetivo principal a pesquisa e explora¸ca˜o de dados provenientes de um ambiente virtual de aprendizagem, onde, a partir do uso de t´ecnicas de minera¸ca˜o de dados educacionais, buscou-se obter conhecimentos diversos acerca dos alunos iniciantes no ensino superior na modalidade a distˆ ancia, analisando especificamente os dados dos registros das intera¸c˜oes dos alunos no ambiente virtual e, a partir dai, a forma¸ca˜o de grupos distintos de alunos com caracter´ısticas de intera¸ca˜o semelhantes. O uso da t´ecnica de agrupamento (clustering) mostrou-se adequada para alcance dos objetivos deste projeto. A EDM e suas t´ecnicas permitem aperfei¸coar a compreens˜ao do comportamento dos alunos que utilizam AVAs, fornecendo diversos tipos de relat´orios de intera¸c˜ao nas m´ ultiplas funcionalidades e atividades dispon´ıveis no ambiente, destacando-se os f´oruns de discuss˜ao, chats e servi¸cos de mensagens. Para a constru¸ca˜o dos relat´orios de intera¸ca˜o, a literatura e o conhecimento de alguns ambientes em uso, contribu´ıram na identifica¸c˜ao das vari´aveis mais relevantes a respeito do comportamento dos alunos no ambiente virtual. A combina¸ca˜o destas vari´aveis proporcionou a constru¸ca˜o de diferentes tipos de an´alises que ser˜ao u ´ teis para a discuss˜ ao e avalia¸c˜ao das atividades desenvolvidas pelos alunos, de acordo com o objetivo do docente. Para o desenvolvimento deste trabalho, foram escolhidas as vari´aveis de intera¸c˜ao que foram consideradas mais relevantes, a partir do estudo da base de dados, e a nota final da disciplina. A partir da aplica¸c˜ao da t´ecnica de agrupamento, os alunos foram divididos em grupos de tamanho quatro e cinco, distintos, de acordo com as vari´aveis analisadas, possibilitando uma percep¸ca˜o dos alunos acerca das suas intera¸co˜es e respectivo desempenho na disciplina. Palavras-Chave: Minerac ¸˜ ao de Dados Educacionais, e-Learning, Ambientes Virtuais de Aprendizagem, Clusterizac ¸˜ ao, Agrupamento, Moodle.

ABSTRACT The growing usage of Educational Information Systems (EIS) and Virtual Learning Environment (VLA) have been producing a massive volume of data, from interactions and continuous registers of information of teachers, students, managers, e and other actors of these digital platforms. Such volume of data can provide beyond management information or performance reports, for example. The usage of Education Data Mining (EDM) technics can be useful to discover new relevant knowledges about these data. The education data mining can be considerate an extension of the traditional data mining, where the tasks and technics are adapted and applied in extraction of relevant knowledge in education environments. This work has as main objective the research and exploration of data from a Virtual Learning Environment, where, using education data mining technics, it was attempted to obtain information about beginner students in the modality of distance learning, analyzing specifically data about interaction registers of the students in the virtual environment and, from this point, the formation of distinct groups of students with similar interaction characteristics. The usage of the grouping technic has showed suitable to achieve the objectives of this project. The EDM and its technics allow to improve the comprehension of the behavior of the students that use VLAs, providing several kinds of reports of interaction in multiple functionalities and activities available in the environment, highlighting the forums discussions, online chats and messaging services. For the construction of interaction reports, the bibliography and knowing of some environments in use contributed in the identification of of the most relevant variables about the students’ behavior in the virtual environment. The combination of these variables allowed the construction of different kinds of analysis that will be useful to the discussion and evaluation of the activities performed by the students, according the professor’s objective. To produce this work, were chosen the most relevant interaction variables, and the final grade. From the grouping technic application, the students were divided in two distinct groups of four and five, according the analyzed variables, making possible a perception of the students about their interactions and respective performance in the subject. Keywords: Education Data Mining, e-Learning, Virtual Learning Environment, Clustering, Grouping, Moodle.

˜ LISTA DE ILUSTRAC ¸ OES Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9 – 10 – 11 – 12 – 13 – 14 – 15 – 16 – 17 – 18 – 19 – 20 – 21 – 22 – 23 – 24 – 25 – 26 – 27 – 28 – 29 – 30 – 31 –

Passos do processo de KDD . . . . . . . . . . . . . . . . . . . . . . . . Etapas de Pr´e-Processamento dos Dados . . . . . . . . . . . . . . . . . Diferentes caminhos da clusteriza¸c˜ao para o mesmo conjunto de dados . Etapas da minera¸c˜ao de dados educacionais . . . . . . . . . . . . . . . Tipos de pesquisa cient´ıfica . . . . . . . . . . . . . . . . . . . . . . . . Usando o SQL para acessar uma Base de Dados . . . . . . . . . . . . . Etapas do processo de clusteriza¸ca˜o . . . . . . . . . . . . . . . . . . . Modelo de um Dendograma e seus componentes . . . . . . . . . . . . . Comandos na tela do prompt do MySQL . . . . . . . . . . . . . . . . . Dendograma para 4 clusters . . . . . . . . . . . . . . . . . . . . . . . . Dendograma para 5 clusters . . . . . . . . . . . . . . . . . . . . . . . . Operadores do RapidMiner utilizados para a clusteriza¸ca˜o n˜ao hier´arquica R . . . . Configura¸ca˜o do operador K-means na ferramenta RapidMiner Matriz de correla¸ca˜o - Grupo 1 . . . . . . . . . . . . . . . . . . . . . . Matriz de correla¸ca˜o - Grupo 2 . . . . . . . . . . . . . . . . . . . . . . Matriz de correla¸ca˜o - Grupo 3 . . . . . . . . . . . . . . . . . . . . . . Matriz de correla¸ca˜o - Grupo 4 . . . . . . . . . . . . . . . . . . . . . . Matriz de correla¸ca˜o - Grupo 1 . . . . . . . . . . . . . . . . . . . . . . Matriz de correla¸ca˜o - Grupo 2 . . . . . . . . . . . . . . . . . . . . . . Matriz de correla¸ca˜o - Grupo 3 . . . . . . . . . . . . . . . . . . . . . . Matriz de correla¸ca˜o - Grupo 4 . . . . . . . . . . . . . . . . . . . . . . Matriz de correla¸ca˜o - Grupo 5 . . . . . . . . . . . . . . . . . . . . . . Matriz de correla¸ca˜o - Grupo 1 . . . . . . . . . . . . . . . . . . . . . . Matriz de correla¸ca˜o - Grupo 2 . . . . . . . . . . . . . . . . . . . . . . Matriz de correla¸ca˜o - Grupo 3 . . . . . . . . . . . . . . . . . . . . . . Matriz de correla¸ca˜o - Grupo 4 . . . . . . . . . . . . . . . . . . . . . . Matriz de correla¸ca˜o - Grupo 1 . . . . . . . . . . . . . . . . . . . . . . Matriz de correla¸ca˜o - Grupo 2 . . . . . . . . . . . . . . . . . . . . . . Matriz de correla¸ca˜o - Grupo 3 . . . . . . . . . . . . . . . . . . . . . . Matriz de correla¸ca˜o - Grupo 4 . . . . . . . . . . . . . . . . . . . . . . Matriz de correla¸ca˜o - Grupo 5 . . . . . . . . . . . . . . . . . . . . . .

24 26 31 33 39 43 50 52 56 64 66 67 68 72 72 73 73 74 75 75 76 76 77 78 78 79 80 80 81 81 82

LISTA DE TABELAS Tabela Tabela Tabela Tabela Tabela Tabela Tabela Tabela Tabela Tabela Tabela Tabela Tabela Tabela Tabela Tabela Tabela Tabela

1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9 – 10 – 11 – 12 – 13 – 14 – 15 – 16 – 17 – 18 –

Faixa de valores para a correla¸ca˜o . . . . . . . . . . . . . . . . . . . . . Consulta das intera¸co˜es dos Alunos no chat . . . . . . . . . . . . . . . Tabela com os dados coletados dos alunos . . . . . . . . . . . . . . . . Missing values nos registros dos estudantes - (Amostra) . . . . . . . . . Estrat´egia adotada para elimina¸c˜ao dos Missing values - (Amostra) . . Tabela ap´os altera¸co˜es - (Amostra) . . . . . . . . . . . . . . . . . . . . Tabela com os dados ap´os a normaliza¸c˜ao- - (Amostra) . . . . . . . . . Matriz de correla¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resultado da regress˜ao linear . . . . . . . . . . . . . . . . . . . . . . . Sumariza¸ca˜o de Dados - Clusteriza¸ca˜o Hier´arquica, K=4 . . . . . . . . Sumariza¸ca˜o de Dados - Clusteriza¸ca˜o Hier´arquica, K=5 . . . . . . . . Sumariza¸ca˜o de Dados - Clusteriza¸ca˜o n˜ao Hier´arquica, K=4 . . . . . . Sumariza¸ca˜o de Dados - Clusteriza¸ca˜o n˜ao Hier´arquica, K=5 . . . . . . Tabela de Sumariza¸ca˜o de Dados - Clusteriza¸c˜ao Hier´arquica, K=4 . . Tabela de Sumariza¸ca˜o de Dados - Clusteriza¸c˜ao Hier´arquica, K=5 . . Tabela de Sumariza¸ca˜o de Dados - Clusteriza¸c˜ao n˜ao Hier´arquica, K=4 Tabela de Sumariza¸ca˜o de Dados - Clusteriza¸c˜ao n˜ao Hier´arquica, K=5 Matriz de semelhan¸ca entre grupos e sua transposta . . . . . . . . . . .

49 58 59 59 60 60 61 61 62 65 67 69 70 71 74 77 79 82

LISTA DE QUADROS 1.1

Cursos Oferecidos pela SEaD . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.1 2.2 2.3 2.4 2.5 2.6

Vantagens e Desvantagens do e-Learning . . . . . . . . . . . . . . . . . . . Resumo das Tarefas de Minera¸c˜ao de Dados . . . . . . . . . . . . . . . . . Resumo das T´ecnicas de Minera¸c˜ao de Dados . . . . . . . . . . . . . . . . Rela¸ca˜o do processo de KDD com a EDM . . . . . . . . . . . . . . . . . . M´etodos de Educational Data Mining, seus objetivos/descri¸c˜ao e aplica¸co˜es Continua¸c˜ao: M´etodos de Educational Data Mining, seus objetivos/descri¸ca˜o e aplica¸c˜oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.1 5.2

17 28 30 33 34 35

Tabelas do Moodle importantes para o trabalho . . . . . . . . . . . . . . . 57 Atributos que descrevem as intera¸c˜oes entre os alunos . . . . . . . . . . . . 57

´ SUMARIO

1 1.1 1.2

Lista de ilustra¸c˜ oes . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

Lista de tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

Lista de quadros . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

˜ . . . . . . INTRODUC ¸ AO Justificativa . . . . . . . . Objetivos . . . . . . . . . . Objetivo Geral . . . . . . . . Objetivos Espec´ıficos . . . . . Organiza¸c˜ ao do Trabalho .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . .

. . . . . .

2.4

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Outros Ambientes Virtuais de Aprendizagem . . . . . . . . . . . . . . TelEduc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e-ProInfo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Amadeus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Processo de Descoberta de Conhecimento em Base de Dados Selec¸˜ao de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pr´e-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . Formatac¸˜ao (Transformac¸˜ao dos dados) . . . . . . . . . . . . . . . . . Minerac¸˜ao dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . Tarefas de Minerac¸˜ao de Dados . . . . . . . . . . . . . . . . . . . . . . T´ecnicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . An´ alise de Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Interpretac¸˜ao e avaliac¸˜ao . . . . . . . . . . . . . . . . . . . . . . . . Minera¸c˜ ao de Dados Educacionais - EDM . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . KDD . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . 36

4 4.1 4.2

´ MATERIAIS E METODOS Tipo de Pesquisa . . . . . . Materiais . . . . . . . . . . . Detalhes do Curso . . . . . . . Base de Dados . . . . . . . . . XAMPP . . . . . . . . . . . . . phpMyAdmin . . . . . . . . . . MySQL . . . . . . . . . . . . . SQL . . . . . . . . . . . . . . RapidMiner . . . . . . . . . . .

1.2.1 1.2.2

1.3 2 2.1 2.2 2.2.1 2.2.2 2.2.2.1 2.2.2.2 2.2.2.3

2.3 2.3.1 2.3.2 2.3.3 2.3.4 2.3.4.1 2.3.4.2 2.3.4.2.1

2.3.5

4.2.1 4.2.2 4.2.2.1 4.2.2.2 4.2.2.3 4.2.2.4

4.2.3

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

˜ DE LITERATURA . . . . . REVISAO e-Learning . . . . . . . . . . . . . . . . Ambientes Virtuais de Aprendizagem Moodle . . . . . . . . . . . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . .

. . . . . . . . . .

. . . . . .

. . . . . . . . . .

12

13 15 15 15

15 16

16 18 19 21 21 21 22

23 24 25 25 26 27 28 30

31

31

39

39 40 40 41 42 42 42 42

43

4.2.4 4.2.5

R Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2.5.1

Action . . . . . . . . . . . . . . . M´ etodos . . . . . . . . . . . . Preparac¸˜ao dos dados . . . . . . . Selec¸˜ao e compreens˜ao dos Dados . .

4.3 4.3.1 4.3.1.1 4.3.1.2

4.3.2 4.3.2.1 4.3.2.2 4.3.2.3 4.3.2.3.1

4.3.3

5 5.1 5.2 5.2.1 5.2.1.1

5.2.2

5.3 5.3.1 5.3.1.1 5.3.1.2

5.3.2 5.3.2.1 5.3.2.2

5.4 5.4.1 5.4.1.1 5.4.1.2

5.4.2 5.4.2.1 5.4.2.2

5.4.3

. . . .

. . . .

. . . .

. . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

˜ RESULTADO OBTIDOS E DISCUSSOES . . . . . . . . . . . Recupera¸c˜ ao dos dados do backup do AVA . . . . . . . . . . . Experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Preparac¸˜ao dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . Selec¸˜ao de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pr´e-Processamento dos Dados e Transformac¸˜ao de Dados . . . . . . . . Extra¸c˜ ao de padr˜ oes . . . . . . . . . . . . . . . . . . . . . . . . Clusterizac¸˜ao hier´arquica . . . . . . . . . . . . . . . . . . . . . . . . Clusterizac¸˜ao para 4 clusters . . . . . . . . . . . . . . . . . . . . . . . . Clusterizac¸˜ao para 5 clusters . . . . . . . . . . . . . . . . . . . . . . . . Clusterizac¸˜ao n˜ao hier´arquica . . . . . . . . . . . . . . . . . . . . . . Clusterizac¸˜ao para 4 clusters . . . . . . . . . . . . . . . . . . . . . . . . Clusterizac¸˜ao para 5 clusters . . . . . . . . . . . . . . . . . . . . . . . . P´ os-processamento . . . . . . . . . . . . . . . . . . . . . . . . . Clusterizac¸˜ao hier´arquica . . . . . . . . . . . . . . . . . . . . . . . . 4 clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Clusterizac¸˜ao n˜ao hier´arquica . . . . . . . . . . . . . . . . . . . . . . 4 clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comparac¸˜ao entre as clusterizac¸˜oes . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

Pr´e-Processamento e Transformac¸˜ao dos Dados

. . . . . . . K-Means . . . . . . . . . . . P´ os-Processamento . . . . . Extrac¸˜ao de padr˜ oes

Distˆancias de Minkowski . . Clusterizac¸˜ao Hier´arquica . . Clusterizac¸˜ao N˜ao Hier´arquica

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

44 45 45

46 46 47 47

49 51 52 54 54

55 56

56 56 57 57

59

61 63 63 65

67 68 69

70 70 70 73

76 76 79

82

Considera¸c˜ oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 Referˆ encias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 Apˆ endice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

12

˜ 1 INTRODUC ¸ AO O mercado de trabalho, pressionado pelos contextos tecnol´ogicos, pol´ıticos e econˆomicos do mundo contemporˆaneo, leva os indiv´ıduos a perceberem uma crescente e constante necessidade da aquisi¸c˜ao de novos saberes, capacita¸c˜oes e competˆencias. As crescentes exigˆencias desse mercado fazem surgir novas modalidades de educa¸c˜ao, que exploram a colabora¸c˜ao entre os indiv´ıduos, a flexibilidade de a¸c˜oes para a constru¸c˜ao de saberes e n˜ao mais privilegiam o ac´ umulo dos conhecimentos, mas sim seu constante rearranjo, extrapolando as paredes da sala de aula e os limites do rel´ogio (SALVUCCI et al., 2012). A Educa¸ca˜o a Distˆancia (EAD) surge no cen´ario da educa¸ca˜o como uma possibilidade as institui¸co˜es de ensino, os o´rg˜aos governamentais e a iniciativa privada de oferecer uma forma mais dinˆamica de aprendizado e de aquisi¸ca˜o de conhecimento dentro de suas respectivas realidades. A EAD possibilita que a educa¸c˜ao chegue a pessoas em locais de dif´ıcil acesso, alcan¸cando um n´ umero maior de pessoas, de forma menos custosa e com hor´arios de estudo que atendam a disponibilidade do estudante. Existem no mercado algumas modalidades de Educa¸ca˜o a Distˆancia, onde podemos citar o e-Learning. O e-Learning ´e utilizado neste trabalho e como principais caracter´ısticas a autoaprendizagem, com a media¸ca˜o de recursos did´aticos sistematicamente organizados, apresentados em diferentes suportes tecnol´ogicos de informa¸c˜ao, utilizados isoladamente ou combinados, e veiculados atrav´es da Internet. Neste contexto, esta modalidade possibilitou a utiliza¸ca˜o dos chamados Ambientes Virtuais de Aprendizagem (AVAs). Esses ambientes possibilitam a intera¸ca˜o entre alunos, professores e o conte´ udo oferecido pelos cursos, onde s˜ao disponibilizados aos usu´arios acesso a recursos e ferramentas que permitem a comunica¸ca˜o, constru¸ca˜o do conhecimento e avalia¸c˜ao, como: f´oruns, question´arios, chat, wiki, acesso a livros para leitura, etc. A utiliza¸c˜ao desses ambientes possibilitou um melhor acompanhamento da intera¸c˜ao dos usu´arios, pois estes permitem o armazenamento em seu banco de dados de todas as intera¸c˜oes e informa¸c˜oes do ambiente, gerando uma enorme quantidade de dados que podem vir a gerar conhecimento aplic´avel a respeito dos usu´arios, disciplinas e cursos. A partir desses dados brutos n˜ao ´e poss´ıvel, a priori, a extra¸ca˜o de conhecimento v´alido para a an´alise das intera¸c˜oes dos usu´arios no ambiente. A fim de construir conhecimento a partir da ”ignorˆancia”fornecida pelos dados, podem ser utilizadas t´ecnicas de Minera¸c˜ao de Dados Educacionais, do inglˆes: Educational Data Mining (EDM). Esta ´e definida como a ´area que ´e respons´avel pelo o desenvolvimento de m´etodos que buscam explorar bases de dados de ambientes educacionais. Assim, a partir do conhecimento obtido atrav´es da EDM ´e poss´ıvel uma melhor compreens˜ao do aprendizado dos alunos e dos fatores que influenciam direta ou indiretamente sua aprendizagem em AVAs. Neste trabalho foi utilizado o AVA Moodle, onde, buscando atingir os objetivos pedag´ogicos propostos pelo professor respons´avel pelo curso, fez-se uso de uma variedade de ferramentas relacionadas como, chats, f´orum, di´arios, question´arios, publica¸ca˜o de arquivos de a´udio e de imagens e outras ferramentas. A minera¸ca˜o de dados educacionais, com uma das suas t´ecnicas e algoritmos, foi utilizada para an´alise dos dados obtidos do ambiente

13

Moodle a fim de encontrar padr˜oes nos dados brutos contidos na Base de Dados. Depois de analisados, esses padr˜oes obtidos foram utilizados na determina¸c˜ao do conhecimento a cerca dos usu´arios, possibilitando gestores, professores ou tutores, tomarem atitudes corretas, a fim possibilitar que o aluno tenha um melhor aproveitamento do curso.

1.1 Justificativa O Minist´erio da Educa¸ca˜o lan¸cou, em dezembro de 2005, o Sistema Universidade Aberta do Brasil, o Sistema UAB, com o objetivo de democratizar, expandir e interiorizar a oferta de ensino superior p´ ublico e gratuito no pa´ıs. A partir de 2007, com as novas atribui¸co˜es da Coordena¸ca˜o de Aperfei¸coamento de Pessoal de N´ıvel Superior (CAPES), o programa UAB passou a integrar as atividades da Diretoria de Educa¸c˜ao a Distˆancia da CAPES, com a miss˜ao fundamental de colaborar com o processo de forma¸c˜ao inicial e continuada de professores para a educa¸ca˜o b´asica (UAB, 2014). O sistema est´a ampliando sua rede de coopera¸ca˜o para alcan¸car a totalidade das institui¸co˜es p´ ublicas de ensino superior no Brasil e com a expectativa de atender a 800 mil alunos/ano em mais de mil polos geograficamente distribu´ıdos no pa´ıs. Um dos pilares da estrat´egia de expans˜ao das atividades e da abrangˆencia da UAB ´e a ado¸ca˜o de ambientes virtuais de ensino/aprendizagem que favore¸cam a dissemina¸c˜ao de conte´ udos e que ao mesmo tempo sejam de f´acil implementa¸c˜ao pelas institui¸c˜oes e de f´acil uso pelos alunos da modalidade. Nesse quesito, a plataforma Moodle tem sido preferencialmente adotada na maioria das IES. Conforme levantamento feito por (GALAFASSI et al., 2013), cerca de 98% das institui¸c˜oes de ensino p´ ublicas no pa´ıs usavam o Moodle, sendo que algumas usavam mais de um ambiente. A Universidade Federal do Vale do S˜ao Francisco (UNIVASF) criou, em 2009, a Secretaria de Educa¸c˜ao a Distˆancia (SEAD), como ´org˜ao suplementar da administra¸c˜ao superior, respons´avel pelo fomento, apoio, articula¸ca˜o e execu¸ca˜o de projetos institucionais em Educa¸ca˜o a Distˆancia (EAD). A partir da´ı v´arias capacita¸co˜es internas foram realizadas e, desde 2012, foram ofertadas para a comunidade diversas forma¸c˜oes, como podemos observar no quadro 1.1, a seguir:

14 Quadro 1.1 – Cursos Oferecidos pela SEaD

Fonte: SEaD (2015)

Essas iniciativas refor¸cam ainda mais a modalidade e exigem uma aten¸ca˜o maior a aspectos importantes na consolida¸ca˜o e manuten¸ca˜o das atividades de EAD na institui¸ca˜o, dentre as quais o in´ıcio de pesquisas internas voltadas para essa modalidade, como forma de se agregar procedimentos validados cientificamente, ferramentas de gest˜ao e avalia¸ca˜o mais eficientes e metodologias inovadoras e capazes de superar grandes desafios da EAD. Com a ades˜ao da UNIVASF ao Sistema Universidade Aberta do Brasil (UAB) e, por consequˆencia, a ado¸c˜ao da modalidade a distˆancia para oferta de novos cursos de gradua¸ca˜o, p´os-gradua¸ca˜o e extens˜ao, o uso de ferramentas computacionais para suporte a esses cursos ser˜ao cada vez mais demandados e com isso, espera-se agregar a essas ferramentas, mecanismos mais eficientes, transparentes e abrangentes de avalia¸c˜ao dos alunos matriculados. Com a expans˜ao do EAD de maneira respons´avel e planejada, com infraestrutura compat´ıvel, recursos humanos qualificados, est´a sendo poss´ıvel a oferta pela UNIVASF de novos cursos na sua regi˜ao de atua¸ca˜o ou mesmo expandindo-a, disseminando conhecimento e possibilitando mais oportunidades para o desenvolvimento regional. Este trabalho est´a ancorado no foco de iniciar um processo de investiga¸c˜ao acerca das intera¸co˜es dos alunos nos ambientes de EAD da UNIVASF, incluindo aspectos relacionados com a an´alise da participa¸c˜ao e desempenho dos alunos a partir dessas intera¸co˜es, an´alise e visualiza¸ca˜o de grandes volumes de informa¸co˜es geradas pelo ambiente virtual, a partir de t´ecnicas de extra¸c˜ao e minera¸c˜ao de dados relevantes, e a posterior transforma¸ca˜o dos mesmos em relat´orios ou gr´aficos que facilitem a percep¸ca˜o de tendˆencias, comportamentos e resultados dos processos educacionais nos ambientes de EAD.

15

1.2 Objetivos 1.2.1 Objetivo Geral Realizar a partir da utiliza¸c˜ao de minera¸c˜ao de dados educacionais a descoberta de conhecimento relevante a partir da an´alise das intera¸co˜es e do desempenho dos alunos iniciantes na educa¸c˜ao a distˆancia em um ambiente virtual de aprendizagem. 1.2.2 Objetivos Espec´ıficos A fim de concretizar o que foi estipulado como Objetivo Geral, elencam-se nesta sess˜ao os objetivos espec´ıficos desta etapa do trabalho. S˜ao eles: • Definir um conjunto de vari´aveis de intera¸ca˜o no ambiente que tenham rela¸ca˜o com o desempenho do aluno no curso; • Especificar a t´ecnica de EDM apropriada para an´alise das intera¸c˜oes selecionadas; • Realizar a an´alise das intera¸c˜oes dos alunos a partir do uso da EDM; • Descrever, a partir dos resultados obtidos, as principais caracter´ısticas de intera¸ca˜o dos estudantes no curso selecionado.

1.3 Organizac¸˜ao do Trabalho Este trabalho consta de mais seis cap´ıtulos. No cap´ıtulo 2, trataremos do referencial te´orico, destacando alguns temas importantes a compreens˜ao do trabalho desenvolvido. A priori, trataremos dos conceitos de e-Learning. Em seguida, ser˜ao apresentados os conceitos dos ambientes virtuais de ensino (AVAs), dando enfoque maior a ferramenta Moodle. Em seguida, ser˜ao apresentados conceitos a respeito da minera¸ca˜o de dados e da mira¸ca˜o de dados educacionais, detalahndo os principais conceitos a respeitos dos temas. No cap´ıtulo 3, s˜ao apresentados os trabalhos relacionados a ´area de Minera¸c˜ao de Dados Educacionais no Brasil e de renomes mundiais da ´area, que foram referˆencias importantes para a constru¸ca˜o deste trabalho. O cap´ıtulo 4, trata da parte metodol´ogica do projeto, capitulo de materiais e m´etodos, detalhando o tipo de pesquisa desenvolvido neste trabalho, os materiais utilizados e m´etodos que serviram de suporte e guia para o processo de descoberta de conhecimento na base de dados. No cap´ıtulo 5 s˜ao descritas as etapas do processo de descoberta do conhecimento de acordo com a metodologia descrita na se¸c˜ao de Materiais e M´etodos. Tamb´em s˜ao apresentados e discutidos os resultados do processo. Este texto ´e finalizado com as Considera¸c˜oes Finais, os Trabalhos futuros, as Referˆencias utilizadas no trabalho e os Apˆendices.

16

˜ DE LITERATURA 2 REVISAO Este cap´ıtulo ´e destinado para a revis˜ao de literatura do trabalho, onde ser˜ao descritas as principais t´ecnicas e conceitos utilizados em seu desenvolvimento. O cap´ıtulo ´e iniciado apresentando os conceitos de e-Learning, na se¸c˜ao 2.1. Na se¸c˜ao 2.2 s˜ao apresentados os conceitos de Ambientes Virtuais de Aprendizagem, dando um enfoque maior a ferramenta Moodle, cen´ario onde o trabalho se desenvolver´a. A se¸ca˜o 2.3, apresenta o processo de descoberta de conhecimento, destacando suas etapas, em especial a de minera¸c˜ao de dados. Na se¸c˜ao 2.4, ´e apresentada a Minera¸c˜ao de Dados Educacionais, mostrando sua relevˆancia, o processo de minera¸ca˜o e a aplica¸ca˜o ao contexto do trabalho.

2.1 e-Learning A Internet vem permitindo a cria¸ca˜o de ambientes virtuais de ensino e aprendizado para apoio a Educa¸c˜ao a Distˆancia. As vantagens dessa modalidade s˜ao muitas, entre elas, podemos citar: possibilidade de expans˜ao da educa¸ca˜o para contemplar um n´ umero cada vez maior de pessoas, a redu¸c˜ao de custos consider´avel de suas tecnologias e de procedimentos, a oferta a popula¸c˜oes desprovidas financeiramente. Essa modalidade viabiliza forma¸co˜es em turnos alternativos, distintos dos hor´arios em ambientes escolares presenciais (RAMOS et al., 2014). Para Pinheiro (2002), A dissemina¸ca ˜o da Internet como um novo meio de comunica¸ca ˜o e a sua populariza¸c˜ ao mediante as comunidades acadˆemicas, fizeram com que professores e estudiosos visualizassem nela uma nova ferramenta para a educa¸c˜ ao. Sua capacidade de fornecer intera¸c˜ ao em tempo real a pessoas que se encontram fisicamente distantes, ou mesmo, comunica¸ca˜o ass´ıncrona em grandes grupos de pessoas dispersas acabaram por criar um novo conceito dentro da j´ a tradicional educa¸ca ˜o a distˆ ancia que ´e o chamado e-Learning.

No sentido da aprendizagem remota, o e-Learning refere-se ao uso de meios eletrˆonicos e tecnologias de informa¸c˜ao e comunica¸c˜ao (TICs) na educa¸c˜ao (CLARK; MAYER, 2011). O e-Learning ´e amplamente inclusivo a todas as formas de tecnologia educacional no ensino e aprendizagem, e proporciona interatividade durante o processo de aprendizagem e comunica¸ca˜o entre os estudantes mesmo fora das salas de aula. Os diversos modelos de EAD diferem em v´arios aspectos, tais como os tipos de tecnologias empregadas, o controle do ritmo e o local da instru¸ca˜o. Em alguns modelos, os docentes e a institui¸ca˜o possuem um controle completo ou parcial sobre esses. Em outros, o controle recai sobre os alunos, nos quais cada um pode determinar seu ritmo de estudo e de aprendizagem(RAMOS, 2006). Em Desai et al. (2008) ´e afirmado que, Um dos maiores desafios da aprendizagem para institui¸c˜ oes e instrutores ao projetarem e implementarem cursos online ´e proporcionar um senso de comunidade com feedback construtivo e fornecer intera¸c˜ oes cada vez mais pr´ oximas, bem como promover os sentimentos de amizade, coes˜ ao e satisfa¸c˜ ao entre os alunos. Outro aspecto importante relatado ´e que a intera¸c˜ ao bidirecional ´e uma caracter´ıstica cr´ıtica do processo educativo.

17

O e-Learning apresenta algumas vantagens e desvantagens em rela¸c˜ao a outros processos de aprendizagem. O quadro a seguir ilustra um conjunto de benef´ıcios e inconvenientes do e-Learning para os alunos, para os professores e para as institui¸co˜es de ensino. Quadro 2.1 – Vantagens e Desvantagens do e-Learning

Fonte: Lima e Capit˜ao (2003)

Neste sentido, o e-Learning, pode proporcionar uma aprendizagem personalizada, em conformidade com a necessidade, a disponibilidade e o ritmo do indiv´ıduo, independentemente da plataforma usada para conect´a-lo `a Internet. Poder aprender sem limita¸c˜oes de hor´ario e espa¸co f´ısico ´e, sem d´ uvida, a situa¸c˜ao ideal para todos os que tˆem uma atividade profissional exigente ou que est˜ao geograficamente distantes dos centros de ensino e forma¸c˜ao. Em suma, o e-Learning estimula a autoaprendizagem, pelo que se insere no conceito de educa¸ca˜o ao longo da vida, ou seja, o e-Learning ´e uma evolu¸ca˜o necess´aria no contexto educativo face aos requisitos da sociedade atual – uma sociedade da informa¸ca˜o, da aprendizagem e do conhecimento(GONC ¸ ALVES, 2007).

18

2.2 Ambientes Virtuais de Aprendizagem Um sistema de Educa¸ca˜o a Distˆancia, consiste em todos os processos componentes que operam quando o ensino e aprendizagem a distˆancia ocorrem. Ele inclui aprendizagem, ensino, comunica¸ca˜o, design e gest˜ao(MOORE; KEARSLEY, 2011). Para Valentini et al. (2010 apud SCHLEMMER, 2002), Sistemas Gerenciadores de Educa¸ca˜o a Distˆancia, tamb´em conhecidos como, Ambientes Virtuais de Aprendizagem - AVAS (Virtual Learning Environments - VLEs), Ambientes de Aprendizagem Online, Software de Aprendizagem Colaborativa s˜ao denomina¸co˜es utilizadas para softwares desenvolvidos para o gerenciamento da aprendizagem via Web. Eles podem ser caracterizados como: Sistemas que sintetizam a funcionalidade de software para Comunica¸ca ˜o Mediada por Computador (CMC) e m´etodos de entrega de material de cursos online. Muitos desses sistemas reproduzem a sala de aula presencial f´ısica para o meio online, outros buscam, al´em de simplesmente reproduzir ambientes educacionais existentes para um novo meio, fazer uso da tecnologia para propiciar a constitui¸c˜ ao de novos ambientes educacionais, de acordo com a natureza espec´ıfica desses diferentes meios. Estes u ´ltimos procuram suportar uma grande e variada gama de estilos de aprendizagem e objetivos, encorajando a colabora¸c˜ ao, a aprendizagem baseada em pesquisa, al´em de promover compartilhamento e re´ uso dos recursos (SCHLEMMER et al., 2007).

Ribeiro et al. (2007) destacam que os ambientes virtuais de aprendizagem podem ser utilizados em: atividades presenciais, possibilitando aumentar as intera¸co˜es para al´em da sala de aula; em atividades semipresenciais, nos encontros presenciais e nas atividades a distˆancia; oferecendo suporte para a comunica¸c˜ao e, troca de informa¸c˜oes e intera¸c˜ao entre os participantes. O processo de constru¸c˜ao do conhecimento do aluno em AVAs, necessita de algumas demandas que s˜ao responsabilidades do professor respons´avel pelo curso. Segundo Silva (2003): Cabe aos professores participar, instigar a discuss˜ ao, acompanhar e analisar a constru¸c˜ ao do conhecimento atrav´es da participa¸c˜ ao individualizada de cada participante nos espa¸cos de intera¸ca ˜o disponibilizados no ambiente.

Ainda, segundo Schlemmer et al. (2007), ensinar em ambientes digitais e interativos de aprendizagem significa: organizar situa¸c˜oes de aprendizagem, planejar e propor atividades; disponibilizar materiais de apoio com o uso de m´ ultiplas m´ıdias e linguagens; ter um professor que atue como mediador e orientador do aluno, procurando identificar suas representa¸co˜es de pensamento; fornecer informa¸co˜es relevantes, incentivar a busca de distintas fontes de informa¸co˜es e a realiza¸ca˜o de experimenta¸co˜es; provocar a reflex˜ao sobre processos e produtos; favorecer a formaliza¸ca˜o de conceitos; propiciar a interaprendizagem e a aprendizagem significativa do aluno. Os AVAs agregam tecnologias de disponibilidade de materiais, administra¸ca˜o do curso e intera¸c˜ao dos usu´arios que s˜ao comuns na Web. Segundo Gonzalez (2005 apud RIBEIRO et al., 2007), as funcionalidades dos AVAs podem ser organizadas em quatro grupos: Ferramentas de Coordena¸c˜ao, Ferramentas de Comunica¸c˜ao, Ferramentas de Produ¸ca˜o dos aluno ou Coopera¸ca˜o e Ferramentas de Administra¸c˜ao:

19

Ferramentas de Coordena¸c˜ ao → Elas servem de suporte para a organiza¸c˜ao de um curso. S˜ao utilizadas pelo professor para disponibilizar informa¸c˜oes aos alunos, tanto informa¸c˜oes das metodologias do curso (procedimento, dura¸c˜ao, objetivos, expectativa, avalia¸c˜ao) e estrutura do ambiente (descri¸c˜ao dos recursos, dinˆamica do curso, agenda, etc), quanto informa¸c˜oes pedag´ogicas: material de apoio (guias, tutoriais), material de leitura (textos de referˆencia, links interessantes, bibliografia e etc) e recurso de perguntas frequentes (re´ une as perguntas mais comuns dos alunos e as respostas correspondentes do professor); Ferramentas de Comunica¸c˜ ao → Englobam f´oruns de discuss˜ao, bate-papo, correio eletrˆonicos e conferˆencia entre os participantes do ambiente. Tˆem o objetivo de facilitar o processo de ensino-aprendizagem e estimular a colabora¸c˜ao e intera¸c˜ao entre os participantes e o aprendizado cont´ınuo; Ferramentas de Produ¸c˜ ao dos aluno ou Coopera¸c˜ ao → Oferecem o espa¸co de publica¸ca˜o e organiza¸ca˜o do trabalho dos alunos ou grupos, atrav´es do portf´olio, di´ario, mural e perfil (de alunos e/ou grupos); Ferramentas de Administra¸c˜ ao → Oferecem recursos de gerenciamento, do curso (cronograma, ferramentas disponibilizadas, inscri¸c˜oes, etc), de alunos (relat´orios de acesso, frequˆencia no ambiente, utiliza¸c˜ao de ferramentas, etc) e de apoio a tutoria (inserir material did´atico, atualizar agenda, habilitar ferramentas do ambiente, etc). Atrav´es delas ´e poss´ıvel fornecer ao professor formador informa¸c˜oes sobre a participa¸ca˜o e progresso dos alunos no decorrer do curso, apoiando-os e motivando-os durante o processo de constru¸ca˜o e compartilhamento do conhecimento. Para Messa (2010), as possibilidades dispon´ıveis para utiliza¸c˜ao em AVAs s˜ao bastante numerosas. O importante ´e dar-se conta de suas potencialidades em termos de aprimorar as chances de autoria e as atitudes pedag´ogicas dos estudantes, dos professores e das institui¸co˜es educacionais e fazer o uso apropriado desse recurso que pode proporcionar a aprendizagem significativa para qualquer usu´ario, independente de idade desde que bem programado por institui¸co˜es educacionais. 2.2.1 Moodle O Moodle, acrˆonimo inglˆes para Modular Object Oriented Distance Learning (Objeto Modular Orientado ao Ensino `a Distˆancia), ´e um tipo de AVA baseado em software livre desenvolvido por uma comunidade internacional de colaboradores. Segundo Albuquerque (2009), o Moddle ´e um programa de c´odigo fonte aberto, ou seja, a sua distribui¸c˜ao ´e gratuita e, sua instala¸c˜ao, uso e modifica¸c˜ao do c´odigo fonte ´e livre ao desenvolvedor. Ele pode ser usado, sem modifica¸c˜oes, nas mais diferentes plataformas, mesmo propriet´arias, como Unix, Windows e Mac OS. Pode tamb´em ser usado com software livre como o Linux ou outro sistema que seja compat´ıvel com a linguagem de programa¸ca˜o PHP. O Moodle ´e utilizado para maximizar os espa¸cos da aprendizagem, onde s˜ ao realizadas a¸c˜ oes pedag´ ogicas numa l´ ogica colaborativa, de intera¸c˜ ao e de amplia¸c˜ ao, onde tanto o aluno como o professor poder˜ ao ter contato tanto no presencial como no virtual, dando uma dinˆ amica ` as rela¸c˜ oes de ensinar e aprender (PEREIRA; CHAVES, 2007).

20

Esse AVA segue os princ´ıpios pedag´ogicos sociais construtivistas, baseando sua abordagem no aprendizado colaborativo, onde os atores principais interagem com o ambiente, seja construindo conceitos e disponibilizando-o, papel do professor respons´avel, ou como alvo, no papel de aluno. O Construtivismo sustenta que as pessoas constroem conhecimentos ativamente quando interagem com o ambiente. Todas as experiˆencias adquiridas pelo indiv´ıduo, ou seja, tudo o que leu, viu, ouviu, sentiu, e tocou ´e testado contra o conhecimento anterior e se for vi´ avel dentro do mundo mental, pode formar conhecimento novo. O conhecimento ´e fortalecido se o indiv´ıduo puder usar isto bem em seu ambiente mais amplo. Lembre-se, que, conforme tratado anteriormente no cap´ıtulo sobre aprendizagem significativa, o individuo, n˜ ao ´e s´ o um banco de mem´ oria que absorve informa¸ca ˜o passivamente, nem ´e apenas lendo ou ouvindo algu´em que o conhecimento pode ser transmitido para ele (MESSA, 2010).

Em Ribeiro et al. (2007), ´e destacado que o Moodle trabalha com cinco tipos de usu´arios: ´ respons´avel pela estrutura do ambiente, realiza instala¸ca˜o e confiAdministrador → E gura¸c˜ao do sistema e cadastro dos usu´arios, ou seja, todo o gerenciamento para o funcionamento do ambiente; ´ respons´avel pelo funcionamento dos cursos, ele cadastra, confiCriador de Cursos → E gura e gerencia os cursos dispon´ıveis no ambiente; ´ respons´avel pelo acompanhamento de alunos dos cursos de sua responsaProfessor → E bilidade. Ele insere tarefas ou atividades, responde as d´ uvidas, corrige as atividades al´em de motivar a participa¸ca˜o dos alunos; Aluno → O usu´ario que realiza o curso, tem dispon´ıvel no ambiente v´arios recursos que contribui para o seu aprendizado e realiza as atividades designadas pelo professor tutor; ´ o usu´ario que pode acessar o ambiente e as informa¸co˜es disponibilizadas Visitante → E na tela de abertura do sistema. Pode visitar disciplinas que permitem o acesso de visitantes e ver conte´ udo delas, n˜ao pode participar de atividades que valem nota. As atividades disponibilizadas no ambiente, podem ser adicionadas a` conveniˆencia e `a necessidade do professor que elabora o curso. Podem ser adicionadas ferramentas de intera¸c˜ao social, de avalia¸c˜ao e ainda, outros tipos, como di´arios, gloss´arios, ferramentas para compartilhamento e importa¸ca˜o de conte´ udos. As ferramentas de intera¸ca˜o social ou de comunica¸ca˜o no Moodle s˜ao o chat, o f´orum e o Wiki. Elas proporcionam ao usu´ario a coopera¸ca˜o dentro do ambiente para uma aprendizagem mais s´olida. Segundo Alves et al. (2009), o Moodle integra muitas das caracter´ısticas esperadas para uma plataforma de e-Learning, entre as quais: • F´oruns de discuss˜ao configur´aveis, ainda que de forma limitada; • Gest˜ao de conte´ udos permitindo a edi¸ca˜o direta de documentos em formato de texto e de HTML(HyperText Markup Language); • Cria¸ca˜o de question´arios com possibilidade de op¸c˜ao por v´arios tipos de resposta; • Sistema de Chat com registro de hist´orico de acessos configur´avel;

21

• Sistema de Blogs; • Editor Wiki; • Sistema de gest˜ao de tarefa dos usu´arios, etc. J´a as ferramentas de avalia¸ca˜o disponibilizadas no Moodle, segundo Castillo (2005 apud PAULA, 2010), s˜ao: avalia¸c˜ao de curso, pesquisa de opini˜ao, question´ario, tarefas e trabalhos com revis˜ao. Essas ferramentas permitem a cria¸c˜ao de avalia¸c˜oes gerais de um curso; pesquisas de opini˜ao r´apidas, ou enquetes, envolvendo uma quest˜ao central; question´arios formados por uma ou mais quest˜oes inseridas em um banco de quest˜oes previamente definido; disponibiliza¸ca˜o de tarefas para os alunos onde podem ser atribu´ıdas datas de entrega e notas. 2.2.2 Outros Ambientes Virtuais de Aprendizagem Existem no mercado atualmente v´arias op¸co˜es de AVAs dispon´ıveis, onde, mesmo existindo semelhan¸cas entre as plataformas, cada uma possui suas peculiaridades e vantagens. Destacamos alguns dos AVAs mais utilizados no mercado: TelEduc, e-ProInfo e o Amadeus. 2.2.2.1

TelEduc

O TelEduc, Segundo Silva (2003), ´e um ambiente para cria¸c˜ao, participa¸c˜ao e administra¸c˜ao de cursos na Web. Ele foi concebido tendo como alvo o processo de forma¸ca˜o dos professores para inform´atica educativa, baseado na metodologia de forma¸ca˜o contextualizada, desenvolvida por pesquisadores no N´ ucleo de Inform´atica Aplicada `a Educa¸ca˜o da Unicamp - NIED. O TelEduc foi desenvolvido de forma participativa, ou seja, todas as ferramentas foram idealizadas, projetadas e depuradas segundo necessidades relatadas por seus usu´arios, com a facilidade de uso por pessoas n˜ao especialistas em computa¸c˜ao, a flexibilidade de us´a-lo, ´e um conjunto enxuto de funcionalidades. Com isso, ele apresenta caracter´ısticas que o diferenciam de outros ambientes para educa¸c˜ao a distˆancia dispon´ıvel no mercado (RAMOS, 2006). 2.2.2.2

e-ProInfo

Segundo Pithon e Brochado (2006), o e-Proinfo ´e um Ambiente Colaborativo de Aprendizagem a Distˆancia, baseado em tecnologia web e permite a concep¸ca˜o, administra¸ca˜o e desenvolvimento de diversos tipos de a¸c˜oes, como cursos a distˆancia, complemento a cursos presenciais, projetos de pesquisa, projetos colaborativos e diversos outras formas de apoio a distˆancia e ao ensino aprendizagem, de forma gratuita para as institui¸co˜es p´ ublicas. Ele foi desenvolvido pela Secretaria de Educa¸ca˜o a Distancia do Minist´erio da Educa¸ca˜o em parceria com renomadas institui¸co˜es de ensino foi sendo implantado em v´arios Institutos Federais de Educa¸ca˜o Tecnol´ogica espalhados pelo Brasil. O e-proinfo ´e composto por dois web sites (m´odulos): o site do participante (aluno) e o site do administrador (professor). Segundo eProInfo (2014), o site do Participante permite que pessoas interessadas se inscrevam e participem dos cursos e diversas outras a¸co˜es oferecidas por v´arias Entidades ´ atrav´es dele que os participantes tˆem acesso a conte´ conveniadas. E udos, informa¸c˜oes e atividades organizadas por m´odulos e temas, al´em de poderem interagir com coordenadores, instrutores, orientadores, professores, monitores e com outros colegas participantes. J´a o site do Administrador, permite que pessoas credenciadas pelas Entidades conveniadas

22

desenvolvam, ofere¸cam, administrem e ministrem cursos a distˆancia e diversas outras a¸co˜es de apoio a distˆancia ao processo ensino-aprendizagem, configurando e utilizando todos os recursos e ferramentas dispon´ıveis no ambiente. Cada Entidade pode estruturar diversos Cursos ou outras a¸co˜es compostas por M´odulos, e estes por Atividades. Os participantes se inscrevem em Cursos e, sendo aceitos pelo Administrador, podem se vincular a Turmas, atrav´es das quais cursam seus respectivos M´odulos. No Ambiente Colaborativo do e-ProInfo h´a um conjunto de recursos dispon´ıveis para apoio `as atividades dos participantes, entre eles, Tira-d´ uvidas, Not´ıcias, Avisos, Agenda, Di´ario e Biblioteca. H´a ainda um conjunto de ferramentas dispon´ıveis para apoio a intera¸c˜ao entre os participantes, entre eles, e-mail, chat, f´orum de discuss˜oes e banco de projetos; e um outro conjunto de ferramentas para avalia¸c˜ao de desempenho, como question´arios e estat´ısticas de atividades(EPROINFO, 2014). 2.2.2.3

Amadeus

O Amadeus ´e desenvolvido desde o ano de 2007 no Centro de Inform´atica da Universidade Federal de Pernambuco(Cin-UFPE). O Amadeus ´e definido como um sistema de gest˜ao de aprendizagem para a educa¸ca˜o presencial, a distˆancia e todas as suas varia¸co˜es (GOMES et al., 2009). Ele ´e baseado no conceito Blended Learning, segundo o qual para se atingir um grande p´ ublico com projetos de forma¸ca˜o a distˆancia, faz-se necess´ario uma combina¸ca˜o de formas de mediar a apresenta¸ca˜o e as intera¸co˜es com os conte´ udos das aulas. A intera¸c˜ao entre usu´arios, e destes, com o conte´ udo no ambiente permite a execu¸c˜ao de novas estrat´egias de ensino e de aprendizagem orientadas a teorias construtivistas ou s´ocio interacionalista do desenvolvimento humano (FILHO et al., 2014). Para Gomes et al. (2009), o Amadeus tem como principal prop´osito contribuir com o desenvolvimento social pela forma¸c˜ao e educa¸c˜ao para todos, reduzindo custos, gerando empregos e neg´ocios, e consequentemente, melhorando o atendimento ao cidad˜ao, al´em da democratiza¸c˜ao do conhecimento. As principais caracter´ısticas do Amadeus s˜ao listadas no site dedicado a divulga¸ca˜o de softwares p´ ublicos Brasileiros1 . Elas s˜ao as seguintes: • Interface simplificada e intuitiva, concebida com usabilidade; • Uso de uma ampla gama de m´ıdias, desde os tradicionais chats at´e a discuss˜ao simultˆanea entre v´arios usu´arios que est˜ao assistindo ao mesmo v´ıdeo; • Compartilhamento de v´ıdeos em situa¸c˜oes de chats; • Servidor de jogos multiusu´arios promovendo formas alternativas de intera¸c˜ao; • Sistema de controle de experimentos envolvendo medidas pela internet; • Percep¸ca˜o da atividade social na interface web e nos diversos ambientes interligados; • Mobile Learning: Estilos de intera¸ca˜o por meio de dispositivos m´oveis como celulares e PDAs; • Integra¸ca˜o com o Sistema Brasileiro de TV Digital; • Licen¸ca Software P´ ublico que, al´em de reduzir consideravelmente os custos de aquisi¸c˜ao e implanta¸c˜ao, tamb´em contribui para o constante aperfei¸coamento da ferramenta, a m´edio e longo prazo, assim como para a sua f´acil personaliza¸c˜ao e a incorpora¸ca˜o cont´ınua de novos recursos. 1

http://pagina.softwarepublico.gov.br/amadeus/caracteristicas-principais/

23

2.3 Processo de Descoberta de Conhecimento em Base de Dados - KDD O processo de descoberta de conhecimento em Banco de dados (Knowledge Discovery in Databases - KDD), ´e definido por Fayyad et al. (1996a), como “o processo, n˜ao trivial, interativo e iterativo, de extra¸c˜ao de informa¸c˜oes impl´ıcitas, previamente desconhecidas e potencialmente u ´ teis, a partir dos dados armazenados em um banco de dados”. Este processo est´a associado ao ato de ”garimpar”informa¸c˜oes u ´ teis contidas na bases de dados, sem a necessidade de um conhecimento pr´evio a respeito da base de dados. Cardoso e Machado (2008) definem formalmente o KDD como processo n˜ao trivial de identifica¸ca˜o de padr˜oes em um conjunto de dados com as seguintes caracter´ısticas: • Validade → a descoberta de padr˜oes deve ser v´alida em novos dados com algum grau de certeza ou probabilidade; • Novidade → os padr˜oes s˜ao novos, ou seja, ainda n˜ao foram detectados por nenhuma abordagem; • Utilidade potencial → os padr˜oes devem poder ser utilizados para a tomada de decis˜oes u ´teis, medidas por alguma fun¸c˜ao; • Assimil´ aveis → um dos objetivos do KDD ´e tornar os padr˜oes assimil´aveis ao conhecimento humano. ´ comum a minera¸ca˜o de dados ser tratado como uma de suas fases, a minera¸ca˜o E de dados. Nesse contexto, Fayyad et al. (1996a) define que a Minera¸ca˜o de Dados ´e apenas umas das etapas do processo, onde s˜ao selecionadas a tarefas, t´ecnicas mais eficazes e executados os algoritmos espec´ıficos para a extra¸c˜ao de padr˜oes dos dados. O termo KDD ´e usado para denotar o processo global de tornar dados de baixo n´ıvel em conhecimento de alto n´ıvel, enquanto que a minera¸c˜ ao de dados pode ser definida como a extra¸c˜ ao de padr˜ oes ou modelos de dados observados(GOEBEL; GRUENWALD, 1999).

Fayyad et al. (1996a), tamb´em estabelece o KDD como um conjunto de atividades cont´ınuas que ´e composta, basicamente, por cinco etapas: sele¸c˜ao dos dados, pr´e-processamento, formata¸ca˜o, minera¸ca˜o de dados e interpreta¸ca˜o dos resultados, como ilustra a figura seguinte:

24 Figura 1 – Passos do processo de KDD

Fonte: Adaptado de Fayyad et al. (1996a)

De acordo com Carvalho (1999 apud MARTINHAGO, 2005), o processo de KDD ´e interdisciplinar e envolve diversas ´areas, como a estat´ıstica e matem´atica, banco de dados, aprendizado de m´aquina, sistemas especialistas e reconhecimento de padr˜oes. Esse processo ´e a combina¸c˜ao de t´ecnicas, algoritmos e defini¸c˜oes de todas estas ´areas cujo o objetivo principal ´e extrair conhecimento a partir de grandes bases de dados. Baseado em sua defini¸c˜ao ´e poss´ıvel ver que KDD ´e uma tarefa intensiva de descoberta de conhecimento, pois possui intera¸c˜oes complexas, feitas ao longo do tempo, entre o homem e o banco de dados atrav´es de um conjunto heterogˆeneo de ferramentas (PRASS, 2004). A seguir ser´a dada uma vis˜ao sobre o processo de KDD, caracterizando cada uma de suas fases. 2.3.1 Selec¸˜ao de Dados A Sele¸c˜ao de Dados ´e primeira fase do processo de KDD. Esta fase ´e necess´aria para o processo com um todo, pois ´e onde ocorre a sele¸c˜ao de um conjunto de dados, ou simplesmente um subconjunto de vari´aveis ou de amostras de dados, para a minera¸c˜ao. Dada a complexidade do processo, uma vez que os dados podem vir de fontes distintas (Planilhas, Sistemas Legados, Data Warehouse) com diferentes formatos, ´e importante que a escolha dos dados fique a crit´erio de um especialista do dom´ınio. Segundo Braga (2005), cinco caracter´ısticas que devem ser obedecidas na capta¸ca˜o e manuten¸ca˜o dos dados s˜ao: Acur´ acia - Sem erros de medi¸ca˜o ou digita¸ca˜o; Consistˆ encia - Fazem sentido; Completude - Sem campos faltantes; Relevˆ ancia - Concernente ao problema;

25

N˜ ao Redundˆ ancia - N˜ao duplica¸ca˜o da mesma informa¸ca˜o. E, filosoficamente, trˆes princ´ıpios que devem ser levados em conta: - A qualidade dos dados ´e cr´ıtica e de muito mais importˆancia do que a quantidade; - A informa¸c˜ao est´a nos dados; - O trabalho deve ser desenvolvido nos dados. 2.3.2 Pr´e-Processamento A fase de pr´e-processamento, ou limpeza dos dados, ´e a fase determinante para determina¸c˜ao da qualidade dos dados que ser˜ao minerados, influenciando diretamente a eficiˆencia dos algoritmos de minera¸c˜ao. Nesta etapa, ´e novamente essencial a presen¸ca do especialista de dom´ınio pois deve ser verificado a existˆencia de missing values(dados ausentes), a recupera¸c˜ao de dados incompletos, duplicados e a presen¸ca de outliers, que s˜ao dados desproporcionais ao conjunto. Nesta fase tamb´em s˜ao utilizados m´etodos de redu¸ca˜o ou transforma¸ca˜o, a fim de reduzir o n´ umero de vari´aveis que est˜ao envolvidas no processo, para com isto melhorar o desempenho do algoritmo de an´alise (PRASS, 2004). 2.3.3 Formatac¸˜ao (Transformac¸˜ao dos dados) A terceira fase ´e a formata¸c˜ao e transforma¸c˜ao dos dados, onde ap´os o pr´eprocessamento, eles necessitam serem armazenados e formatados adequadamente em um reposit´orio u ´ nico, de acordo com a aplica¸c˜ao, t´ecnica e algoritmos que ser˜ao submetidos na fase de minera¸ca˜o de dados. Segundo Maimon e Rokach (2005), neste est´agio, a gera¸c˜ao dos melhores dados para a extra¸ca˜o de dados ´e preparado e desenvolvida. Os M´etodos aqui incluem a redu¸ca˜o de dimens˜ao e transforma¸c˜ao de atributos (como discretiza¸c˜ao de atributos num´ericos e a transforma¸c˜ao funcional). Esta etapa ´e muitas vezes crucial para o sucesso de todo o projeto KDD, mas, geralmente, ´e muito espec´ıfica para cada projeto. A figura 2 ilustra as trˆes etapas at´e aqui citadas:

26 Figura 2 – Etapas de Pr´e-Processamento dos Dados

Fonte: Silva (2004 apud BORIN, 2014)

2.3.4 Minerac¸˜ao dos dados A minera¸c˜ao de dados surgiu com o objetivo principal de dar suporte `a tomada de decis˜oes em empresas. Portanto, a aplica¸c˜ao de t´ecnicas de minera¸c˜ao de dados em sistemas de descoberta de conhecimento em banco de dados busca a descoberta de regras e padr˜oes em dados que trar˜ao o conhecimento suficiente e adequado para aquelas pessoas respons´aveis pela tomada de decis˜oes dentro da empresa (DIAS, 2002). Segundo Fayyad et al. (1996a), a minera¸ca˜o de dados ´e uma etapa no processo de KDD que consiste na aplica¸c˜ao de an´alise dos dados e na descoberta de algoritmos que, considerando aceit´aveis a`s limita¸co˜es de eficiˆencia computacionais, produzem um conjunto particular de padr˜oes (ou modelos) sobre os dados. Nota-se que o espa¸co de padr˜oes ´e frequentemente infinito, e o conjunto de padr˜oes envolve alguma forma de pesquisa neste espa¸co. Restri¸c˜oes computacionais podem colocar limites severos sobre o subespa¸co em que um algoritmo de minera¸ca˜o de dados pode explorar. Berry e Linoff (2004), descrevem a minera¸c˜ao de dados, como a explora¸c˜ao e an´alise de grandes quantidades de dados, a fim de descobrir padr˜oes e regras significativas. Para os autores, a meta da minera¸ca˜o de dados ´e permitir que uma empresa possa melhorar sua estrat´egia de marketing, vendas e opera¸co˜es de apoio ao cliente atrav´es de uma melhor compreens˜ao dos seus clientes. Fayyad et al. (1996b apud GOUVEIA, 2009) definem como principais metas prim´arias do Data Mining: • Prever → Antecipar os valores de vari´aveis desconhecidas ou analisar um poss´ıvel valor para uma vari´avel com o passar do tempo, utilizando algumas vari´aveis, como

27

atributos da base de dados. Indica as chances de uma a¸ca˜o ocorrer. Segundo Gouveia (2009), atrav´es da minera¸c˜ao preditiva ´e poss´ıvel a generaliza¸c˜ao de exemplos ou experiˆencias passados com respostas conhecidas ou regras de neg´ocio estabelecidas por especialistas . • Descrever → Procurar por padr˜oes que descrevem os dados e que sejam de entendimento dos usu´arios. Segundo Gouveia (2009), com a Minera¸ca˜o Descritiva ´e poss´ıvel a identifica¸ca˜o dos comportamentos intr´ınsecos do conjunto de dados, sendo que estes dados n˜ao possuem uma classe especificada. A seguir apresentamos as principais t´ecnicas e as tarefas que resolvem na minera¸ca˜o de dados 2.3.4.1

Tarefas de Minerac¸˜ao de Dados

Goebel e Gruenwald (1999), descrevem que o cerne do processo de KDD s˜ao os m´etodos de minera¸c˜ao de dados para extra¸c˜ao de padr˜oes. Esses m´etodos podem ter diferentes objetivos, de acordo com o resultado pretendido do processo global de KDD. Deve-se tamb´em notar que v´arios m´etodos diferentes podem ser aplicados sucessivamente a fim de so obter o resultado desejado. Segundo os autores, as tarefas de minera¸ca˜o de dados podem ser classificadas em: • Processamento de Dados → Dependendo dos objetivos e requisitos do processo de KDD, os analistas podem selecionar, filtrar, agregar, amostrar, limpar e/ou transformar os dados. Automatizar algumas das tarefas mais t´ıpicas de processamento de dados e integr´a-las perfeitamente no processo global pode eliminar ou pelo menos reduzir significativamente a necessidade de rotinas de programa¸c˜ao especializada e de dados de exporta¸ca˜o/importa¸ca˜o, melhorando assim a produtividade do analista. • Previs˜ ao → Dado um item de dados e um modelo preditivo, prevˆe o valor para um atributo espec´ıfico do item de dados. Por exemplo, considerando um modelo preditivo de transa¸c˜oes com cart˜oes de cr´edito, prever a probabilidade de que uma transa¸ca˜o espec´ıfica ser fraudulenta. Predi¸ca˜o tamb´em pode ser utilizada para validar uma hip´otese descoberta. • Regress˜ ao → Para um conjunto de itens de dados, a Regress˜ao analisa a dependˆencia de alguns valores de atributos sobre os valores de outros atributos no mesmo item, e produz automaticamente um modelo que pode prever os valores destes atributos para novos registros. Por exemplo, dado um conjunto de dados de transa¸c˜oes de cart˜ao de cr´edito, construir um modelo que pode prever a probabilidade de fraude para novas transa¸co˜es. • Classifica¸c˜ ao → Para um conjunto de classes categ´oricas pr´e-definidas, determina a qual destas classes um item de dados espec´ıfico pertence. Por exemplo, determinando classes de pacientes que respondem um determinado de tratamento m´edico, identifica o tipo de tratamento que um novo paciente ter´a mais probabilidade de responder. • Clusteriza¸c˜ ao → Para um conjunto de itens de dados, ´e realizado um particionamento onde os itens com caracter´ısticas semelhantes s˜ao agrupados em um novo conjunto. A Clusteriza¸c˜ao ´e melhor usada para encontrar grupos de itens que

28

s˜ao semelhantes. Por exemplo, dado um conjunto de dados de clientes, identificar subgrupos de clientes que tˆem um comportamento de compra semelhante. • Associa¸c˜ oes → Para um conjunto de itens de dados, identificar rela¸c˜oes entre atributos e itens, tais como a presen¸ca de um padr˜ao implica a presen¸ca de um outro padr˜ao. Essas rela¸c˜oes podem ser associa¸c˜oes entre atributos dentro de um mesmo item de dados (”dos clientes que compraram o leite, 64% tamb´em compraram p˜ao”) ou associa¸co˜es entre diferentes itens de dados (”Toda vez que um determinado estoque cai 5%, outro estoque aumenta de 13% entre 2 e 6 semanas mais tarde ’). A investiga¸ca˜o de rela¸co˜es entre os itens em mais de um per´ıodo de tempo ´e conhecida tamb´em como ”an´alise de padr˜ao sequencial”. • Modelo Visualiza¸c˜ ao → A Visualiza¸c˜ao desempenha um papel importante na descoberta de conhecimento compreens´ıvel e interpret´avel por seres humanos. Al´em disso, o pr´oprio sistema olho-c´erebro humano continua a ser o melhor dispositivo de reconhecimento de padr˜oes conhecidos. T´ecnicas de visualiza¸c˜ao pode variar de gr´aficos de dispers˜ao simples e histogramas para coordenadas paralelas para filmes em 3D. ´ a explora¸c˜ao interativa de um • An´ alise Explorat´ oria de Dados (EDA) → E conjunto de dados sem grande dependˆencia de premissas e modelos preconcebidos, e assim, tentar identificar padr˜oes interessantes. As representa¸co˜es gr´aficas dos dados s˜ao usados com muita frequˆencia para explorar o poder do olho e da intui¸ca˜o humana. Embora existam dezenas de pacotes de software dispon´ıveis que foram desenvolvidos exclusivamente para apoiar a explora¸c˜ao de dados, ele tamb´em pode ser desej´avel para integrar estas abordagens em um ambiente global de KDD. Dias (2002), resume as tarefas de minera¸ca˜o no quadro 2.2: Quadro 2.2 – Resumo das Tarefas de Minera¸c˜ ao de Dados

Fonte: Dias (2002) 2.3.4.2

T´ecnicas

Harrison (1998 apud DIAS, 2001) afirma que n˜ao existe uma t´ecnica eficaz para todos os problemas de minera¸c˜ao de dados. Diferentes m´etodos servem para diferentes

29

prop´ositos, e, cada m´etodo oferece suas vantagens e suas desvantagens. A familiaridade com as t´ecnicas facilita a escolha de uma delas de acordo com os problemas apresentados. Um ponto importante ´e que cada t´ecnica tipicamente resolve melhor alguns problemas do que outros, n˜ao h´a um m´etodo universal e a escolha ´e uma arte. Para as aplica¸c˜oes, grande parte do esfor¸co vai para a formula¸c˜ao do problema, ou seja, a especifica¸c˜ao de que tipo de informa¸c˜oes o algoritmo de minera¸c˜ao deve procurar no conjunto de dados dispon´ıveis (MARTINHAGO, 2005). Segundo Pasta (2011), devido ao extenso n´ umero de problemas de Minera¸c˜ao de Dados, n˜ao h´a uma t´ecnica que possa ser utilizada para a resolu¸c˜ao de todos eles. Cada problema possui suas peculiaridades, assim sendo, diferentes t´ecnicas s˜ao utilizadas para a resolu¸ca˜o de problemas com prop´ositos diferentes. Onde, a escolha da t´ecnica esta fortemente ligada ao tipo de conhecimento que se deseja extrair ou com o tipo de dado na qual ela ser´a aplicada. Dias (2001), destaca alguns parˆametros importantes para a escolha das t´ecnicas de Minera¸c˜ao de Dados: • Tipo de problema de descoberta de conhecimento a ser solucionado → defini¸ca˜o da tarefa de minera¸ca˜o de dados, de acordo com os objetivos para descoberta de conhecimento em quest˜ao; • Caracter´ısticas dos Dados → Adequa¸ca˜o da t´ecnica de minera¸ca˜o a`s caracter´ısticas dos dados, a fim de minimizar dificuldades encontradas na transforma¸ca˜o dos dados; • Forma de aplica¸c˜ ao da minera¸c˜ ao de dados → Determinar se o processo de minera¸ca˜o ser´a um processo de verifica¸ca˜o, onde o usu´ario tenta provar uma hip´otese acerca da rela¸c˜ao entre os dados; ou um processo de descoberta, onde n˜ao ´e feita nenhuma suposi¸c˜ao antecipada; • Disponibilidade de ferramenta de minera¸c˜ ao de dados → A ferramenta de minera¸ca˜o de dados determina quais as t´ecnicas podem ser aplicadas ao problema de descoberta de conhecimento. A seguir ser˜ao descritas algumas das principais t´ecnicas de Minera¸c˜ao de Dados, Quadro 2.3, apresentado por Dias (2002), que as resume de acordo com as tarefas que resolvem:

30 Quadro 2.3 – Resumo das T´ecnicas de Minera¸c˜ ao de Dados

Fonte: Dias (2002)

A fim de estudar grupos de alunos selecionados a partir de suas intera¸co˜es e a nota final, optou-se pela utiliza¸c˜ao da t´ecnicas de Clusteriza¸c˜ao para realiza¸c˜ao da minera¸c˜ao de dados, pois, a partir dos agrupamentos separados de acordo com as intera¸c˜oes e as notas dos alunos, foi poss´ıvel levantar os aspectos relevantes de cada grupo e de como a quantidade de intera¸co˜es influenciava no desempenho dos alunos. 2.3.4.2.1

An´alise de Cluster

A an´alise de clusters ´e um procedimento da Estat´ıstica Multivariada que tenta agrupar um conjunto de dados em grupos homogˆeneos, chamados clusters, onde os dados podem ser objetos ou vari´aveis. Cada observa¸ca˜o pertencente a um determinado cluster ´e semelhante a todas as outras pertencentes a ele e ´e diferente das observa¸co˜es pertencentes aos outros clusters (FARIA et al., 2014). Para Soares et al. (2006), a clusteriza¸c˜ao ´e a t´ecnica de agrupar dados (objetos) de uma base de dados de acordo com alguma medida de similaridade ou de dissimilaridade. Os m´etodos de clusteriza¸ca˜o podem ser classificados como hier´arquicos e n˜ao hier´arquicos, tamb´em conhecidos como particionais. Os m´etodos n˜ao hier´arquicos dividem o conjunto de objetos de uma base de dados em v´arios subconjuntos disjuntos e procuram iterativamente o melhor particionamento at´e atingir uma condi¸c˜ao de parada. Os m´etodos hier´arquicos s˜ao aqueles que constroem a clusteriza¸ca˜o atrav´es de uma a´rvores de clusters (dendograma). Os m´etodos hier´arquicos s˜ao divididos ainda em aglomerativos, onde cada cluster ´e iniciado com um objeto da entrada e dois ou mais clusters de um n´ıvel anterior s˜ao recursivamente agrupados para formarem um novo no pr´oximo n´ıvel, e m´etodos de particionamento, que iniciam com um u ´nico cluster formado por todos os objetos da base de dados e que cada n´ıvel cada cluster ´e dividido em dois ou mais clusters de similaridade.

31

Segundo Pang-Ning et al. (2012), em muitas aplica¸co˜es, a no¸ca˜o de um cluster n˜ao ´e bem definida. Para entender melhor a dificuldade de decidir o que o constitui, considere a figura abaixo, que mostra vinte pontos agrupados de trˆes maneiras diferentes. As formas dos marcadores indicam associa¸c˜ao do cluster. Nas partes b e d da figura, o conjunto de dados ´e dividido em dois e seis clusters, respectivamente. No entanto, a divis˜ao aparente de cada um dos dois conjuntos maiores em trˆes subgrupos pode ser simplesmente um artefato do sistema visual humano. Al´em disso, pode n˜ao ser razo´avel dizer que os pontos formam quatro grupos, como mostrado no exemplo c. Esta figura ilustra que a defini¸c˜ao de um cluster ´e imprecisa e que a melhor defini¸ca˜o depende da natureza dos dados e dos resultados desejados. Figura 3 – Diferentes caminhos da clusteriza¸c˜ ao para o mesmo conjunto de dados

Fonte: Adaptado de Pang-Ning et al. (2012)

Maiores detalhes sobre a t´ecnica de clusteriza¸ca˜o foram abordados no cap´ıtulo de Materiais e M´etodos. 2.3.5 Interpretac¸˜ao e avaliac¸˜ao Nesta fase o conhecimento adquirido ´e interpretado e avaliado, a fim de se determinar se objetivo foi alcan¸cado ou n˜ao. Caso o resultado final seja satisfat´orio, aplica-se o conhecimento descoberto: usando-o diretamente, incorporando-o em outro sistema de novas a¸co˜es, ou simplesmente document´a-lo e report´a-lo a`s partes interessadas (FAYYAD et al., 1996a). Caso n˜ao seja alcan¸cado, o que n˜ao ´e raro, o processo pode retornar a qualquer um dos est´agios anteriores ou at´e mesmo ser recome¸cado. Algumas das a¸co˜es mais comuns caso o resultado n˜ao seja satisfat´orio s˜ao: modificar o conjunto de dados inicial, trocar o algoritmo de minera¸ca˜o de dados ou alterar suas configura¸co˜es de entrada (PRASS, 2004).

2.4 Minerac¸˜ao de Dados Educacionais - EDM Minera¸c˜ao de Dados Educacionais, do inglˆes Educational Data Mining (EDM), ´e a aplica¸c˜ao de t´ecnicas de Minera¸c˜ao de dados em dados provenientes de plataformas ou ambientes de educa¸ca˜o online (ROMERO; VENTURA, 2007). A EDM tem emergido como uma ´area de pesquisa nos u ´ ltimos anos por pesquisadores em diversas ´areas (por exemplo, ciˆencia da computa¸c˜ao, educa¸c˜ao, psicologia, psicometria, estat´ıstica, sistemas tutores inteligentes, e-Learning, hiperm´ıdia adaptativa, etc) ao analisar grandes conjuntos

32

de dados, a fim de resolver as quest˜oes de investiga¸c˜ao educacional (BAKER; YACEF, 2009). Por um lado, o aumento tanto software educativo instrumental, bem como bases de dados de informa¸ca˜o dos estudantes criaram grandes reposit´orios de dados que refletem como os alunos aprendem (KOEDINGER et al., 2008). Por outro, o e-Learning tem gerado grandes quantidades de dados que devidamente explorados e classificados, podem fornecer importantes informa¸c˜oes sobre os alunos e os cursos. As t´ecnicas de Minera¸ca˜o de Dados utilizadas atualmente s˜ao extens˜oes naturais ou generaliza¸co˜es de m´etodos anal´ıticos j´a conhecidos. A novidade consiste na possibilidade de aplica¸c˜ao destas t´ecnicas buscando auxiliar os gestores no processo decis´orio e com o objetivo de encontrarem novas estrat´egias para os neg´ocios. Isto se deve ao aumento da capacidade de armazenamento de informa¸c˜oes e `a redu¸c˜ao nos custos de processamento (PASTA, 2011). Baker et al. (2011), define a EDM como: ´ Area de pesquisa que tem como principal foco o desenvolvimento de m´etodos para explorar conjuntos de dados coletados em ambientes educacionais. Assim, ´e poss´ıvel compreender de forma mais eficaz e adequada os alunos, como eles aprendem, o papel do contexto na qual a aprendizagem ocorre, al´em de outros fatores que influenciam a aprendizagem.

Por exemplo, ´e poss´ıvel identificar em que situa¸ca˜o um tipo de abordagem instrucional (isto ´e aprendizagem individual ou colaborativa) proporciona melhores benef´ıcios educacionais ao aluno. Tamb´em ´e poss´ıvel verificar se o aluno est´a desmotivado ou confuso e, assim, personalizar o ambiente e os m´etodos de ensino para oferecer melhores condi¸co˜es de aprendizagem(BAKER et al., 2011). O processo de EDM converte os dados brutos de sistemas educacionais em informa¸ca˜o u´til que pode ser usado por desenvolvedores de software educacionais, professores, pesquisadores educacionais, etc. Este processo n˜ao difere muito de outras a´reas de aplica¸ca˜o de minera¸ca˜o de dados porque ele baseia-se nos mesmos passos do processo de minera¸ca˜o de dados em geral (GARCIA et al., 2011): Passo 01 - Pr´ e-processamento→ Os dados obtidos com o ambiente educacional tˆem que primeiro ser pr´e-processados para transform´a-los em um formato apropriado para a minera¸ca˜o. Algumas das principais tarefas do pr´e-processamento s˜ao: limpeza, sele¸ca˜o de atributos, os atributos de transforma¸ca˜o, de integra¸c˜ao de dados etc.; ´ o passo central Passo 02 - Minera¸c˜ ao de dados (Extra¸c˜ ao de Padr˜ oes) → E que identifica todo o processo. Durante esta etapa, as t´ecnicas de minera¸ca˜o de dados s˜ao aplicadas a dados previamente pr´e-processados. Alguns exemplos de t´ecnicas de minera¸c˜ao de dados s˜ao: Visualiza¸c˜ao, Regress˜ao, Classifica¸c˜ao, Clustering, Regras de Associa¸ca˜o de Minera¸ca˜o, Minera¸ca˜o Padr˜ao Sequencial, Minera¸ca˜o de Texto, etc; ´ a etapa final em que os resultados obtidos ou Passo 03 P´ os-processamento → E modelo s˜ao interpretados e usados para tomar decis˜oes sobre o ambiente educacional. Os dados gerados pelos alunos e instrutores em ambientes de e-learning podem fornecer r´apidas e importantes compreens˜oes acerca do desempenho, da motiva¸c˜ao e do n´ıvel de participa¸c˜ao dos alunos no curso. Essas compreens˜oes podem sugerir mudan¸cas no curso, interven¸co˜es significativas na metodologia ou mesmo um contato individual com alunos desmotivados ou com baixa intera¸ca˜o (ROMERO et al., 2008).

33 Figura 4 – Etapas da minera¸c˜ ao de dados educacionais

Fonte: Adaptado de (GARCIA et al., 2011)

Pimentel e Omar (2006) apresentam um quadro que relaciona as etapas descritas por Garcia et al. (2011) com o modelo de Fayyad et al. (1996a) para minera¸ca˜o de dados: Quadro 2.4 – Rela¸c˜ ao do processo de KDD com a EDM

Fonte: Pimentel e Omar (2006)

Esta tabela mostra que as etapas do modelo de (FAYYAD et al., 1996a) pode ser dividida em trˆes grupos, de acordo com o modelo proposto por (GARCIA et al., 2011). De acordo com Baker et al. (2011) a EDM possui sub´areas de pesquisa que s˜ao herdadas da a´rea de Minera¸ca˜o de Dados. Em (FARIA et al., 2014) ´e detalhado os m´etodos mais comuns na minera¸ca˜o de dados, indicando seu objetivo e aplica¸ca˜o na EDM, como ´e poss´ıvel observar nos quadros 2.5, 2.6, logo abaixo:

34 Quadro 2.5 – M´etodos de Educational Data Mining, seus objetivos/descri¸c˜ ao e aplica¸co ˜es

Fonte: Faria et al. (2014)

35 Quadro 2.6 – Continua¸ca˜o: M´etodos de Educational Data Mining, seus objetivos/descri¸ca˜o e aplica¸co˜es

Fonte: Faria et al. (2014)

Baker et al. (2009) afirmam ainda que, o uso dos m´etodos da EDM em conjunto com softwares educacionais torna poss´ıvel apontar os diferentes fatores que influenciam o comportamento do aluno e identificar aspectos sutis, muitas vezes impercept´ıveis do design de software, que instigam ou incentivam o surgimento de comportamentos indesejados e inadequados por parte dos alunos. Atrav´es desta verifica¸c˜ao, a EDM tamb´em contribui para oferecer princ´ıpios de desenvolvimento que podem ser aplicados para criar softwares que minimizam o problema de comportamento e maximizam a aprendizagem do aluno.

36

3 TRABALHOS RELACIONADOS Objetivando conhecer e entender os diversos problemas relacionados aos Ambientes Virtuais e o processo de extra¸c˜ao do conhecimento atrav´es minera¸c˜ao de dados nesses ambientes, foram analisados diversas iniciativas similares, propostas para resolu¸c˜ao de problemas que surgem no decorrer dos cursos, como o apoio para tomada de decis˜oes, apoio a` pr´atica docente e a avalia¸ca˜o do desempenho dos alunos. Citamos inicialmente o trabalho de Baker et al. (2006), onde os autores desenvolveram um personagem, denominado Scooter, que interage com o ambiente reagindo de acordo com o comportamento do estudante. Quando o estudante se comporta de forma adequada, o personagem faz o sinal de positivo. Mas, quando o aluno tenta trapacear, por exemplo, pedindo ajuda ao sistema diversas vezes para tentar obter a resposta final de um exerc´ıcio sem ao menos tentar resolvˆe-lo, ent˜ao Scooter muda seu comportamento e tenta diagnosticar o conhecimento do aluno atrav´es de uma sequˆencia de perguntas. Como resultado desse trabalho, os autores enfatizam que o comportamento deste personagem auxiliou o professor a identificar os alunos que n˜ao estavam aprendendo corretamente e tamb´em incentivou os alunos a manter um comportamento adequado para aprender de forma eficaz o conte´ udo da mat´eria. Em seu trabalho, Pimentel e Omar (2006) descreveram um estudo de caso e apresentaram um modelo para a aplica¸c˜ao de t´ecnicas de minera¸c˜ao de dados. Foram utilizadas as tarefas de classifica¸ca˜o e associa¸ca˜o para descobrir conhecimentos a respeito de um aprendiz ou de um grupo, em dados coletados atrav´es de avalia¸co˜es, na expectativa de criar mecanismos capazes de apoiar a avalia¸ca˜o formativa com feedback adequado para professor e aluno. Romero et al. (2008) comparam diferentes t´ecnicas de minera¸c˜ao de dados e t´ecnicas para classificar os alunos com base em seus dados de intera¸c˜ao no moodle e na nota final obtida no curso. Eles desenvolveram uma ferramenta de minera¸ca˜o espec´ıfica para facilitar a configura¸ca˜o e execu¸ca˜o de t´ecnicas de minera¸ca˜o de dados para os instrutores. Eles usaram dados reais de sete cursos do Moodle com estudantes da Universidade de C´ordoba. Buscando verificar os melhores classificadores obtidos, foram aplicadas as t´ecnicas de preprocessamento, discretiza¸ca˜o e rebalanceamento nos dados num´ericos originais para obter melhores classificadores. Como resultado do trabalho, eles afirmam que um modelo classificador apropriado para uso educacional tem que ser preciso e compreens´ıvel para os instrutores, a fim de ser u ´til para a tomada de decis˜ao. A fim de detectar maneiras de melhorar o processo de aprendizado em um curso online, Senechal (2013) realiza em seu trabalho o pr´e-processamento de dados buscando identificar os perfis de aprendizagem presentes atrav´es da an´alise dos dados referentes ao uso do ambiente e de suas ferramentas por parte dos alunos, a fim de apoiar professores e tutores, fornecendo dados estat´ısticos do sistema e a respeito das intera¸co˜es dos alunos no ambiente. Em Rodrigues et al. (2013), a fim de apoiar a tomada de decis˜oes por parte de professores e gestores. foi investigada a viabilidade da utiliza¸c˜ao do modelo de regress˜ao linear, em etapas iniciais da realiza¸ca˜o de cursos online. Atrav´es das t´ecnicas de regress˜ao linear foram estimados o desempenho de alunos baseado em suas intera¸c˜oes dentro da

37

plataforma virtual de aprendizagem, levando em considera¸ca˜o vari´aveis comportamentais. Gottardo et al. (2012) e Gottardo et al. (2014), apresenta dois trabalhos tratando do desempenho. No primeiro trabalho, ´e proposto a defini¸ca˜o de um conjunto de atributos amplo e generaliz´avel a ser utilizado para realizar inferˆencias relativas ao desempenho de estudantes. J´a no segundo trabalho, os autores utilizaram t´ecnicas de classifica¸c˜ao para minera¸ca˜o de dados, a fim de obter inferˆencias relativas ao desempenho de estudantes em cursos a distˆancia baseando-se em dados obtidos de um Ambiente Virtual de Aprendizagem. Marques (2014), trata da evas˜ao de alunos que fazem cursos em AVAs. Em seu trabalho, atrav´es da identifica¸c˜ao dos padr˜oes de acesso dos alunos nesse ambientes utilizando o algoritmo J48 baseado no algoritmo de a´rvore de decis˜ao C45, busca identificar os estudantes com caracter´ısticas que podem levar `a evas˜ao ou `a reprova¸c˜ao em cursos on-line e propor solu¸co˜es para o dado problema. Destacamos ainda, alguns trabalhos que utilizaram a clusteriza¸ca˜o dos dados para minera¸ca˜o de dados oriundos de ambientes educacionais. Foram relevantes: Pasta (2011), em sua disserta¸c˜ao de mestrado, aplica t´ecnicas de Data Mining em ambientes de gest˜ao educacional, aplicando t´ecnicas de Associa¸c˜ao, Classifica¸c˜ao e Clusteriza¸ca˜o na base de dados do ambiente. A pesquisa realizada pelo autor aborda por meio de um levantamento bibliogr´afico os conceitos sobre Gest˜ao da Informa¸ca˜o, Sistemas de Informa¸ca˜o, Data Warehouse, Data Mining com suas t´ecnicas e tarefas, finalizando com a ferramenta de minera¸c˜ao WEKA. A aplica¸c˜ao das t´ecnicas de Data Mining, utilizou a metodologia CRISP-DM, na qual foi poss´ıvel observar desde o conhecimento sobre o neg´ocio at´e a implementa¸ca˜o dos resultados. Dessa forma, como um dos resultados obtidos na pesquisa, constatou-se que a aplica¸ca˜o de uma ferramenta de Data Mining pode ser um poderoso instrumento para a gest˜ao das informa¸c˜oes nas IES. Prass (2004) apresenta em sua disserta¸c˜ao de mestrado, um estudo comparativo dos principais modelos de algoritmos de An´alise de Agrupamento (Cluster Analysis) existentes na literatura e implementados em softwares, com o objetivo de usar no processo de descoberta de conhecimentos em grandes bancos de dados (Knowledge Discovery in Databases - KDD). O autor destaca que os algoritmos de agrupamento s˜ao diferenciados de acordo com o seu m´etodo de forma¸c˜ao (Hier´arquico, Parti¸c˜ao, Baseado em Modelo, Baseado em Grade e Baseado em Densidade) e tamb´em pela medida de distˆancia que expressa a similaridade ou dissimilaridade entre os objetos. Detalha ainda os crit´erios de mensura¸ca˜o para que se possam avaliar quais os melhores algoritmos para grandes bases de dados. Os algoritmos foram avaliados com dados reais e simulados utilizando a Linguagem R, que apontou o algoritmo k -medoid como o mais preciso e r´apido. O trabalho mostra que o uso de An´alise de Agrupamentos(AA) pode ser feito atrav´es de software gratuito e com m´aquina de baixo custo, mas para se obtenham bons resultados s˜ao necess´arios s´olidos conhecimentos te´oricos sobre AA. No trabalho de conclus˜ao de curso de Oliveira (2008), ´e realizada uma revis˜ao dos m´etodos de clusteriza¸ca˜o j´a existentes, e descrito um novo m´etodo de clusteriza¸ca˜o de dados baseado na identifica¸c˜ao de comunidades em redes complexas e modelos computacionais inspirados biologicamente. A t´ecnica de clusteriza¸ca˜o proposta ´e composta por duas etapas: forma¸ca˜o da rede usando os dados de entrada; e particionamento dessa rede para obten¸ca˜o dos clusters. Nessa u ´ ltima etapa, a t´ecnica de otimiza¸c˜ao por nuvens de part´ıculas ´e utilizada a fim de identificar os clusters na rede, resultando em um algoritmo de clusteriza¸ca˜o hier´arquico divisivo. Resultados experimentais revelaram como caracter´ısticas do m´etodo

38

proposto a capacidade de detec¸ca˜o de clusters de formas arbitr´arias e a representa¸ca˜o de clusters com diferentes n´ıveis de refinamento. Faria et al. (2014) em sua disserta¸ca˜o de obten¸ca˜o do grau de mestre, prop˜oe um modelo de an´alise de dados, com base nos m´etodos cartas de controle, regress˜ao log´ıstica e an´alise de clusters. O objetivo do trabalho ´e extrair conhecimento relevante para a previs˜ao do desempenho escolar, auxiliando os professores de ensino online a supervisionar de forma eficiente a atividade e o desempenho dos seus estudantes. Com foco no desempenho, o trabalho de Fran¸ca e Amaral (2013) apresenta o uso de t´ecnicas de clusteriza¸c˜ao para a minera¸c˜ao de dados, visando a forma¸c˜ao de grupos similares de estudantes com dificuldades de aprendizagem no ensino de Programa¸c˜ao. Com isso, esperavam ser poss´ıvel formular estrat´egias pedag´ogicas adequadas a grupos de aprendizes no intuito de melhorar o seu desempenho. Devido falta de existˆencia de uma metodologia consolidada para minera¸c˜ao de dados educacionais, podendo ser encontradas sugest˜oes em Garcia et al. (2011) e Pimentel e Omar (2006), muitos dos trabalhos na ´area de EDM se baseiam em metodologias provenientes da minera¸c˜ao de dados, como a metodologia de Fayyad et al. (1996b) e a CRISP-DM (PASTA, 2011). Este trabalho buscou integrar a metodologia de Fayyad et al. (1996b), nos trˆes passos principais que comp˜oe a metodologia descrita por (PIMENTEL; OMAR, 2006), dando um enfoque diferente e integrado a metodologia utilizada no trabalho. Foi proposto com este trabalho, empregando o conhecimento adquirido nos trabalhos que mais influenciaram na sua constru¸c˜ao, um estudo das intera¸c˜oes dos alunos no ambiente virtual Moodle da SEaD, utilizando a tarefa de clusteriza¸ca˜o, a fim de determinar a influˆencia das intera¸c˜oes no desempenho dos alunos na avalia¸c˜ao da disciplina IEaD Introdu¸ca˜o a Educa¸ca˜o a Distˆancia, e ainda, como as intera¸c˜oes se inter-relacionam.

39

´ 4 MATERIAIS E METODOS Nesta se¸ca˜o ´e apresentado o tipo de pesquisa desenvolvido no projeto, os detalhes de todo o material utilizado e os procedimentos metodol´ogicos para a constru¸c˜ao, se¸c˜oes 4.1, 4.2 e 4.3, respectivamente.

4.1 Tipo de Pesquisa ´ salutar a importˆancia de se conhecer os tipos de pesquisas existentes devido a E necessidade de defini¸c˜ao dos instrumentos e procedimentos que um pesquisador precisa utilizar no planejamento da sua investiga¸ca˜o (KAUARK et al., 2010). Prodanov e Freitas (2013), descrevem uma Pesquisa como, um conjunto de a¸co˜es, propostas para encontrar a solu¸ca˜o para um problema, as quais tˆem por base procedimentos racionais e sistem´aticos. A pesquisa ´e realizada quando temos um problema e n˜ao temos informa¸co˜es para solucion´a-lo. Dada a importˆancia do planejamento do tipo de pesquisa para a investiga¸c˜ao de qualquer problema, Prodanov & Freitas(2013), cita v´arias formas de classificar as pesquisas, destacando na figura abaixo as formas cl´assicas de classifica¸c˜ao: Figura 5 – Tipos de pesquisa cient´ıfica

Fonte: Adapta¸c˜ ao de Silva((2012) apud (PRODANOV; FREITAS, 2013))

Assim, em conformidade aos objetivos deste trabalho, podemos caracteriz´a-lo quanto a sua natureza como uma pesquisa aplicada, devido a finalidade de gerar conhecimentos para aplica¸c˜ao pr´atica. Quanto aos objetivos, como uma pesquisa descritiva e explicativa. Descritiva, pois as intera¸c˜oes dos alunos foram observadas, registradas, classificadas (Agrupadas) e interpretadas, sem ocorrer nenhuma manipula¸c˜ao dos dados.

40

Explicativa, devido a preocupa¸c˜ao central de identificar os fatores determinantes para o desempenho, nota, a partir an´alise, classifica¸ca˜o e interpreta¸ca˜o das intera¸co˜es dos alunos no ambiente, a fim de aprofundar o conhecimento da realidade dos alunos ambiente. Quanto aos procedimentos t´ecnicos utilizados, este trabalho se enquadra como uma Pesquisa Bibliogr´afica e como um Estudo de Caso. Pesquisa Bibliogr´afica, pois foi elaborada a partir da consulta de obras publicadas, com o escopo de tentar trazer ao presente trabalho parcela consider´avel dos estudos j´a produzidos na a´rea de EDM. Estudo de Caso, porquanto selecionou-se uma turma e, a partir das an´alises das intera¸c˜oes dos alunos que finalizaram o curso e obtiveram nota, foi poss´ıvel atingir amplo e detalhado conhecimento dessas intera¸c˜oes (YIN, 2001), bem como disponibilizar conhecimentos de novas descobertas a respeito de aspectos que n˜ao foram, inicialmente, previstos. (GIL, 2010) (PRODANOV; FREITAS, 2013).

4.2 Materiais Para extra¸c˜ao de conhecimentos da base de dados do Moodle foram escolhidos: o curso no qual as intera¸c˜oes dos alunos seriam estudadas, os softwares utilizados para acessar, explorar e extrair dados dos alunos que finalizaram o curso selecionado na Base de Dados; os softwares que serviram de apoio para extra¸c˜ao das informa¸c˜oes atrav´es da Minera¸ca˜o de Dados e para, a an´alise e interpreta¸ca˜o dos resultados. A seguir apresentamos detalhes sobre o curso selecionado, se¸c˜ao 4.2.1. Na se¸c˜ao 4.2.2, a Base de Dados do Moodle e as aplica¸c˜oes utilizadas na sua explora¸c˜ao. J´a na R utilizada para a minera¸ se¸c˜ao 4.2.3, ´e a apresentada a ferramenta RapidMiner , c˜ao de R utilizada para minera¸ dados. Nas se¸co˜es 4.2.4 e 4.2.5, ´e apresentado a ferramenta R , ca˜o de dados, testes de correla¸c˜ao e regress˜ao linear e analises dos resultados obtidos; e o a R utulizada para a constru¸ ferramenta Excel , ca˜o das tabelas com os dados levantados do banco a respeito das intera¸co˜es, e para a realiza¸ca˜o dos testes de correla¸ca˜o e de regress˜ao Linear, bem como, para as an´alises e interpreta¸co˜es dos conhecimentos obtidos atrav´es da minera¸ca˜o de dados. 4.2.1 Detalhes do Curso A realiza¸ca˜o do experimento se deu atrav´es da disciplina de Introdu¸ca˜o a` Educa¸ca˜o a Distˆancia (IEaD) no Bacharelado em Administra¸ca˜o P´ ublica na modalidade a distˆancia ofertado pela Universidade Federal do Vale do S˜ao Francisco - Brasil (UNIVASF), a partir das diretrizes do Programa Nacional de Forma¸c˜ao em Administra¸c˜ao P´ ublica (PNAP) que teve, al´em dos desafios j´a inerentes `a pr´opria disciplina introdut´oria em EAD, o pioneirismo de ser a disciplina inicial da primeira gradua¸ca˜o totalmente por EAD ofertada pela UNIVASF. A disciplina Introdu¸c˜ao `a Educa¸c˜ao a Distˆancia foi toda ofertada pelo ambiente Moodle da Universidade Federal do Vale do S˜ao Francisco (UNIVASF) dividida em quatro t´opicos distribu´ıdos ao longo de quatro semanas de dura¸c˜ao. A estrat´egia de ensino do conte´ udo foi baseada em v´ıdeo-aulas, apostilas, f´oruns de discuss˜ao, chats e troca de mensagens pelo ambiente. Al´em do professor, oito tutores online e seis tutores presenciais nos polos apoiaram o desenvolvimento das atividades da disciplina. Em uma turma de 200 alunos matriculados, distribu´ıdos em 06 polos – JuazeiroBA, Capim Grosso-BA, Petrolina-PE, Ouricuri-PE, Salgueiro-PE e Trindade-PE – foram

41

coletados e analisados as diversas informa¸c˜oes contidas no banco de dados da disciplina dentro do ambiente virtual Moodle, possibilitando a extra¸c˜ao dos dados relevantes para essa pesquisa. Ao longo de cada semana do curso, o material did´atico foi disponibilizado, no formato de textos, apresenta¸co˜es e v´ıdeo-aulas. Em cada semana, um f´orum espec´ıfico para tratar do conte´ udo visto era criado para proporcionar intera¸co˜es entre professor, alunos e tutores. A realiza¸c˜ao de um chat com os alunos por polo tamb´em ajudou a esclarecer d´ uvidas sobre conte´ udos da disciplina, sobre a modalidade e o curso de Administra¸c˜ao P´ ublica. Al´em disso, proporcionou uma oportunidade de contato com a ferramenta de comunica¸c˜ao s´ıncrona do Moodle. Na pen´ ultima semana do curso, os alunos puderam realizar uma avalia¸ca˜o simulada online, com perguntas do tipo m´ ultipla escolha, preenchimento de lacunas, associa¸ca˜o de termos e verdadeiro/falso. Essa atividade permitiu uma primeira experiˆencia de avalia¸ca˜o interativa desenvolvida no pr´oprio Moodle. Os f´oruns foram disponibilizados em cada t´opico, para coment´arios e d´ uvidas, onde ocorreram uma boa participa¸ca˜o de alunos e tutores. Os F´oruns de coment´arios sobre a avalia¸c˜ao simulada e sobre a avalia¸c˜ao dos alunos tamb´em foram bastante utilizadas pelos alunos. A avalia¸ca˜o da disciplina, nos moldes da avalia¸ca˜o simulada anterior, ocorreu logo ap´os a conclus˜ao do conte´ udo e para os que n˜ao conseguiram aprova¸ca˜o por m´edia maior ou igual a 7,0, foi dada ent˜ao uma nova chance como avalia¸ca˜o final, onde a maioria conseguiu recuperar a nota e ser aprovado. Ao final da disciplina, 161 alunos foram aprovados, 15 reprovados por nota e 24 reprovados por n˜ao realizarem as atividades avaliativas. 4.2.2 Base de Dados Um banco de dados ´e um conjunto de dados armazenados em um computador. Esses dados, se observados separadamente, n˜ao tˆem valor nenhum, mas quando utilizados em ordem, revelam informa¸co˜es que poder˜ao ser usadas futuramente, por isso, um banco de dados deve ser seguro e nunca ficar exposto a pessoas n˜ao autorizadas(LOBO, 2008). Em MySQL(2013), destaca-se que um banco de dados ´e uma cole¸c˜ao de dados estruturados. Pode ser qualquer coisa, desde uma simples lista de compras a uma galeria de imagens ou a grande quantidade de informa¸co˜es em uma rede corporativa. Para adicionar, acessar e processar dados armazenados em um banco de dados de computador, vocˆe precisa de um sistema de gerenciamento de banco de dados. Utilizando a ferramenta XAMPP, foi poss´ıvel utilizar o SGBD MySQL, atrav´es da interface phpMyAdmin e da linguagem SQL, para obter as informa¸c˜oes a respeito das intera¸c˜oes dos alunos no durante o curso que estavam contidas nas tabelas da base de dados. Foram escolhidas as intera¸c˜oes dos alunos no Chat, F´orum, quantidade de Downloads, as mensagens enviadas e recebidas por eles, com os tutores e com o professor respons´avel pelo curso e desempenho na avalia¸c˜ao final do curso. A seguir, apresentamos as aplica¸co˜es utilizadas para o acesso e explora¸ca˜o da base de dados do Moodle: o XAMPP, o SGBD MySQL, o phpMyAdmin e a linguagem SQL. A seguir, apresentamos as aplica¸co˜es utilizadas para o acesso e explora¸ca˜o da base de dados do Moodle: o XAMPP, o SGBD MySQL, o phpMyAdmin e a linguagem SQL.

42 4.2.2.1

XAMPP

O XAMPP ´e um servidor independente de plataforma, software livre, que consiste principalmente na base de dados MySQL, o servidor web Apache e os interpretadores para linguagens de script: PHP e Perl. O nome provem da abrevia¸c˜ao de X (para qualquer dos diferentes sistemas operativos), Apache, MySQL, PHP, Perl. O programa est´a liberado sob a licen¸ca GNU e atua como um servidor web livre, f´acil de usar e capaz de interpretar p´aginas dinˆamicas. Atualmente XAMPP est´a dispon´ıvel para Microsoft Windows, GNU/Linux, Solaris, e MacOS X. O XAMPP permite ainda a instala¸c˜ao de alguns aplicativos de c´odigo aberto, como o Moodle, o Joomla!, o WordPress, o Drupal, entre outros. A escolha do XAMPP foi motivada por possibilitar a instala¸c˜ao do Moodle. Utilizando a vers˜ao do XAMPP 1.8.3, foi poss´ıvel instalarmos a vers˜ao do Moodle 2.2, condizente com a base de dados disponibilizada pela SEaD, possibilitando o backup do ambiente do Moodle e ainda o acesso as intera¸c˜oes dos alunos registradas na Base, atrav´es do phpmyadmin e da Linguagem SQL. 4.2.2.2

phpMyAdmin

O phpMyAdmin 1 ´e um web aplicativo escrito em PHP; ele cont´em (como a maioria das aplica¸co˜es web) XHTML, CSS, JavaScript e c´odigo do cliente. Este aplicativo oferece uma interface web completa para administra¸c˜ao de bancos de dados MySQL, e ´e amplamente reconhecida como a aplica¸ca˜o de lideran¸ca neste campo. Sendo Open Source desde o seu nascimento, teve o apoio de v´arios desenvolvedores e tradutores em todo o mundo, sendo traduzido para 65 l´ınguas. O projeto est´a atualmente hospedado no SourceForge.net e ´e desenvolvido utilizando suas instala¸c˜oes pela equipe phpMyAdmin (DELISLE, 2012). Segundo (DELISLE, 2012), o objetivo do phpMyAdmin ´e oferecer um gerenciamento completo baseado na Web de servidores e dados MySQL, e manter-se evoluindo com MySQL e padr˜oes web. Mesmo evoluindo continuamente, ele suporta todas as opera¸co˜es padr˜ao, juntamente com recursos extras. 4.2.2.3

MySQL

O MySQL ´e um servidor e gerenciador de banco de dados (SGBD) relacional, de licen¸ca dupla (sendo uma delas de software livre), projetado inicialmente para trabalhar com aplica¸c˜oes de pequeno e m´edio portes, mas hoje atendendo a aplica¸c˜oes de grande porte e com mais vantagens do que seus concorrentes. Possui todas as caracter´ısticas que um banco de dados de grande porte precisa, sendo reconhecido por algumas entidades como o banco de dados open source com maior capacidade para concorrer com programas similares de c´odigo fechado, tais como SQL Server(da Microsoft) e Oracle (MILANI, 2007). 4.2.2.4

SQL

SQL ´e uma ferramenta para a organiza¸ca˜o, gest˜ao e recupera¸ca˜o de dados armazenados por um Banco de Dados. O SQL sigla ´e uma abrevia¸c˜ao para Structured Query Language (Linguagem de Consulta Estruturada). Por raz˜oes hist´oricas, SQL geralmente ´e pronunciado ”sequel”, mas a pron´ uncia suplente ”SQL”, tamb´em ´e utilizada. Como o 1

home page oficial no http://www.phpmyadmin.net

43

nome indica, o SQL ´e uma linguagem de computador que vocˆe usa para interagir com um banco de dados. Na verdade, o SQL funciona com um tipo espec´ıfico de base de dados, chamada uma base de dados relacional (GROFF et al., 2002). A figura 6 descreve o processo de trabalho do SQL: Figura 6 – Usando o SQL para acessar uma Base de Dados

Fonte: Adaptado Groff et al. (2002)

Segundo Groff et al. (2002), o sistema destalhado na figura tem um banco de dados que armazena informa¸co˜es importantes. Se for o sistema de um neg´ocio, o banco de dados pode armazenar dados de estoque, produ¸c˜ao, vendas, ou da folha de pagamento. Em um computador pessoal, o banco de dados pode armazenar dados sobre os cheques que vocˆe escreveu, listas de pessoas e seus n´ umeros de telefone ou dados extra´ıdos de um sistema maior. O programa de computador que controla o banco de dados ´e chamado de um sistema de gerenciamento de banco de dados, ou SGBD. Para recuperar os dados de um banco de dados, pode-se usar a linguagem SQL para fazer a solicita¸c˜ao. O SGBD processa o pedido SQL, recupera os dados solicitados, e devolve-o, permitindo o usu´ario visualiz´a-los. 4.2.3 RapidMiner R ´ Segundo Marques (2014), o RapidMiner e uma ferramenta de Minera¸c˜ao de Dados, Minera¸ca˜o de texto, an´alise de dados e inteligˆencia de neg´ocio; utilizada nas a´reas de investiga¸ca˜o, educa¸ca˜o, projetos experimentais e em aplica¸co˜es industriais. Desenvolvida em Java, ele permite a sua utiliza¸c˜ao vers´atil em qualquer sistema operativo e ambiente de trabalho. Em 2001, Ralf Klinkenberg, Ingo Mierswa e Simon Fischer na Unidade de Inteligˆencia Artificial da Universidade de Dortmund (Alemanha) iniciaram o projeto R RapidMiner . Esta ferramenta encontra-se dispon´ıvel em duas vers˜oes: Community Edition – vers˜ao gratuita, mas limitada em termos de funcionalidades e recursos; Enterprise Editon – vers˜ao profissional do software que, al´em de todas as vantagens da vers˜ao Community contˆem solu¸co˜es empresariais espec´ıficas para utilizadores profissionais. Possui igualmente capacidades avan¸cadas de cria¸ca˜o de relat´orios e servi¸cos espec´ıficos de garantia e assistˆencia.

O RapidMiner oferece um ambiente de integra¸ca˜o com interface gr´afica visualmente atraente e f´acil de usar. O funcionamento do RapidMiner est´a focado em processos que podem conter subprocessos. Processos contˆem agentes sob a forma de componentes visuais. O fluxo de dados ´e constru´ıdo por a¸c˜oes do tipo drag-and-drop de operadores

44

e conectando-se as entradas e sa´ıdas dos operadores correspondentes. O RapidMiner tamb´em oferece a op¸c˜ao de assistentes de aplicativo, que auxiliam na constru¸c˜ao do processo automaticamente, com base nas metas do projeto (por exemplo, marketing direto, de an´alise de Churn, an´alise de sentimento). H´a tutoriais dispon´ıveis para muitas tarefas espec´ıficas para a ferramenta (JOVIC et al., 2014). Barreira (2013), destaca algumas das funcionalidades disponibilizadas, dentro dos seguintes grupos: • Importa¸c˜ ao e exporta¸c˜ ao de dados: Permite a leitura e a grava¸ca˜o em diversos formatos de arquivo de texto (XML, CSV etc.), al´em de poder acessar servi¸cos de banco de dados; • Transforma¸c˜ ao de dados: Permitem a prepara¸c˜ao dos dados nas outras etapas, isso inclui: convers˜ao de tipos, normaliza¸c˜ao de dados, filtragem, ordena¸c˜ao, entre outras; • Classifica¸c˜ ao: Inclui diversas funcionalidades preparadas para realizar classifica¸ca˜o de dados, entre as t´ecnicas disponibilizadas, tem-se: Redes Neurais, SVM, Redes Bayesianas; • Clustering: Inclui funcionalidades para realiza¸ca˜o de clustering (Agrupamento), na qual tem-se os algoritmos de k-means, DBScan, etc.; • Processamento de texto: Funcionalidades voltadas para trabalhos com documentos de texto, tais como: filtragem (stop words, por termos espec´ıficos), stemming, gera¸ca˜o de tokens, transforma¸ca˜o de dados, etc.; • Web mining: Conjunto de funcionalidades voltadas para informa¸c˜ao obtidas de paginas da web, por exemplo: leitura de paginas web e de webservices; Embora RapidMiner seja bastante poderoso com seu conjunto b´asico de operadores, s˜ao as extens˜oes que o tornam ainda mais u ´ til. Extens˜oes populares incluem conjuntos de operadores para a minera¸ca˜o de texto, minera¸ca˜o web, an´alise de s´eries temporais etc. (JOVIC et al., 2014). 4.2.4 R Project ´ um O R ´e uma linguagem e ambiente para computa¸c˜ao estat´ıstica e gr´aficos. E projeto GNU, semelhante a` linguagem S e teve ambiente, desenvolvido no Bell Laboratories (antiga AT & T, empresa Lucent Technologies) por John Chambers e colegas. O R fornece uma ampla variedade de modelagens estat´ıstica (linear e n˜ao-linear, testes estat´ısticos cl´assicos, an´alise de s´eries temporais, classifica¸c˜ao, clustering, entre outras), t´ecnicas gr´aficas, e ainda ´e altamente extens´ıvel. Um dos pontos fortes do R ´e a qualidade com a qual s˜ao bem desenhados as plotagens produzidas, incluindo s´ımbolos e f´ormulas matem´aticas, quando necess´ario. Ele est´a dispon´ıvel como software livre sob os termos da GNU em forma de c´odigo-fonte da Free Software Foundation. Ele compila e roda em uma ampla variedade de plataformas UNIX e sistemas semelhantes (incluindo FreeBSD e Linux), Windows e MacOS RProject (2014). O ambiente R ´e definido em RProject (2014) como um conjunto integrado de funcionalidades de software para manipula¸c˜ao de dados, c´alculo e exibi¸c˜ao gr´afica. O ambiente inclui:

45

• Uma eficaz manipula¸c˜ao de dados e facilidades de armazenamento; • Um conjunto de operadores para c´alculos em tabelas, em especial, nas matrizes; • Uma grande cole¸ca˜o integrada e coerente, de ferramentas intermedi´arias para an´alise de dados; • Funcionalidades gr´aficas para an´alise de dados e visualiza¸ca˜o ou na tela ou em c´opia impressa; ´ uma linguagem de programa¸c˜ao simples, eficaz e bem desenvolvida que inclui • E condicionais, loops, fun¸co˜es recursivas definidas pelo usu´ario e recursos de entrada e sa´ıda. 4.2.5 Excel O excel ´e uma das planilhas eletrˆonica dispon´ıveis no mercado mais utilizada por engenheiros e cientistas. Al´em de realizar c´alculos, as planilhas facilitam a cria¸c˜ao de gr´aficos com excelente qualidade de apresenta¸c˜ao, efetuar opera¸c˜oes em bancos de dados e a cria¸c˜ao de formul´arios. Com o Excel ´e poss´ıvel atrav´es de suas ferramentas editar, controlar e organizar as informa¸co˜es de modo mais simples (BLOCH, 2004) (OLIVEIRA; VARGAS, 2001). R Excel R 2013. Para este trabalho Neste trabalho foi utilizada a vers˜ao Microsoft foi instalado o aplicativo Action, a fim de integrar o Excel com o R. O Action ´e detalhado a seguir.

4.2.5.1

Action

O Action (ACTION, 2015b) ´e um sistema de estat´ıstica desenvolvido sob a plataforma R, que permite que se trabalhe junto ao Excel, de forma integrada, a fim de facilitar e agilizar an´alises estat´ısticas. Este programa ´e um software livre, sob os termos da Licen¸ca P´ ublica Geral (GNU) e esta dispon´ıvel em portuguˆes e inglˆes. Entre tantas funcionalidades, com o Action ´e poss´ıvel (ACTION, 2015b): • Estat´ıstica B´ asica: Contempla as ferramentas b´asicas de an´alise explorat´oria de dados, distribui¸ca˜o de frequˆencias e os testes de m´edia, variˆancia, propor¸co˜es e taxas. Al´em de testes de normalidade; • Distribui¸c˜ oes: Para as principais distribui¸co˜es de probabilidade discretas e cont´ınuas, ´e poss´ıvel calcular os quantis, percentis, densidade e tamb´em gera amostras aleat´orias; • ANOVA: Este m´odulo apresenta as principais ferramentas de compara¸ca˜o de fatores ´ disponibilizado o modelo de ANOVA com na performance de produtos e servi¸cos. E efeitos fixo, misto e aleat´orio, os m´etodos cl´assicos de compara¸c˜ao m´ ultipla (testes de Tuckey, Fisher, Dunnett e HSU) e os testes de variˆancia (Levene e Bartlet), entre outras funcionalidades; • Modelos: As principais ferramentas de modelos lineares e modelos lineares generalizados s˜ao contemplados neste m´odulo. Neste m´odulo, ´e poss´ıvel realizar an´alise de regress˜ao linear e n˜ao linear, regress˜ao binomial e regress˜ao multinomial. Tamb´em, fazer diversos tipos de gr´aficos para facilitar a an´alise;

46

• N˜ ao-param´ etrico: As principais t´ecnicas n˜ao param´etricas para an´alise de dados est˜ao dispon´ıveis neste m´odulo. Entre elas, os testes de Wilcoxon e o teste de Kruskal-Wallis; ´ disponibi• Gr´ aficos: Uma variedade de gr´aficos est˜ao dispon´ıveis neste m´odulo. E lizado os tradicionais, histograma, Box-Plot, Pareto, Dot Plot e gr´aficos 3D. Tudo para tornar a apresenta¸c˜ao dinˆamica, f´acil e compreens´ıvel; • Confiabilidade: As principais t´ecnicas de confiabilidade e an´alise de sobrevivˆencia est˜ao dispon´ıveis neste m´odulo. Desde t´ecnicas simples, como ajuste da distribui¸ca˜o Weibull e o estimador de Kaplan-Meier at´e `as t´ecnicas de testes de vida acelerada e os modelos de regress˜ao loca¸c˜ao-escala. Tamb´em apresenta uma t´ecnica para determinar o quantidade de itens necess´arios para atender `as especifica¸c˜oes do seu cliente, denominado plano de determina¸ca˜o; • Ferramentas da Qualidade: Contempla as principais ferramentas da qualidade, como CEP, An´alise de capacidade do processo, An´alise dos sistemas de medi¸c˜ao (MSA) e indicadores da qualidade. A ferramenta CEP contempla os principais tipos de gr´aficos, como o Xbar e R, Xbar e s, Valores individuais e amplitude m´ovel, entre outros. Tamb´em os principais gr´aficos por atributo. A ferramenta MSA apresenta todas as t´ecnicas para an´alise de sistemas replic´aveis e n˜ao replic´aveis (ou destrutivos). Tamb´em tem um m´odulo para an´alise de sistemas atributivos; • DOE: Este m´odulo contempla uma das mais poderosas ferramentas para melhoria de processos, produtos e servi¸cos. Aqui, pode-se fazer o planejamento do experimento, as principais t´ecnicas de an´alise e os gr´aficos adequados para que a apresenta¸ca˜o seja compreendida por p´ ublico; • An´ alise Multivariada: Contempla as t´ecnicas simples para agrupamento de dados e forma¸ca˜o de Cluster. Tamb´em, o recurso da MANOVA que permite estudar fatores de impacto em processo, produtos ou servi¸cos com m´ ultiplas caracter´ısticas da qualidade; • Poder e o tamanho da amostra: Contempla a t´ecnica da fun¸c˜ao poder para determinar o tamanho da amostra necess´ario para realiza¸ca˜o de experimentos. Neste m´odulo, aplica-se esta t´ecnica em teste simples como o teste t at´e testes mais complexos como ANOVA e o teste qui-quadrado.

4.3 M´etodos O m´etodo utilizado neste trabalho foi constru´ıdo de acordo com a metodologia de minera¸ca˜o de dados desenvolvida por Fayyad et al. (1996a), a qual pode ser resumida em trˆes passos principais: Prepara¸c˜ao dos dados, Extra¸c˜ao de Dados e P´os-Processamento, na Tabela 4. Al´em disso, testes estat´ısticos foram aplicados a fim de apontar o percurso metodol´ogico a seguir, conforme os resultados destes testes. 4.3.1 Preparac¸˜ao dos dados Esta ´e a fase do processamento respons´avel pela Sele¸c˜ao, Pr´e-processamento e Limpeza, e Transforma¸c˜ao dos dados. A seguir ´e detalhado os procedimentos que foram executados em cada uma das etapas.

47 4.3.1.1

Selec¸˜ao e compreens˜ao dos Dados

A fase de sele¸ca˜o ´e a respons´avel pela coleta dos dados das intera¸co˜es dos alunos provenientes da base de dados do Moodle. Inicialmente, utilizando a ferramenta XAMPP, foi realizada a instala¸ca˜o do ambiente Moodle(vers˜ao 2.2) em servidor local, e a realiza¸ca˜o do backup do ambiente com os dados armazenados dos alunos, de acordo com a base de dados concedida pela SEaD. Com o ambiente instalado, foi poss´ıvel explorar e estudar o funcionamento das ferramentas de intera¸c˜ao disponibilizadas e como os registros das intera¸c˜oes eram armazenados na sua base de dados. As ferramentas intera¸ca˜o disponibilizadas no curso s˜ao o F´orum, o chat, mensagens, v´ıdeos, etc. O alvo do estudo foi a participa¸ca˜o dos alunos nos f´oruns, atrav´es da an´alise de suas postagens; a participa¸ca˜o dos alunos nos Chats que ocorreu no decorrer do curso e as mensagens, enviadas e recebidas de outros alunos, com o professor e com os tutores. Foi analisado tamb´em, a quantidade de downloads realizados pelos alunos do material disponibilizado e o seu rendimento na avalia¸ca˜o final do curso. 4.3.1.2

Pr´e-Processamento e Transformac¸˜ao dos Dados

Esta etapa aborda dois pontos importantes para a prepara¸c˜ao dos dados para a minera¸ca˜o, as fases de pr´e-processamento e de transforma¸c˜ao dos dados. A fase de pr´e processamento tem como meta a limpeza dos dados selecionados para garantir sua qualidade e acur´acia. Segundo Olson e Delen (2008), a limpeza dos dados se resume em filtrar, agregar e preencher os valores ausentes na tabela de dados. Na filtragem, os dados selecionados s˜ao examinados para atestar a presen¸ca de outliers e redundˆancias. Os outliers diferem muito da maioria dos dados, s˜ao dados que s˜ao claramente fora do alcance dos grupos de dados selecionados. A identifica¸ca˜o de outliers ´e importante porque eles podem representar erros de entrada de dados. Al´em disso, mesmo se um outlier ´e um ponto de dados v´alidos e n˜ao um erro, certos m´etodos estat´ısticos s˜ao sens´ıveis `a sua presen¸ca e podem apresentar resultados inst´aveis (LAROSE, 2014). J´a os dados redundantes s˜ao as informa¸c˜oes iguais que s˜ao armazenadas de forma diferente. As vendas di´arias de um determinado produto s˜ao redundantes para vendas sazonais do mesmo produto, porque ´e poss´ıvel derivar a quantidade de vendas a partir os dados di´arios como tamb´em dos dados sazonais (OLSON; DELEN, 2008). A agrega¸c˜ao dos dados se resume em reduzir as dimens˜oes dos dados a fim de obter informa¸c˜oes agregadas. Nota-se que, embora um conjunto de dados agregado tem um volume pequeno, a informa¸c˜ao ´e mantida. Se uma promo¸c˜ao de marketing para as vendas de m´oveis ´e considerada nos pr´oximos 3 ou 4 anos, ent˜ao, ´e poss´ıvel que os dados de vendas di´arias serem agregados como os dados de vendas anuais. O tamanho dos dados de vendas ´e drasticamente reduzida, sem perda de informa¸c˜ao (OLSON; DELEN, 2008). Os valores ausentes, ou os chamados Missing Values, s˜ao valores que n˜ao foram inseridos no conjunto de dados, mas para o qual existe um valor real no mundo (PYLE, 1999). Os Missing Values s˜ao um problema que continua a afligir os m´etodos de an´alise de dados. Mesmo com os m´etodos de an´alise se sofisticando, ainda encontra-se os valores em falta nos campos, especialmente em bancos de dados com um grande n´ umero de campos. A ausˆencia de informa¸c˜ao raramente ´e ben´efica. Portanto, ´e preciso pensar com cuidado sobre como lidar com a espinhosa quest˜ao da falta de dados (LAROSE, 2014). Larose (2014), destaca que um m´etodo comum de lidar com os valores ausentes ´e

48

simplesmente omitir da an´alise os registros ou campos. No entanto, isso pode ser perigoso, uma vez que o padr˜ao de valores em falta pode de fato ser sistem´atica, e simplesmente eliminar esses registos levaria a um subconjunto tendencioso dos dados. Al´em disso, seria um desperd´ıcio a omiss˜ao de todas as informa¸c˜oes nos outros campos, s´o porque o valor de um campo est´a em falta. O autor sugere trˆes op¸co˜es para preencher esses campos sem dados: 1. Substituir utilizando alguma constante, especificado pelo analista. Para o trabalho, os campos vazios foram substitu´ıdos utilizando essa abordagem; 2. Substituir utilizando a m´edia dos campos (para as vari´aveis num´ericas) ou a moda(para vari´aveis categ´oricas). Para (PRASS, 2004), esta t´ecnica apresenta dois problemas: aplica-se apenas a vari´aveis num´ericas, n˜ao considerando sua aplica¸ca˜o para vari´aveis categ´oricas; e, quando pode ser aplicada, substitui o dado faltante por um aproximado, pode acarretar a obten¸ca˜o de resultados n˜ao t˜ao corretos; 3. Substituir utilizando um valor gerado aleatoriamente a partir da vari´avel distribui¸ca˜o observada. O pr´e-processamento dos dados ´e uma fase cr´ıtica para a descoberta de conhecimento em sistemas educacionais online pois, a susceptibilidade dos mesmos a problemas inerentes a sistemas dependentes de redes de computadores, particularmente problemas de conex˜ao, tais como quedas ou lentid˜ao excessiva, podem causar uma grande quantidade de ru´ıdo e informa¸c˜oes incompletas no registro do mesmo, atrapalhando diretamente o curso de navega¸c˜ao do usu´ario, podendo alterar informa¸c˜oes do caminho percorrido pelo mesmo atrav´es do sistema for¸cando-o a reentrar no mesmo; e, incitar o usu´ario a m´ ultiplos pedidos de atualiza¸c˜ao de uma p´agina tentando terminar de carreg´a-la, criando uma grande quantidade de registros de acesso consecutivos `a mesma p´agina na base de dados ´ do sistema (JUNIOR, 2010). A fase de transforma¸c˜ao dos dados ´e a respons´avel pela adequa¸c˜ao dos dados aos algoritmos selecionados e a aplica¸c˜ao que ser´a utilizada para a minera¸c˜ao de dados. Normalmente, os algoritmos de minera¸c˜ao de dados n˜ao podem acessar os dados em seu formato nativo, por causa da forma de armazenamento ou normaliza¸c˜ao adotada na modelagem da base de dados, torna-se necess´aria a convers˜ao desses dados para um formato mais apropriado, podendo ainda sumariz´a-los, a fim de reduzir o n´ umero de vari´aveis consideradas ou criar novos atributos que possam agregar valor a` base de dados (SALVADOR et al., 2009). A normaliza¸c˜ao dos dados permite atribuir uma nova escala a um atributo de forma que os valores desse atributo possam cair na nova escala em um intervalo especificado, ˆ tal como entre –1.0 a 1.0 ou de 0.0 a 1.0 etc. (CORTES et al., 2002). Outra t´ecnica de normaliza¸c˜ao estat´ıstica, que por objetivo converter dados em uma distribui¸c˜ao normal com m´edia 0 e desvio padr˜ao 1. Este m´etodo ´e tamb´em conhecido como Transforma¸ca˜o Z. A equa¸c˜ao utilizada no c´alculo ser´a: Z=

(X−u) , s

onde, X ´e o vetor de atributos, u ´e a m´edia dos valores dos atributos e s o desvio padr˜ao. As vari´aveis categ´oricas, id do aluno e username, foram suprimidas, n˜ao fazendo parte da normaliza¸ca˜o nem do processo de minera¸ca˜o.

49

Neste trabalho, foi utilizado a t´ecnica de normaliza¸c˜ao por Transforma¸ca˜o Z. 4.3.2 Extrac¸˜ao de padr˜oes Esta ´e a fase respons´avel pelo processo de minera¸c˜ao dos dados. Neste trabalho optou-se pela tarefa de clusteriza¸c˜ao, conhecida tamb´em com an´alise de clusters. A tarefa foi escolhida baseado no tipo de pesquisa que o trabalho desenvolve, uma pesquisa principalmente descritiva, e justificado pelas an´alises realizadas a partir do Teste de Correla¸ca˜o e a An´alise de Regress˜ao, descritas a seguir: ´ uma medida do grau em que a mudan¸ca de uma vari´avel • Teste de Correla¸c˜ ao → E est´a relacionada com a altera¸c˜ao de outra. A correla¸c˜ao varia entre -1 e 1. Uma correla¸c˜ao 0 significa que duas vari´aveis n˜ao est˜ao relacionadas. Uma correla¸c˜ao de valor 1 significa que, mudan¸cas em uma vari´avel, implica mudan¸ca na mesma dire¸ca˜o de uma segunda vari´avel, embora, n˜ao necessariamente na mesma propor¸c˜ao. J´a Para uma correla¸ca˜o de -1, significa que a mudan¸cas em uma vari´avel implica numa mudan¸ca na dire¸c˜ao oposta de uma segunda. Outra medida da correla¸c˜ao ´e o valor de R2 , que ´e uma correla¸c˜ao quadrada e varia de 0 (nenhuma rela¸c˜ao) a 1 (rela¸c˜ao completa) (BERRY; LINOFF, 2004). Shimakura (2015) define na tabela apresentada a seguir, a interpreta¸c˜ao para cada faixa de valores da correla¸ca˜o. Tabela 1 – Faixa de valores para a correla¸ca ˜o

Valor de ρ (±) 0,00 a 0,19 0,20 a 0,39 0,40 a 0,69 0,70 a 0,89 0,90 a 1,00

Interpretac ¸˜ ao Correla¸c˜ao muito fraca Correla¸c˜ao fraca Correla¸c˜ao moderada Correla¸c˜ao forte Correla¸c˜ao muito forte

Fonte: (SHIMAKURA, 2015)

• An´ alise de regress˜ ao → Consiste na realiza¸c˜ao de uma an´alise estat´ıstica com o objetivo de verificar a existˆencia de uma rela¸c˜ao funcional entre uma vari´avel dependente com uma ou mais vari´aveis independentes. Em resumo, consiste na obten¸ca˜o de uma equa¸ca˜o que tenta explicar a varia¸ca˜o da vari´avel dependente pela varia¸c˜ao do(s) n´ıvel(is) da(s) vari´avel(is) independente(s). O comportamento de Y em rela¸ca˜o a X pode se apresentar de diversas maneiras: linear(simples ou m´ ultipla), quadr´atico, c´ ubico, exponencial, logar´ıtmico, etc... . Para se estabelecer o modelo para explicar o fenˆomeno, deve-se verificar qual tipo de curva e equa¸c˜ao de um modelo matem´atico que mais se aproxime dos pontos representados no diagrama de dispers˜ao (PETERNELLI, 2015). Para este trabalho foi utilizado o modelo de regress˜ao linear m´ ultipla. Segundo o Action (2015a), Regress˜ao m´ ultipla ´e uma cole¸c˜ao de t´ecnicas estat´ıticas para construir modelos que descrevem de maneira razo´avel rela¸co˜es entre v´arias vari´aveis explicativas de um determinado processo. A diferen¸ca entre a regress˜ao linear simples e a m´ ultipla ´e que na m´ ultipla s˜ao tratadas duas ou mais vari´aveis explicativas.

50

Este modelo para um hiperplano p-dimensional referente vari´aveis explicativas ´e representado por: Y = β0 + β1 xi1 + β2 xi2 + ... + βip xip + εi , parai = 1, ..., n onde: – xi1 , xi2 , ..., xip s˜ao os valores das vari´aveis explicativas, constantes conhecidas; – β0 , β1 , β2 , ..., βp s˜ao parˆametros ou coeficientes de regress˜ao; – εi s˜ao os erros conhecidos da regress˜ao. A Clusteriza¸ca˜o, segundo Jain e Dubes (1988 apud OLIVEIRA, 2008), ”´e a divis˜ao de dados, baseada na similaridade entre eles, em grupos disjuntos chamados clusters. Isso significa que dados em um mesmo cluster s˜ao mais similares do que dados pertencentes a clusters diferentes. O ato de agrupar os dados representa uma ferramenta importante no aprendizado e compreens˜ao a respeito dos mesmos. Pode ser definido tamb´em como um problema de aprendizado n˜ao-supervisionado, j´a que a estrutura dos dados e as propriedades que os tornam similares s˜ao desconhecidas. Como n˜ao existem r´otulos iniciais, o objetivo da clusteriza¸c˜ao ´e encontrar uma organiza¸c˜ao v´alida e conveniente dos dados, ao inv´es de separ´a-los em categorias como acontece no reconhecimento de padr˜oes e na classifica¸ca˜o de dados”. Segundo Oliveira (2008), algumas etapas devem ser cumpridas para garantir uma clusteriza¸ca˜o eficiente, como ilustra a figura abaixo: Figura 7 – Etapas do processo de clusteriza¸ca ˜o

Fonte: Adaptado de Oliveira (2008)

1. Coleta de Dados → Realizada na etapa de Prepara¸ca˜o dos dados. 2. Medidas de Similaridade → Para que a proximidade de dois dados, possa ser quantificada, ´e necess´ario adotar alguma medida de similaridade (distˆancia) entre eles. Existem diversas maneiras de quantificar a similaridade, ou dissimilaridade, entre pares de dados e a escolha da medida de similaridade adequada ´e fundamental para a clusteriza¸c˜ao dos dados(OLIVEIRA, 2008). Nesta sub etapa, ser´a discutida as distˆancias de Minkowski, que inclui as medidas de similaridade mais utilizadas no c´alculo da parecen¸ca entre dois dados. S˜ao elas: a Distˆancia de Manhattan, ”Sup”e a distˆancia Euclidiana, medida de similaridade escolhida neste trabalho. 3. Algoritmos de Clusteriza¸c˜ ao → Esta sub etapa ´e a parte principal da etapa de extra¸ca˜o de padr˜oes e tem como objetivo a divis˜ao do conjunto inicial pr´e-processado em clusters. Aqui ´e selecionado os algoritmos de agrupamento que ser˜ao empregados.

51

S˜ao eles: os algoritmos de clusteriza¸c˜ao Hier´arquica e os de clusteriza¸c˜ao N˜ao Hier´arquica. 4. Valida¸c˜ ao e An´ alise dos resultados → Etapa de P´os-processamento. 4.3.2.1

Distˆancias de Minkowski

Segundo Oliveira (2008), a proximidade entre dois dados xi e xj ´e denotada por d(xi xj ). Para medir a similaridade entre atributos cont´ınuos utiliza-se o c´alculo da distˆancia entre eles. Para que a distˆancia seja considerada uma m´etrica deve satisfazer as seguintes condi¸co˜es: • d(xi , xj ) ≥ 0 • d(xi , xj ) = 0, se e somente se xi = xj • d(xi , xj ) = d(xj ; xi ) • d(xi , xl ) ≤ d(xi ; xj ) + d(xi ; xl ) onde,xi , xj , xl  X. A equa¸c˜ao b´asica das distancia de Minkowski ´e calculada pela equa¸c˜ao abaixo, onde d ´e o n´ umero de atributos dos dados e ordem p: d(xi , xj ) =

qP d

k=1

(|xik − xjk |)p , p ≥ 1

A varia¸c˜ao da ordem p define distˆancias diferentes. As trˆes varia¸c˜oes mais comuns da distˆancia de Minkowski s˜ao calculadas pelas Equa¸c˜oes abaixo Jain e Dubes (1988 apud OLIVEIRA, 2008): • Distˆancia de Manhanttan (para p = 1) d(i, j) =

Pd

k=1

xil − xjl )

d k=1

(xil − xjl )2

• Distˆancia Euclidiana(para p = 2) d(i, j) =

qP

• Distˆancia ”Sup”(para p →∝ ) d(i, j) = max1≤k≤d |xik − xjk | Para p = 2, ´e calculada a distˆancia Euclidiana. Ela ´e a m´etrica mais utilizada quando os atributos possuem valores cont´ınuos para avaliar a proximidade de dados representados em duas ou trˆes dimens˜oes. A utiliza¸ca˜o da distˆancia Euclidiana justifica a normaliza¸ca˜o feita na etapa de transforma¸ca˜o dos dados, pois utilizar essa m´etrica com os valores absolutos dos dados, pode ocorrer a dominˆancia de um atributo sobre os demais.

52 4.3.2.2

Clusterizac¸˜ao Hier´arquica

O m´etodo hier´arquico de clusteriza¸ca˜o consiste em uma s´erie de sucessivos agrupamentos ou sucessivas divis˜oes de elementos, onde os elementos s˜ao agregados ou desagregados. Segundo Maimon e Rokach (2005), os m´etodos hier´arquicos s˜ao subdivididos em m´etodos aglomerativos e divisivos. • Agrupamento Hier´ arquico Aglomerativo → Inicialmente cada objeto pertence a um pequeno grupo pr´oprio. Em seguida, nas sucessivas etapas do m´etodo, dois clusters mais pr´oximos s˜ao agregados em um novo cluster combinado. Desta forma, o n´ umero de clusters no conjunto de dados ´e reduzido por um a cada passo. Eventualmente, todos os registros s˜ao combinados em um u ´nico conjunto maior. • Agrupamento Hier´ arquico Divisivo → Todos os objetos inicialmente pertencem a um cluster. Em seguida, o cluster ´e dividido em sub-grupos, que s˜ao divididos sucessivamente em suas pr´oprias sub-clusters. Este processo continua at´e que a estrutura do aglomerado desejado ´e obtido. O resultado da clusteriza¸c˜ao hier´arquica ´e representado por um dendograma. Segundo Oliveira (2008), o dendograma representa de forma gr´afica o processo de clusteriza¸ca˜o, ilustrando as sucessivas uni˜oes ou divis˜oes dos dados em clusters. O dendrograma ´e uma a´rvore, onde as folhas representam os clusters formados por apenas um elemento. A medida que a altura da a´rvore cresce, os dados juntam-se para formar clusters maiores, at´e que todos fa¸cam parte de um mesmo cluster. A imagem seguinte ilustra o dendograma: Figura 8 – Modelo de um Dendograma e seus componentes

Fonte: Freitas (2006)

´ poss´ıvel observar, que de acordo com a forma¸c˜ao dos clusters, o dendograma E pode ser constru´ıdo utilizando uma estrat´egia top-down, partindo da raiz para as folhas, utilizando o m´etodo divisivo; ou, ser constru´ıdo por uma estrat´egia buttom-up, partindo das folhas em dire¸ca˜o as ra´ızes, utilizando o m´etodo aglomerativo (OLIVEIRA, 2008). O m´etodo aglomerativo foi o adotado como algoritmo clusteriza¸c˜ao hier´arquica deste trabalho. Existem diferentes m´etodos aglomerativos, mas todos seguem a mesma

53

id´eia: a primeira parti¸ca˜o ´e formada por n clusters, cada um com um elemento do conjunto de dados, e a u´ltima parti¸ca˜o possui um u´nico cluster composto pelos n dados. A diferen¸ca entre os m´etodos est´a na escolha da medida de similaridade utilizada, j´a que a cada passo s˜ao unidos os dois clusters mais similares (OLIVEIRA, 2008). Os m´etodos aglomerativos s˜ao caracterizados de acordo com o crit´erio utilizado para definir as distˆancias entre grupos. Entretanto, a maioria dos m´etodos parecem ser formula¸co˜es alternativas de trˆes grandes conceitos de agrupamento aglomerativo. Segundo (ANDERBERG, 1973 apud DONI, 2004), (OLIVEIRA, 2008): 1. M´ etodos de Liga¸c˜ ao 1.1 Single Linkage → Tamb´em conhecido como M´etodo do Vizinho Mais Pr´oximo (Em inglˆes, nearest neighbor), une clusters com a distˆancia m´ınima entre os pares de dados de clusters diferentes; 1.2 Complete Linkage → Tamb´em chamado de M´etodo do Vizinho Mais distante (Em inglˆes,furthest neighbor), utiliza medida de distˆancia oposta ao Single Linkage, avaliando a distˆancia entre os pares de indiv´ıduos mais distantes; 1.3 Average Linkage → Tamb´em chamado de M´etodo das distˆancias m´edias entre grupo, a medida de similaridade entre os dois clusters ´e a m´edia da distˆancia entre todos os pares formados por elementos de clusters diferentes; 2. M´ etodos de centr´ oide → Para cada cluster ´e calculado um centro de cluster ck, e s˜ao unidos os dois clusters com a menor distˆancia entre centros, dentre todos os pares de clusters; 2.1 Median Linkage → Trata-se de um caso particular do m´etodo do centroide, isto ´e, quando determina-se a distˆancia entre agrupamentos utilizando-se o centro de massa, n˜ao ´e considerado o n´ umero de elementos que existem em cada um dos agrupamentos, deste modo, o vetor m´edio que representa o novo agrupamento, pode ficar situado entre os elementos do agrupamento com maior n´ umero de elementos (GODOY, 2013). 3. M´ etodos de soma de erros quadr´ aticos ou variˆ ancia (M´ etodo de Ward) → Tamb´em conhecido como M´etodo da In´ercia M´ınima (ISA/UTL, 2015). Este foi o m´etodo de similaridade entre clusters escolhido para a realiza¸c˜ao da clusteriza¸c˜ao hier´arquica no trabalho. Segundo (HAIR et al., 2005 apud SEIDEL et al., 2013), o m´etodo de Ward consiste em uma medida de similaridade usada para juntar agrupamentos e ´e calculada como a soma de erros de quadrados entre os dois clusters, realizada sobre todas as vari´aveis. Esse m´etodo tende a resultar em agrupamentos de tamanhos aproximadamente iguais devido a sua minimiza¸ca˜o de varia¸ca˜o interna. Em cada est´agio, s˜ao combinados dois agrupamentos que apresentarem menor aumento na soma global de quadrados entre os agrupamentos. Em resumo, para (LOPES, 2004), este m´etodo tenta minimizar a Soma dos Quadrados (SS) de quaisquer dois clusters(hipot´eticos) que podem ser formados a cada passo. (JR, 1963) define equa¸ca˜o utilizada para o m´etodo: ESS k =

Pn

i=1

x2i −

1 n

∗(

Pn

i=1

xi ) 2 .

Algumas caracter´ısticas desse m´etodo s˜ao (DONI, 2004):

54

• Apresenta bons resultados tanto para distˆancias euclidianas quanto para outras distˆancias; • Pode apresentar resultados insatisfat´orios quando o n´ umero de elementos em cada grupo ´e praticamente igual; • Tem tendˆencia a combinar grupos com poucos de elementos; • Sens´ıvel a` presen¸ca de outliers. 4.3.2.3

Clusterizac¸˜ao N˜ao Hier´arquica

Clusteriza¸c˜ao N˜ao Hier´arquica ´e tamb´em conhecida como Clusteriza¸c˜ao por Particionamento. Segundo Maimon e Rokach (2005), os m´etodos de particionamento movem instˆancias de um cluster para outro, a partir de uma parti¸ca˜o inicial. Tais m´etodos tipicamente exigem que o n´ umero de clusters seja pr´e-definido pelo usu´ario. Dado um conjunto D de dados com n registros e k o n´ umero de agrupamentos desejados, os algoritmos de particionamento organizam os objetos em k agrupamentos, tal que k ≤ n (CAMILO; SILVA, 2009). Quando comparado com o m´etodo hier´arquico, o m´etodo por particionamento ´e mais r´apido porque n˜ao ´e necess´ario calcular e armazenar, durante o processamento, a matriz de similaridade (DONI, 2004), e ´e mais vantajoso nas aplica¸co˜es que envolvem um grande n´ umero de conjuntos, pois n˜ao h´a a constru¸ca˜o do dendograma (LACHI; ROCHA, 2005). Em geral, os m´etodos por particionamento diferem entre si pela maneira que constituem a melhor parti¸c˜ao (DONI, 2004). Os m´etodos por particionamento mais conhecidos s˜ao: • k-means(k-m´ edias) → Esse algoritmo usa o conceito de centroide. Para um conjunto de dados, o algoritmo seleciona de forma aleat´oria k registros, cada um representando um agrupamento. Para cada registro restante, ´e calculada a similaridade entre o registro analisado e o centro de cada agrupamento. O objeto ´e inserido no agrupamento com a menor distˆancia, ou seja, maior similaridade. O centro do cluster ´e recalculado a cada novo elemento inserido. • k-medoid(k-med´ oides) → Derivado do k-Means, este algoritmo, ao inv´es de calcular o centro do agrupamento e us´a-lo como referˆencia, trabalha com o conceito do objeto mais central do agrupamento. Suas varia¸co˜es mais conhecidas s˜ao os algoritmos PAM (Partitioning Around Medoids) e CLARA (Clustering LARge Applications). O K-Means foi o algoritmo escolhido para a clusteriza¸c˜ao n˜ao hier´arquica e ser´a detalhado na subse¸c˜ao a seguir. 4.3.2.3.1

K-Means

Proposto pode J. MacQueen em 1967, este ´e um dos algoritmos mais conhecidos e utilizados, al´em de ser o que possui o maior n´ umero de varia¸co˜es (DINIZ; NETO, 2000 apud PRASS, 2004). Segundo Jain et al. (1999), o K-Means come¸ca com uma parti¸c˜ao inicial aleat´oria e mant´em a reatribui¸ca˜o dos padr˜oes para clusters com base na similaridade entre o modelo e os centros de cluster at´e que um crit´erio de convergˆencia seja atendido

55

(por exemplo, n˜ao h´a mais redistribui¸ca˜o de qualquer padr˜ao de um cluster para outro, ou o quadrado erro deixa de diminuir significativamente ap´os um certo n´ umero de itera¸co˜es). A fun¸ca˜o objetivo a ser minimizada pelo algoritmo ´e a fun¸ca˜o de erro quadr´atico, definida pela equa¸ca˜o abaixo (OLIVEIRA, 2008): E2 =

PK

k=1

P

(xi − ck )T ∗ (xi − ck ) ,

onde ck ´e o centro do cluster k. A fun¸ca˜o de erro quadr´atico busca minimizar a varia¸ca˜o entre os dados em rela¸ca˜o ao centro de cada cluster e ´e eficiente quando os clusters est˜ao isolados (OLIVEIRA, 2008). Lachi e Rocha (2005) define os passos do algoritmo K-means: • Escolha a parti¸c˜ao inicial formada por K clusters; • Gere uma nova parti¸ca˜o atribuindo cada dado ao cluster com o qual possui a maior semelhan¸ca; • Gere uma nova parti¸ca˜o atribuindo cada dado ao cluster com o qual possui a maior semelhan¸ca; • Volte ao Passo 2 at´e a convergˆencia Existem ainda diferentes varia¸c˜oes do k-means: implementa¸c˜ao de otimiza¸c˜oes para escolha do valor do k, novas medidas de dissimilaridade e estrat´egias para o c´alculo do centro do agrupamento. Uma varia¸c˜ao bem conhecida do k-Means ´e o k-Modes. O algoritmo K-Modes ao inv´es de calcular o centro do agrupamento atrav´es da m´edia de distˆancia dos registros, ele usa a moda (CAMILO; SILVA, 2009). 4.3.3 P´os-Processamento A fase de p´os-processamento ´e a fase que ocorre ap´os a minera¸c˜ao de dados e ´e respons´avel pela avalia¸c˜ao, interpreta¸c˜ao e utiliza¸c˜ao do conhecimento extra´ıdo, e caso se fa¸ca necess´ario, o retorno as etapas anteriores para as devidas adequa¸c˜oes a fim de se obter uma minera¸c˜ao mais correta. Segundo Lopes (2004), o p´os-processamento dos dados consiste da fase de valida¸ca˜o das descobertas efetuadas pela etapa de processamento dos dados e da visualiza¸c˜ao dos resultados encontrados. M´etricas de avalia¸c˜ao de resultados, ferramentas de visualiza¸c˜ao conhecimento de especialistas ajudam a consolidar os resultados. Para o entendimento dos agrupamentos obtidos da etapa de extra¸ca˜o de padr˜oes, foram utilizados alguns recursos da estat´ıstica para a an´alise da homogeneidade dos dados referentes as intera¸c˜oes de cada grupo. S˜ao eles: sumariza¸c˜ao de cada agrupamento, Matrizes de Correla¸c˜ao correspondente a cada grupo e tabelas comparativas dos grupos por cada tipo de agrupamento. Os resultados do p´os-processamento ser˜ao detalhados no pr´oximo cap´ıtulo.

56

˜ 5 RESULTADO OBTIDOS E DISCUSSOES Neste cap´ıtulo s˜ao apresentados o experimento e a an´alise dos resultados provenientes dos agrupamentos realizados sobre intera¸c˜oes dos alunos no Ambiente Moodle. Iniciamos o cap´ıtulo, se¸c˜ao 5.1, com uma breve explana¸c˜ao a respeito do processo de recupera¸c˜ao dos dados do backup do AVA. As se¸c˜oes que sucedem, trazem a aplica¸c˜ao dos passos anteriormente determinados na se¸c˜ao de M´etodos do cap´ıtulo de Materiais e M´etodos.

5.1 Recuperac¸˜ao dos dados do backup do AVA Para viabilizar o acesso aos dados contidos no backup cedido pela SEAD, foram realizadas algumas a¸c˜oes. Inicialmente, ap´os a instala¸c˜ao do XAMPP, foi executado o carregamento da base de dados do moodle utilizando o prompt do MySQL, pois devido ao tamanho do arquivo n˜ao foi poss´ıvel carregar o backup utilizando o phpMyAdmin. Podemos observar os comandos SQL usados na figura abaixo: Figura 9 – Comandos na tela do prompt do MySQL

Fonte: O autor.

Ap´os o carregamento da base de dados do Moodle, foi realizada a instala¸c˜ao e o backup do mesmo no servidor local (localhost), permitindo o acesso ao ambiente que foi utilizado pelos alunos durante o curso e o acesso aos dados armazenados na base de dados atrav´es da ferramenta phpMyAdmin.

5.2 Experimento Buscando encontrar as rela¸co˜es entre os dados relacionados com as intera¸co˜es dos alunos no curso IEaD (Introdu¸ca˜o a` Educa¸ca˜o a Distˆancia), foi aplicado uma metodologia

57

para minerar dados educacionais provenientes do ambiente virtual da SEAD UNIVASF, baseado no AVA MOODLE. 5.2.1 Preparac¸˜ao dos dados Esta fase do processo para minera¸ca˜o dos dados se inicia com o an´alise dos dados referentes ao curso Introdu¸c˜ao ao EaD e das ferramentas disponibilizadas pelo professor respons´avel pelo curso, bem como dos dados contidos na base de dados referente as intera¸c˜oes nesse ambiente. Nesta primeira etapa ´e realizado o preparo dos dados para a minera¸ca˜o, de acordo com as etapas j´a detalhadas na se¸c˜ao de M´etodos. 5.2.1.1

Selec¸˜ao de Dados

Nesta etapa foram selecionadas os registros provenientes das a¸c˜oes do aluno no ambiente, conforme as intera¸c˜oes que possuem maior destaque no curso alvo do estudo. S˜ao elas: as postagens no f´orum, participa¸c˜oes no chat, mensagens enviadas e recebidas entre alunos, tutores e professor; os logs relacionados aos downloads e as notas da avalia¸ca˜o do curso. Essas intera¸co˜es se encontravam armazenadas nas tabelas do banco de dados do ambiente. A tabela abaixo ilustra as tabelas selecionadas e o tipo de informa¸c˜oes nelas armazenadas. Quadro 5.1 – Tabelas do Moodle importantes para o trabalho

Fonte: O autor.

A partir das informa¸co˜es contidas nessas tabelas, foram determinados os atributos escolhidos para descrever as intera¸co˜es dos estudantes. S˜ao eles: Quadro 5.2 – Atributos que descrevem as intera¸co ˜es entre os alunos

Fonte: O autor.

58

Esses atributos foram determinados atrav´es de consultas realizados na ferramenta phpMyAdmin utilizando a linguagem SQL. As consulta tinham como objetivo obter os a rela¸c˜ao entre o id do estudante, seu username e a quantidade de intera¸c˜oes que ele possui registrada no ambiente. Abaixo podemos observar o c´odigo utilizado para obter as intera¸c˜oes dos alunos nos chats da disciplina: C´ odigo SQL 5.1 – Exemplo de Consulta realizada - intera¸c˜ oes dos Alunos no chat 1

SELECT c . u s e r i d , u . username , count ( c . u s e r i d ) FROM ‘ m d l c h a t m e s s a g e s ‘ c inner j o i n m d l u s e r u on c . u s e r i d = u . i d where c . c h a t i d in (SELECT i d FROM ‘ mdl chat ‘ where c o u r s e = 9 3 ) and u s e r i d in ( s e l e c t u s e r i d from a l u n o s ) and ( date ( f r o m u n i x t i m e ( timestamp ) ) between ’ 2013 -10 -15 ’ and ’ 2013 -12 -01 ’ ) group by username

Para auxiliar e facilitar as consultas realizadas, foram criadas algumas vis˜oes, atrav´es da fun¸ca˜o sql view. Cada vis˜ao tinha um objetivo de guardar apenas as informa¸co˜es relevantes de uma determinada tabela. Uma das vis˜oes criadas foi a view Alunos, que continha a lista de estudantes que participaram do curso, armazenando seu id e o seu username. Foram selecionados apenas os alunos que tiveram nota na avalia¸c˜ao final. Abaixo ´e poss´ıvel observar o comando utilizado para criar a vis˜ao: C´ odigo SQL 5.2 – Vis˜ ao (view) alunos 1 2 3 4

CREATE ALGORITHM = UNDEFINED VIEW ‘ a l u n o s ‘ AS SELECT g . u s e r i d , g . f i n a l g r a d e , u . username FROM m d l g r a d e g r a d e s g INNER JOIN m d l g r a d e i t e m s i INNER JOIN m d l u s e r u ON g . i t e m i d =929 and g . u s e r i d = u . i d WHERE i . c o u r s e i d =93 and u s e r i d 13 group by u . username

A figura abaixo ilustra uma amostra do resultado da consulta apresentada no C´odigo SQL 5.1, utilizando a vis˜ao apresentada no C´odigo SQL 5.2: Tabela 2 – Consulta das intera¸c˜ oes dos Alunos no chat

Fonte: O Autor.

As demais vis˜oes e consultas realizadas na sele¸ca˜o e coleta de dados est˜ao detalhadas no Apˆendice 1. Existem no banco outras tabelas que n˜ao foram citadas porque, ou fugiam do escopo do trabalho, ou porque, n˜ao continham nenhuma informa¸c˜ao armazenada dentro

59

backup cedido pela SEaD, ou, por guardar informa¸co˜es redundantes as tabelas que foram escolhidas para serem submetidas a an´alise no trabalho. A cada consulta, foi exportado um arquivo em formato .csv com os dados obtidos. Esses dados foram organizados numa u ´ nica planilha do Excel, possibilitando uma vis˜ao total dos dados levantados. Na tabela cada coluna representa os atributos e as linhas, a quantidade de intera¸c˜oes em cada atributo. A figura a seguir ilustra uma amostra da tabela constru´ıda: Tabela 3 – Tabela com os dados coletados dos alunos

Fonte: O Autor.

Ao final do processo de sele¸c˜ao dos dados foram selecionados inicialmente um total de 14 atributos e 171 instˆancias com os dados dos alunos. Com a planilha de dados pronta, prossegui-se para a etapa de pr´e-processamento dos dados. 5.2.2 Pr´e-Processamento dos Dados e Transformac¸˜ao de Dados Nesta etapa s˜ao sintetizadas duas das fases mais importantes na prepara¸c˜ao dos dados para a extra¸c˜ao de padr˜oes. Na fase de pr´e processamento foi realizada a limpeza dos dados para a minera¸ca˜o onde ´e analisada a existˆencia de outliers e dos missing values, e as estrat´egias adotadas para cada problema. Os outliers existentes entre os dados foram identificados como os alunos que tamb´em eram tutores em outros cursos. Como estrat´egia de tratamento, foi adotado a elimina¸ca˜o desses registros, sem preju´ızo para as an´alises. O missing values foram encontrados em muitos dos registros dos alunos. A ausˆencia nos registros dizia respeito a ausˆencia de intera¸co˜es dos alunos com a ferramentas dispon´ıveis no ambiente. A amostra da tabela abaixo ilustra algumas das instˆancias que possu´ıam dados ausentes: Tabela 4 – Missing values nos registros dos estudantes - (Amostra)

Fonte: O Autor.

60

A t´ecnica selecionada para a elimina¸ca˜o dos missing values foi a utiliza¸ca˜o de uma contante de valor 0. Esta constante representa que n˜ao houve nenhuma intera¸ca˜o do aluno durante o curso naquela ferramenta, como podemos ver na amostra da tabela a seguir: Tabela 5 – Estrat´egia adotada para elimina¸c˜ ao dos Missing values - (Amostra)

Fonte: O autor.

Analisando a tabela com todos os dados referentes as intera¸co˜es dos alunos, optouse por retirar da an´alise os atributos Msg enviadas e Msg recebidas, pois os atributos al´em de possu´ırem a quantidade de intera¸co˜es entre estudantes, tutores e professor, armazenam tamb´em outras mensagens enviadas e recebidas pelos alunos, ultrapassando o ambiente do curso e fugindo do escopo do trabalho. Foi criado ainda um novo atributo denominado ClasseNota, o qual define as notas em quatro grupos: • 0 ≤ 25 → Classe 1; • 25 ≤ 50 → Classe 2; • 50 ≤ 75 → Classe 3; • 75 ≤ 100 → Classe 4. O atributo ClasseNota foi adicionado a tabela para as futuras an´alises. Uma amostra da tabela ap´os as altera¸co˜es est´a ilustrada abaixo: Tabela 6 – Tabela ap´ os altera¸c˜ oes - (Amostra)

Fonte: O autor.

A transforma¸ca˜o dos dados foi realizada utilizando a ferramenta para minera¸ca˜o dos dados RapidMiner. Utilizando o operador Normalize, foi poss´ıvel normalizar os dados

61

utilizando o m´etodo de transforma¸c˜ao Z. Foi retirado apenas o atributo nota, pois nas an´alises as notas foram representadas pela ClasseNota. A tabela com os dados obtida a partir da ferramenta esta ilustrado na figura a seguir: Tabela 7 – Tabela com os dados ap´ os a normaliza¸c˜ ao- - (Amostra)

Fonte: O autor.

Ap´os a realiza¸c˜ao da normaliza¸c˜ao foi finalizada a fase de prepara¸c˜ao dos dados. Assim, com os dados prontos, foi poss´ıvel partir para outra fase importante do processo, a extra¸ca˜o dos padr˜oes atrav´es da minera¸ca˜o dos dados, utilizando as t´ecnicas de clusteriza¸ca˜o ou Agrupamento.

5.3 Extrac¸˜ao de padr˜oes Inicialmente, foram realizadas as an´alise estat´ısticas antes de proceder com a minera¸c˜ao dos dados, com o objetivo de se buscar correla¸c˜ao da nota com as demais vari´aveis de intera¸ca˜o e tamb´em buscar um modelo que relacionasse a nota em fun¸ca˜o das demais atributos. Os testes foram: matriz de correla¸c˜ao e a an´alise de regress˜ao linear. Utilizando o suplemento Action no Excel, foi obtido, a priori, a matriz de correla¸c˜ao e a matriz de scatter plots, selecionando a label Estat´ıstica b´asica, e em seguida, Matriz de correla¸ca˜o. Os resultados obtidos est˜ao ilustrados na figura abaixo: Tabela 8 – Matriz de correla¸c˜ ao

Fonte: O autor.

62

Podemos observar na matriz que a correla¸c˜ao entre os atributos de intera¸c˜ao e o atributo notas ´e fraca ou muito fraca, implicando que a quantidade de intera¸c˜oes nesta turma n˜ao foi um fator que influenciou na nota dos estudantes. Foram destacados na tabela alguns campos onde houve alguma correla¸c˜ao entre os dados. Destaca-se, a correla¸c˜ao moderada entre os atributos chat e f´orum, implicando que a quantidade de intera¸co˜es no f´orum est´a relacionada a participa¸ca˜o dos alunos no chat, e entre postagens no f´orum e mensagens enviadas aos tutores. Ainda uma correla¸c˜ao moderada entre as mensagens enviadas e recebidas do professor e uma correla¸c˜ao forte entre as mensagens recebidas e enviadas para outros alunos. Em seguida, foi realizado na ferramenta R a regress˜ao linear m´ ultipla. Foram selecionadas como vari´aveis independentes os atributos que diziam respeito as intera¸co˜es e como vari´avel dependente o atributo Nota, a fim de determinarmos o quanto as varia¸co˜es nas intera¸c˜oes influenciavam na nota do estudante. A figura seguinte ilustra o resultado obtido da ferramenta R: Tabela 9 – Resultado da regress˜ ao linear

Fonte: O autor.

Destaca-se na an´alise de regress˜ao que os coeficientes de determina¸ca˜o de aderˆencia do modelo, R2 (R-squared) m´ ultiplo e o R2 ajustado est˜ao bem pr´oximos de zero, 0.06143, 0.008307, respectivamente, o que nos permite afirmar que o modelo linear ´e pouco adequado para explicar as notas a partir das intera¸co˜es dos alunos. Como o modelo linear ´e pouco adequado, n˜ao ´e poss´ıvel para esses dados utilizar t´ecnicas de predi¸ca˜o, ratificando assim, para a an´alise dos dados, a utiliza¸ca˜o das t´ecnicas de clusteriza¸ca˜o no processo de minera¸ca˜o. O processo de minera¸ca˜o foi realizado utilizando a clusteriza¸c˜ao hier´arquica e a n˜ao hier´arquica. Optou-se por realizar cada clusteriza¸c˜ao com 4 e 5 clusters a fim de determinar qual retornaria um melhor agrupamento dos dados. O processo ´e descrito nas subse¸co˜es a seguir:

63

5.3.1 Clusterizac¸˜ao hier´arquica A clusteriza¸ca˜o hier´arquica foi realizada utilizando o suplemento Action no Excel. Com os dados normalizados, um total de 10 atributos e 169 registros, foi selecionado a op¸ca˜o An´alise Multivariada e em seguida An´alise de Cluster. A clusteriza¸ca˜o foi realizada com 4 e com 5 clusters utilizando como parˆametros a distˆancia euclidiana e o m´etodo de Ward. A seguir apresentamos os resultados dos experimentos: 5.3.1.1

Clusterizac¸˜ao para 4 clusters

Na clusteriza¸c˜ao realizada para quatro clusters os grupos obtidos tiveram os seguintes tamanhos (Anexo X): • Grupo 1 → 9 instˆancias (Alunos); • Grupo 2 → 96 instˆancias; • Grupo 3 → 26 instˆancias; • Grupo 4 → 38 instˆancias. Foi obtido a partir da clusteriza¸ca˜o, o dendograma de Ward que ilustra a divis˜ao dos dados no clusters. A figura abaixo ilustra o dendograma obtido:

64 Figura 10 – Dendograma para 4 clusters

Fonte: O autor.

Os dados foram divididos em grupos de acordo com suas semelhan¸cas. Em seguida, foi realizada a sumariza¸ca˜o dos dados de cada grupo utilizando a ferramenta R atrav´es do comando numSummary. A figura 26 apresenta a rela¸ca˜o entre a m´edia e o desvio padr˜ao para cada grupo de acordo com cada atributo.

65 Tabela 10 – Sumariza¸c˜ ao de Dados - Clusteriza¸c˜ ao Hier´ arquica, K=4

Fonte: O autor.

A an´alise desses resultados ´e apresentada na se¸ca˜o de p´os-processamento. 5.3.1.2

Clusterizac¸˜ao para 5 clusters

J´a na clusteriza¸c˜ao realizada para cinco clusters, os grupos obtidos tiveram os seguintes tamanhos: • Grupo 1 → 9 instˆancias; • Grupo 2 → 67 instˆancias; • Grupo 3 → 26 instˆancias; • Grupo 4 → 29 instˆancias; • Grupo 5 → 38 instˆancias. Foi obtido a partir da clusteriza¸ca˜o, como realizado para 4 clusters, o dendograma de Ward que ilustra a divis˜ao dos dados nos clusters. A figura apresenta o dendograma:

66 Figura 11 – Dendograma para 5 clusters

Fonte: O autor.

Os dados divididos no grupo est˜ao de acordo com suas semelhan¸cas. Foi realizada tamb´em para os cinco grupos a sumariza¸ca˜o dos dados utilizando a ferramenta R. Podemos observar na figura seguinte os valores da m´edia e ddo desvio padr˜ao dos grupos para cada atributo:

67 Tabela 11 – Sumariza¸c˜ ao de Dados - Clusteriza¸c˜ ao Hier´ arquica, K=5

Fonte: O autor.

A an´alise desses resultados ´e apresentada na se¸ca˜o de p´os-processamento. 5.3.2 Clusterizac¸˜ao n˜ao hier´arquica Utilizando a ferramenta RapidMiner, o conjunto de dados normalizado foi carregado utilizando o operador Read Excel, a minera¸c˜ao foi realizada utilizando o operador clustering, utilizando o algoritmo K-means, e os resultados da minera¸c˜ao foi escrita em um arquivo .xls utilizando o operador Write Excel. A figura a seguir ilustra a seqˆencia de operadores utilizados para a minera¸c˜ao. Figura 12 – Operadores do RapidMiner utilizados para a clusteriza¸c˜ ao n˜ ao hier´ arquica

Fonte: O autor.

O operador k-means foi configurado para realizar a clusteriza¸c˜ao para quatro e cinco clusters, parˆametro k. Operador foi configurado de acordo com a figura abaixo:

68 R Figura 13 – Configura¸c˜ ao do operador K-means na ferramenta RapidMiner

Fonte: O autor.

Foi selecionado como parˆametros, uma quantidade m´axima de 10 intera¸c˜oes, campo max runs, como tipo de medida num´erica a distˆancia Euclidiana, nos campos type measure e numerical measure; passos m´aximo de otimiza¸c˜ao, campo max optimization steps, optou-se por deixar o default e a quantidade de sementes aleat´oria. Os resultados da minera¸ca˜o s˜ao apresentados a seguir: 5.3.2.1

Clusterizac¸˜ao para 4 clusters

Na clusteriza¸ca˜o n˜ao hier´arquica realizada para quatro clusters, os grupos obtidos tiveram os seguintes tamanhos: • Grupo 1 → 41 instˆancias; • Grupo 2 → 11 instˆancias; • Grupo 3 → 9 instˆancias; • Grupo 4 → 108 instˆancias. Como n˜ao h´a a constru¸c˜ao do dendograma na clusteriza¸c˜ao n˜ao hier´arquica, foi realizada somente a sumariza¸c˜ao dos dados de cada grupo utilizando a ferramenta R atrav´es do comando numSummary. A figura 31 apresenta a rela¸c˜ao entre a m´edia e o desvio padr˜ao para cada grupo de acordo com cada atributo.

69 Tabela 12 – Sumariza¸c˜ ao de Dados - Clusteriza¸c˜ ao n˜ ao Hier´ arquica, K=4

Fonte: O autor.

Os detalhes sobre aspectos da sumariza¸ca˜o s˜ao descritos na se¸ca˜o de p´os-processamento. 5.3.2.2

Clusterizac¸˜ao para 5 clusters

Na clusteriza¸c˜ao para cinco clusters, os grupos obtidos tiveram os seguintes tamanhos: • Grupo 1 → 93 instˆancias; • Grupo 2 → 33 instˆancias; • Grupo 3 → 9 instˆancias; • Grupo 4 → 11 instˆancias; • Grupo 5 → 23 instˆancias. A tabela de sumariza¸ca˜o dos obtida da clusteriza¸ca˜o para cada grupo esta ilustrada na figura a seguir:

70 Tabela 13 – Sumariza¸c˜ ao de Dados - Clusteriza¸c˜ ao n˜ ao Hier´ arquica, K=5

Fonte: O autor.

Detalhes descritos na se¸ca˜o de p´os-processamento.

5.4 P´os-processamento Na u ´ ltima fase do processo de KDD s˜ao interpretados os resultados obtidos as quatro clusteriza¸co˜es realizadas obtendo assim conhecimento relevante acerca dos grupos encontrados nessas clusteriza¸c˜oes. Iniciamos as interpreta¸c˜oes de acordo com o realizado na fase de extra¸ca˜o de padr˜oes. 5.4.1 Clusterizac¸˜ao hier´arquica 5.4.1.1

4 clusters

Como resultados da clusteriza¸c˜ao hier´arquica para 4 clusters, ´e apresentado inicialmente a tabela sumariza¸ca˜o abaixo resume os resultados obtidos no sum´ario descrito na figura 21.

71 Tabela 14 – Tabela de Sumariza¸c˜ ao de Dados - Clusteriza¸c˜ ao Hier´ arquica, K=4

Fonte: O autor.

Podemos observar nos dados na tabela algumas caracter´ısticas peculiares para cada grupo. No grupo 1, pertencem os alunos que tiveram uma media de nota de 71,81. Destaca-se neste grupo a quantidade de mensagens recebidas dos tutores e a quantidade de mensagens recebidas e enviadas para outros alunos, sendo o grupo com maior quantidade em ambos os atributos. Pertencem ao grupo 2, os alunos com m´edia 77,70. Neste grupo nenhuma da intera¸co˜es dos alunos se destaca em compara¸ca˜o com as dos outros grupos, tendo apenas uma boa media de intera¸c˜oes nas mensagens recebidas e enviadas aos tutores. A nota m´edia desse grupo se aproxima da encontrada no grupo 3, o que pode nos informar que alguns dos alunos desse grupo, possuem notas equivalentes a do grupo de maior nota mesmo tendo um quantidade de intera¸co˜es menor. O grupo 3, ´e onde s˜ao encontrados os alunos com a maior m´edia de notas, 78,75. Este grupo ´e o que possui a maior m´edia das intera¸co˜es no Chat, F´orum, intera¸co˜es atrav´es de mensagens com o professor, de mensagens enviadas ao tutores, maior quantidade de downloads e o segundo maior nas mensagens recebidas dos tutores. Apresenta apenas m´edia relativamente baixa para as mensagens trocadas com os alunos. J´a o grupo 4 ´e o que possui a menor m´edia no atributo notas, 49,74. Os alunos deste grupo s˜ao os que possuem as menores medias nas intera¸co˜es em rela¸ca˜o aos grupos, o que pode justificar o baixo rendimento no quesito desempenho na avalia¸ca˜o. Foi realizado tamb´em, o teste de correla¸c˜ao para determinar a rela¸c˜ao entre os atributos de cada grupo. Para as c´elulas da matriz de correla¸c˜ao entre os atributos que possuem uma rela¸ca˜o positiva, com fonte sublinhada na tabela, implique que o crescimento do valor de atributo est´a ligado diretamente ao crescimento do que atributo correlacionado a ele. As c´elulas que possuem uma rela¸ca˜o negativa, com fonte em negrito e it´alico, implica que o crescimento de um atributo esta inversamente ligado ao crescifmento do atributo a ele correlacionado. As figuras a seguir apresentam as matrizes obtidas para cada grupo:

72 Figura 14 – Matriz de correla¸c˜ ao - Grupo 1

Fonte: O autor.

Destaca-se na matriz do grupo 1, uma correla¸c˜ao positiva moderada entre os atributos: participa¸c˜oes no chat e a quantidade de mensagens enviadas ao professor, postagens no f´orum com os atributos download, mensagens enviadas e recebidas do professor, e mensagem recebidas dos tutores; o atributo mensagens recebidas pelo professor com as mensagens enviadas para o professor e com as mensagens enviadas para outros alunos; as mensagens recebidas de outro alunos com o atributo mensagens enviadas para outros alunos e com mensagens enviadas para os tutores; e, as mensagens enviadas para outros alunos e as enviadas para os tutores. Ainda, a tabela apresenta uma correla¸c˜ao forte entre mensagens recebidas pelo professor e as mensagens enviadas a outros alunos. Existe tamb´em uma correla¸c˜ao negativa moderada entre os atributos: chat e mensagens recebidas do professor, quantidade de download com mensagens enviadas e recebidas pelos alunos; e, mensagens enviadas ao professor com as mensagens recebidas pelos tutores. Figura 15 – Matriz de correla¸c˜ ao - Grupo 2

Fonte: O autor.

A matriz de correla¸c˜ao do grupo 2 apresenta uma correla¸c˜ao forte entre os atributos mensagens enviadas para outros alunos e mensagens recebidas de outros alunos. A correla¸ca˜o entre os outros atributos se mostra fraca ou muito fraca, demonstrando pouca correla¸ca˜o entre esses atributos.

73 Figura 16 – Matriz de correla¸c˜ ao - Grupo 3

Fonte: O autor.

No grupo 3, destaca-se na matriz, uma correla¸ca˜o positiva forte entre as mensagens trocadas entre professor e alunos, e uma correla¸ca˜o moderada entre os atributos: postagens no f´orum com mensagens enviadas aos tutores, mensagens enviadas para alunos com mensagens enviadas ao professor e com mensagens recebidas de alunos. A matriz apresenta ainda, uma correla¸ca˜o negativa moderada entre o atributo chat e os atributos, mensagens enviadas e recebidos do professor, mensagens enviadas para alunos e mensagens enviadas para tutores. Figura 17 – Matriz de correla¸c˜ ao - Grupo 4

Fonte: O autor.

No grupo 4, se destacou apenas a correla¸ca˜o moderada entre as mensagens trocadas entre os alunos. A correla¸ca˜o entre as notas e os outros atributos em todas as matrizes de correla¸ca˜o para quatro clusters se mostra fraca ou muito fraca, demonstrando pouca correla¸ca˜o entre os atributos e as notas. 5.4.1.2

5 clusters

Na clusteriza¸ca˜o para 5 clusters, a tabela abaixo resume os resultados obtidos no sum´ario descrito na figura 23 para esses clusters.

74 Tabela 15 – Tabela de Sumariza¸c˜ ao de Dados - Clusteriza¸c˜ ao Hier´ arquica, K=5

Fonte: O autor.

No grupo 1, pertencem os alunos que tiveram uma media de nota de 71.80 pontos. Destaca-se neste grupo, como aconteceu na clusteriza¸c˜ao anterior, a quantidade de mensagens recebidas dos tutores e a quantidade de mensagens enviadas e recebidas de outros alunos, sendo o grupo com maior quantidade em ambos os atributos. Pertencem ao grupo 2, os alunos com m´edia 73.34. Os atributos deste grupo possuem uma boa media para os atributos f´orum, chat, download, mensagens recebidas dos tutores. Possui uma m´edia baixa para as mensagens trocadas entre os alunos e entre os alunos e o professor. No grupo 3 s˜ao encontrados os alunos com m´edia de notas relativamente alta, 78.75, e ´e o que possui a maior m´edia das intera¸co˜es no Chat, F´orum, mensagens trocadas com o professor. Este grupo apresenta ainda uma boa intera¸c˜ao nas mensagens trocadas entre os alunos com os tutores e com os outros alunos. O grupo 4 ´e o que possui a maior m´edia no atributo nota, 87.76, e o grupo onde nenhuma das m´edias dos atributos se destaca em rela¸c˜ao as m´edias dos atributos dos outros grupos, o que destoa do esperado por ser o grupo com o melhor desempenho. J´a o grupo 5 ´e o que possui a menor m´edia no atributo notas, 48.74. Destaca-se nesse grupo a m´edia de intera¸co˜es com os tutores e por possuir em alguns atributos, medias maiores que o grupo 4, que possui a maior m´edia para o atributo notas. A matrizes de correla¸ca˜o dos 5 grupos s˜ao apresentadas nas figuras a seguir: Figura 18 – Matriz de correla¸c˜ ao - Grupo 1

Fonte: O autor.

75

Destaca-se na matriz do grupo 1, uma correla¸c˜ao positiva moderada entre os atributos: chat e a quantidade de mensagens enviadas ao professor, postagens no f´orum com os atributos quantidade de download, mensagens enviadas e recebidas do professor, e mensagem recebidas dos tutores; as mensagens recebidas pelo professor com as mensagens enviadas para o professor e com mensagens enviadaspara outros alunos; as mensagens recebidas pelos alunos com as mensagens enviadas para outros alunos e com as mensagens enviadas para os tutores; e, as mensagens enviadas para outros alunos e as enviadas para os tutores. Ainda, a tabela apresenta uma correla¸c˜ao forte entre mensagens recebidas pelo professor e as mensagens enviadas a outros alunos. Existe tamb´em, uma correla¸c˜ao negativa moderada entre os atributos, chat e mensagens recebidas dos tutores; quantidade de download e mensagens enviadas e recebidas pelos alunos; e, mensagens enviadas ao professor e as mensagens recebidas pelos tutores. As c´elulas sem preenchimento indicam um correla¸ca˜o fraca ou muito fraca, sejam os valores positivos ou negativos. Figura 19 – Matriz de correla¸c˜ ao - Grupo 2

Fonte: O autor.

A matriz de correla¸ca˜o do grupo 2 apresenta uma correla¸ca˜o forte entre os atributos mensagens enviadas para outros alunos e mensagens recebidas de alunos. A correla¸c˜ao entre os outros atributos se mostra fraca ou muito fraca, demonstrando pouca correla¸ca˜o entre esses atributos. Figura 20 – Matriz de correla¸c˜ ao - Grupo 3

Fonte: O autor.

No grupo 3, destaca-se na matriz, uma correla¸ca˜o positiva forte entre as mensagens trocadas entre professor e os alunos, e uma correla¸c˜ao moderada entre os atributos: postagens no f´orum com mensagens enviadas ao tutor, mensagens enviadas para alunos com mensagens enviadas ao professor e com mensagens recebidas de alunos. A matriz apresenta ainda, uma correla¸c˜ao negativa moderada entre o atributo chat e os atributos,

76

mensagens enviadas e recebidos do professor, mensagens enviadas para alunos e para tutores. Figura 21 – Matriz de correla¸c˜ ao - Grupo 4

Fonte: O autor.

No grupo 4, destacou-se uma correla¸ca˜o forte entre mensagens recebidas e enviadas aos professores, e uma correla¸c˜ao moderada entre os atributos: postagens f´orum com participa¸c˜oes no chat, mensagens recebidas do professor com mensagens enviadas para alunos, e as mensagens trocadas entre alunos e tutores. Ainda, apresenta-se uma correla¸ca˜o moderada negativa entre mensagens recebidas dos alunos e mensagens recebidas dos tutores. Figura 22 – Matriz de correla¸c˜ ao - Grupo 5

Fonte: O autor.

Finalizando os resultados, o grupo 5 apresenta apenas uma correla¸ca˜o moderada positiva entre as mensagens recebidas e enviadas ao professor. Assim como ocorreu na clusteriza¸ca˜o para 4 clusters, a correla¸ca˜o entre as notas e os outros atributos em todas as matrizes de correla¸c˜ao para os cinco clusters se mostra fraca ou muito fraca, demonstrando pouca correla¸c˜ao entre os atributos com as notas. 5.4.2 Clusterizac¸˜ao n˜ao hier´arquica 5.4.2.1

4 clusters

Como resultados da clusteriza¸c˜ao n˜ao hier´arquica para 4 clusters, ´e apresentado inicialmente, a tabela sumariza¸c˜ao que resume os resultados obtidos no sum´ario descrito na tabela abaixo.

77 Tabela 16 – Tabela de Sumariza¸c˜ ao de Dados - Clusteriza¸ca ˜o n˜ ao Hier´ arquica, K=4

Fonte: O autor.

No grupo 1, pertencem os alunos que tiveram uma media de nota de 78.72. Destaca-se, a maior quantidade intera¸c˜oes no chat entre os grupos, e boa quantidade de downloads e postagens no f´orum. Este grupo apresentou tamb´em uma baixa intera¸c˜ao entre os alunos e o professor e entre os alunos. Pertencem ao grupo 2, os alunos com m´edia 73.07. Os atributos deste grupo possuem uma boa media para o atributo chat e a maior media nos atributos download, f´orum, mensagens recebidas e enviadas ao professor e para os tutores. O grupo 3, tem m´edia no atributo notas de 71.81, e ´e o que possui a maior m´edia de mensagens recebidas e enviadas para outros alunos, e de mensagens recebidas de tutores. Apresenta ainda a menor m´edia na quantidade de downloads realizados. O grupo 4 ´e o que possui as menores m´edias na maioria parte dos atributos. S˜ao eles o chat, o f´orum, as mensagens enviadas ao professor, enviadas aos tutores e as mensagens enviadas e recebidas de outros alunos. Este grupo foi o que apresentou uma menor m´edia no atributo nota, 68,19. As matrizes de correla¸ca˜o para cada grupo relacionando os atributos s˜ao ilustradas abaixo: Figura 23 – Matriz de correla¸c˜ ao - Grupo 1

Fonte: O autor.

A matriz do grupo 1, apresenta uma correla¸ca˜o positiva forte entre as mensagens recebidas e enviadas para outros alunos e uma correla¸c˜ao moderada entre os atributos: postagens no f´orum com mensagens recebidas de outros alunos, as mensagens recebidas e enviadas ao professor. Este grupo apresenta ainda uma correla¸c˜ao negativa moderada

78

entre os atributos chat e a quantidade de download, e mensagens recebidas do professor e a nota. Figura 24 – Matriz de correla¸c˜ ao - Grupo 2

Fonte: O autor.

A matriz de correla¸c˜ao do grupo 2 apresenta uma correla¸c˜ao moderada positiva entre os atributos: nota e a quantidade download, postagens no f´orum com chat e com as mensagens enviadas aos tutores, mensagens recebidas de outros alunos com quantidade de downloads e com mensagens enviadas para outros alunos, e as mensagens recebidas do professor com mensagens enviadas ao professor. Existem correla¸co˜es negativas entre os atributos: mensagens enviadas para o professor com chat, com a quantidade de downloads,com as postagens no f´orum e com as mensagens recebidas dos tutores, participa¸c˜oes no chat com as mensagens enviadas para outros alunos, e, mensagens enviadas aos tutores com as mensagens recebidas pelo professor. Figura 25 – Matriz de correla¸c˜ ao - Grupo 3

Fonte: O autor.

O grupo 3, destaca-se por possuir a matriz com mais correla¸c˜oes moderadas positivas entre os atributos. S˜ao elas: mensagens recebidas de outros alunos com mensagens enviadas para outros alunos, mensagens enviadas para tutores e mensagens recebidas do professor; postagens no f´orum com mensagens recebidas e enviadas ao professor, e com as mensagens enviadas aos tutores; mensagens enviadas ao professor com chat e com mensagens recebidas do professor; a quantidade de download com f´orum, e mensagens enviadas aos tutores com mensagens enviadas para outros alunos. Existe tamb´em uma correla¸ca˜o negativa moderada entre os atributos: chat com mensagens enviadas aos tutores, download com as mensagens recebidas e enviadas ao professor, e as mensagens recebidas dos tutores com as mensagens enviadas aos professores.

79 Figura 26 – Matriz de correla¸c˜ ao - Grupo 4

Fonte: O autor.

Finalizando os resultados, o grupo 4 apresenta apenas uma correla¸ca˜o forte positiva entre as mensagens recebidas e enviadas para outros alunos. Nas matrizes de correla¸c˜ao para a clusteriza¸c˜ao com quatro clusters, o atributo nota esta correlacionado positivamente com a vari´avel download no grupo 2 e correlacionado negativamente com as mensagens recebidas do professor no grupo 1. As demais correla¸co˜es entre atributos e a nota, bem como todas as correla¸co˜es com c´elulas sem preenchimento, se mostram fracas ou muito fracas, seja os valores positivos ou negativos, pouco influenciando nas notas obtidas pelos alunos. 5.4.2.2

5 clusters

J´a na clusteriza¸ca˜o n˜ao hier´arquica para 5 clusters, a tabela sumariza¸ca˜o a seguir apresenta os resultados obtidos no sum´ario descrito na figura 27. Tabela 17 – Tabela de Sumariza¸c˜ ao de Dados - Clusteriza¸ca ˜o n˜ ao Hier´ arquica, K=5

Fonte: O autor.

No grupo 1, pertencem os alunos que tiveram uma media de nota de 78,23. Este grupo, possui uma m´edia baixa para os atributos chat, mensagens recebidas de alunos e recebidas de professores e nas mensagens enviadas ao professor. Ainda apresenta as menores m´edias nas mensagens enviadas aos outros alunos e nas mensagens recebidas pelos tutores. O grupo 2, apresenta a menor m´edias das notas 43,83. Os atributos deste grupo possuem as menores medias no Chat, f´orum, mensagens enviadas ao professor e para

80

outros alunos, e para as mensagens recebidas pelos tutores. E ainda, uma m´edia baixa nas mensagens enviadas aos tutores. O grupo 3, tem m´edia no atributo notas de 71,81, e ´e o grupo que possui uma m´edia relativamente alta nas mensagens recebidas dos tutores e a m´edia mais alta no atributo mensagens enviadas para outros alunos. Neste grupo encontram-se ainda, as menores m´edias de downloads e de mensagens recebidas de outros alunos. No grupo 4 ´e o que possui a media no atributo nota de 73,07. Este grupo ´e composto pelos atributos com as maiores medias de postagens no f´orum, realiza¸c˜ao de download, mensagens recebidas e enviadas aos tutores, mensagens recebidas de alunos e nas mensagens enviadas e recebidas do professor. Ainda possui uma boa participa¸ca˜o no Chat. J´a o grupo 5 ´e o que possui a maior m´edia no atributo notas, 81,36. Destaca-se nesse grupo a maior m´edia de participa¸co˜es no chat e uma boa m´edia nos atributos f´orum e download. Este grupo ainda apresenta uma m´edia baixa nas mensagens recebidas e enviadas ao professor. Figura 27 – Matriz de correla¸c˜ ao - Grupo 1

Fonte: O autor.

Na matriz de correla¸c˜ao do grupo 1, encontra-se uma corre¸c˜ao positiva forte entre os atributos as mensagens recebidas e enviadas para outros alunos e uma correla¸ca˜o moderada entre as mensagens recebidas e enviadas ao professor. Figura 28 – Matriz de correla¸c˜ ao - Grupo 2

Fonte: O autor.

A matriz de correla¸ca˜o do grupo 2 apresenta uma correla¸ca˜o forte entre os atributos mensagens recebidas e enviadas para outros alunos e uma correla¸c˜ao moderada entre os

81

atributos f´orum e chat. Figura 29 – Matriz de correla¸c˜ ao - Grupo 3

Fonte: O autor.

No grupo 3, encontra-se uma correla¸ca˜o positiva forte entre os atributos mensagens recebidas do professor com mensagens enviadas para outros alunos e correla¸ca˜o moderada positiva entre os atributos: f´orum com os atributos quantidade de downloads, com mensagens recebidas e enviadas ao professor, e com as mensagens enviadas aos tutores; mensagens enviadas do professor com os atributos mensagens recebidas do professor e com as participa¸co˜es no chat; mensagens recebidas de outros alunos com os atributos mensagens enviadas para outros alunos e com mensagens enviadas aos tutores; e, mensagens enviadas aos tutores com mensagens enviadas para outros alunos. A matriz apresenta ainda, uma correla¸ca˜o negativa entre os atributos: mensagens recebidas de tutores com as participa¸co˜es no chat e com as mensagens enviadas ao professor, e, a quantidade de downloads com os atributos mensagens recebidas de outros alunos e com as mensagens enviadas para outros alunos. Figura 30 – Matriz de correla¸c˜ ao - Grupo 4

Fonte: O autor.

Na matriz de correla¸ca˜o do grupo 4, apresenta correla¸ca˜o moderada positiva entre os atributos: download com os atributos nota e com as mensagens recebidas de outros alunos; as postagens no f´orum com os atributos participa¸c˜oes no chat e com mensagens enviadas aos tutores; entre as mensagens recebidas e enviadas ao professor, e entre mensagens recebidas e enviadas para outros alunos. Encontra-se tamb´em uma correla¸ca˜o negativa moderada entre os atributos: chat com os atributos mensagens enviadas ao professor e enviadas para outros alunos; mensagens enviadas ao professor com os atributos postagens no f´orum, quantidade de downloads e com as mensagens recebidas de tutores; e, mensagens recebidas do professor com as mensagens enviadas aos tutores.

82 Figura 31 – Matriz de correla¸c˜ ao - Grupo 5

Fonte: O autor.

Finalizando os resultados, o grupo 5 apresenta apenas uma correla¸ca˜o forte entre as mensagens recebidas e enviadas ao professor, e correla¸ca˜o moderada entre os atributos: as postagens no f´orum com mensagens enviadas aos tutores, mensagens enviadas para outros alunos com mensagens enviadas ao professor, e entre as mensagens recebidas e enviadas para outros alunos. Este grupo apresenta ainda uma correla¸ca˜o negativa entre as mensagens enviadas ao professor com a participa¸c˜ao no chat. Nas matrizes de correla¸c˜ao para a clusteriza¸c˜ao com cinco clusters, o atributo nota s´o esta correlacionado positivamente com o atributo download no grupo 4. As demais correla¸c˜oes entre atributos e a nota, bem como todas as correla¸c˜oes com c´elulas sem preenchimento, se mostram fracas ou muito fracas, seja os valores positivos ou negativos, pouco influenciando nas notas obtidas pelos alunos. 5.4.3 Comparac¸˜ao entre as clusterizac¸˜oes Foi constru´ıda a partir das clusteriza¸co˜es, uma matriz de semelhan¸cas entre grupo com o objetivo de determinar como os dados estavam dispostos nos grupos formados, verificando se os dados de um determinado grupo na clusteriza¸c˜ao hier´arquica estavam dentro do grupo semelhante na clusteriza¸c˜ao n˜ao hier´arquica e vice-versa. Esta an´alise foi realizada apenas para as clusteriza¸c˜oes com 4 clusters. A matriz e sua transposta, ´e apresentada na figura a seguir: Tabela 18 – Matriz de semelhan¸ca entre grupos e sua transposta

Fonte: O autor.

83

A partir das matrizes acima, ´e poss´ıvel fazer algumas afirma¸co˜es sobre o comportamento dos dados que comp˜oe cada grupo, conforme se se Ent˜ao: • Todas as instˆancias pertencentes ao grupo 1 oriundo da clusteriza¸c˜ao hier´arquica tamb´em pertencem ao grupo 3 da clusteriza¸c˜ao n˜ao hier´arquica; • Das 96 instˆancias que pertencem ao grupo 2 oriundo da clusteriza¸c˜ao hier´arquica, 73% das instˆancias que encontram-se no grupo 4 e 27% no grupo 1 da clusteriza¸ca˜o n˜ao hier´arquica; • Das 41 instˆancias que pertencem ao grupo 1 oriundos da clusteriza¸ca˜o n˜ao hier´arquica, 63% encontram-se no grupo 2 e 37% no grupo 3 da clusteriza¸ca˜o hier´arquica; • 100% das instˆancias pertencentes ao grupo 2 oriundos da clusteriza¸ca˜o n˜ao hier´arquica, encontram-se no grupo 3 hier´arquico; • Das 26 instˆancias pertencentes ao grupo 3 oriundo da clusteriza¸ca˜o hier´arquica, 58% encontram-se no grupo 1 e 42% no grupo 2 n˜ao hier´arquico; • Para 100% das instˆancias do grupo 4 hier´arquico encontram-se no grupo 4 n˜ao hier´arquico; • Das 108 instˆancias que pertencem ao grupo 4 oriundos da clusteriza¸ca˜o n˜ao hier´arquica, 65% encontram-se no grupo 2 e 35 % no grupo 4 da clusteriza¸ca˜o hier´arquica. A partir dessas conclus˜oes, foi poss´ıvel constatar que os grupo apresentam um certo n´ıvel de semelhan¸ca. Neste caso, a ado¸c˜ao de um ou outro tipo de clusteriza¸c˜ao poderia produzir resultados e conhecimentos similares acerca de cada grupo formado.

84

˜ CONSIDERAC ¸ OES FINAIS Neste trabalho foi apresentada a revis˜ao de literatura e a metodologia voltadas para descri¸ca˜o e explora¸ca˜o dos dados oriundos da base de dados e do ambiente Moodle-SEaD, a partir da descoberta de conhecimentos atrav´es da minera¸c˜ao dados educacionais. A expectativa antes das an´alise dos dados era averiguar o quanto as intera¸co˜es influenciavam na nota final dos alunos, na disciplina IEaD, a fim de se trazer ferramentas ao professor para facilitar o acompanhamento da turma sob sua responsabilidade. Devido a correla¸c˜ao fraca ou muito fraca, existente entre os atributos escolhidos para estudar as intera¸c˜oes e a nota, e aos baixos coeficientes de aderˆencia ao modelo, obtidos a partir da regress˜ao linear, n˜ao foi poss´ıvel utilizar tarefas como a predi¸ca˜o, o que poderia ajudar a predizer ou classificar o desempenho final futuro de alunos de acordo as intera¸co˜es no ambiente a partir do comportamento dos alunos da turma alvo desse estudo. Assim, foi escolhida a tarefa de clusteriza¸c˜ao ou agrupamento, empregando os m´etodos de clusteriza¸c˜ao hier´arquica e n˜ao hier´arquica. Os alunos foram agrupados em clusters de tamanho 4 e 5, para determinar um padr˜ao de intera¸ca˜o entre eles nos grupos. Foi poss´ıvel observar que em alguns grupos com maiores m´edias de notas, uma quantidade de intera¸c˜oes relativamente alta e em alguns grupos menores m´edias de notas, valores de intera¸c˜ao baixos, o que nos permite afirmar que para esses grupos a quantidade de intera¸c˜oes foi um fator que influenciou na nota final do aluno. Destacou-se ainda, em alguns grupos formados por alunos com m´edia de notas altas, uma baixa quantidade de intera¸co˜es no ambiente, o que divergiu do esperado: quanto mais intera¸co˜es, maior a nota. Esse grupo traz uma nova perspectiva de observa¸ca˜o acerca dos alunos, pois, para alguns, a participa¸c˜ao ou n˜ao nas ferramentas de intera¸c˜ao do ambiente pouco influenciou no seu desempenho, levantando a importˆancia da an´alise de outros fatores, que n˜ao foram abordados neste trabalho, para descrever o comportamento desse grupo em especial. Outrossim, para cada grupo obtido, foi constru´ıda uma matriz de correla¸c˜ao, a fim de determinar a correla¸ca˜o entre os dados dos atributos para cada grupo. A correla¸ca˜o existente entre a nota e os atributos de intera¸c˜ao se mostrou fraca ou muito fraca, n˜ao diferenciando da matriz de correla¸ca˜o principal. Em praticamente todos os grupos, como tamb´em ocorreu na matriz de correla¸ca˜o principal (tabela 8), a correla¸ca˜o entre as notas e os atributos de intera¸ca˜o se mostrou fraca ou muito fraca, o que nos permite constatar a pouca associa¸c˜ao entre a quantidade de intera¸c˜oes e a nota final do grupo. Fazendo um paralelo entre o apresentado para os grupos na tabela de sumariza¸ca˜o e entre suas matrizes de correla¸c˜ao, ´e poss´ıvel destacar que nos grupos com menores m´edias de notas, prevalece uma correla¸c˜ao baixa entre praticamente todos os atributos, e nos grupos com maiores notas, a exemplo o grupo 4 da clusteriza¸c˜ao para 5 cluters hier´arquica, onde encontra-se boas correla¸co˜es entre os atributos e em um n´ umero maior do que no grupo com notas menores. Na clusteriza¸c˜ao para 4 clusters n˜ao hier´arquica, foi poss´ıvel observar que o grupo com maior nota apresenta uma menor quantidade de atributos correlacionados em compara¸c˜ao com o grupo de menor nota, fato que n˜ao se repete para a clusteriza¸ca˜o n˜ao hier´arquica para 5 clusters.

85

Essas distor¸co˜es encontradas entre o que foi obtido a partir dos dados e dos grupos formados pelas clusteriza¸co˜es ressalta a importˆancia de novos estudos da turma atrav´es da utiliza¸ca˜o de outras t´ecnicas a fim de ratificar o conhecimento a respeito das intera¸co˜es e a rela¸ca˜o delas com as notas finais. Outro fator que pode ter sido relevante para padr˜oes obtidos a partir dos dados ´e o fato da turma ser iniciante, ainda se adaptando ao ambiente e as rotinas de estudo na modalidade. Essa afirma¸c˜ao poder´a ser confirmada a partir de novos estudos aplicada a essa mesma de alunos, agora considerada veterana. Ainda, foram analisados os agrupamentos realizados com 4 clusters, onde foi poss´ıvel observar um certa semelhan¸ca entre os grupos formados pelos dois m´etodos, o que permitiu assegurar que, neste caso, se us´assemos qualquer dos m´etodos, o conhecimento adquirido sobre os aluno seria semelhante. Os desafios futuros que se apresentam para este trabalho s˜ao: • Aplica¸c˜ao do processo na mesma turma, para verificar o comportamento desses alunos, verificando se os atributos de intera¸c˜ao passaram a influenciar nas notas; • Aplicar o modelo aqui constru´ıdo em outras turmas EaD na SEaD; • Aplicar outras tarefas de minera¸ca˜o de dados educacionais nesta mesma turma para descobrir novos conhecimentos ou predizer comportamentos dos alunos no curso; • Agregar t´ecnicas de visualiza¸ca˜o gr´afica de dados para permitir a gera¸ca˜o de gr´aficos interativos e de r´apida compreens˜ao por professores e tutores; • Construir uma ferramenta que permita a utiliza¸ca˜o desse processo de maneira mais simplificada e transparente para professores e gestores do curso. Com este trabalho, refor¸camos a importˆancia da pesquisa em minera¸ca˜o de dados aplicada a ambientes educacionais, como forma de agregar novos recursos e ferramentas na descoberta de conhecimento sobre os principais atores na modalidade e-Learning. Finalmente destacamos a importˆancia deste trabalho para a consolida¸ca˜o dos conhecimentos adquiridos na forma¸c˜ao profissional e cient´ıfica do Engenheiro de Computa¸ca˜o.

86

ˆ REFERENCIAS ACTION. Regress˜ao Linear M´ ultipla. 2015. Dispon´ıvel em: hhttp://www.portalaction.com. br/content/2-regress%C3%A3o-linear-m%C3%BAltiplai. Acesso em: 10 jan. 2015. ACTION. Sobre o Action. 2015. Dispon´ıvel em: hhttp://www.portalaction.com.br/ content/sobre-o-actioni. Acesso em: 10 jan. 2015. ALBUQUERQUE, D. H. Ambientes virtuais de aprendizagem-avas. IF/SC - Florian´opolis - SC, 2009. ALVES, L.; BARROS, D.; OKADA, A. Moodle: estrat´egias pedag´ogicas e estudos de casos. EDUNEB, 2009. ANDERBERG, M. R. Cluster analysis for applications. [S.l.], 1973. BAKER, R.; ISOTANI, S.; CARVALHO, A. Minera¸c˜ao de dados educacionais: Oportunidades para o brasil. Revista Brasileira de Inform´ atica na Educa¸ca˜o, v. 19, n. 02, 2011. BAKER, R. S.; CARVALHO, A. M. J. A. de; RASPAT, J.; ALEVEN, V.; CORBETT, A. T.; KOEDINGER, K. R. Educational software features that encourage and discourage “gaming the system”. In: Proceedings of the 14th International Conference on Artificial Intelligence in Education. [S.l.: s.n.], 2009. BAKER, R. S.; CORBETT, A. T.; KOEDINGER, K. R.; EVENSON, S.; ROLL, I.; WAGNER, A. Z.; NAIM, M.; RASPAT, J.; BAKER, D. J.; BECK, J. E. Adapting to when students game an intelligent tutoring system. In: SPRINGER. Intelligent Tutoring Systems. [S.l.], 2006. BAKER, R. S. J. D.; YACEF, K. The state of educational data mining in 2009: A review and future visions. JEDM-Journal of Educational Data Mining, 2009. BARREIRA, R. G. An´alise de sentimentos com rapidminer. Monografia (TCC) — Bacharelado em Sistemas de Informa¸c˜ao - Centro Universit´ario Luterano de Palmas, Palmas, Tocantins, 2013. BERRY, M. J.; LINOFF, G. Data mining techniques: for marketing, sales, and customer support. [S.l.]: John Wiley & Sons, Inc., 2004. BLOCH, S. C. Excel para engenheiros e cientistas. [S.l.]: Livros T´ecnicos e Cient´ıficos, 2004. BORIN, J. M. Desenvolvimento de um software para an´ alise de evas˜ao na Unipampa Campus Bag´e utilizando t´ecnicas de minera¸c˜ao de dados. 2014. BRAGA, L. P. V. Introdu¸c˜ao `a Minera¸c˜ao de Dados. [S.l.]: Editora E-papers, 2005. CAMILO, C. O.; SILVA, J. Minera¸c˜ao de Dados: Conceitos, tarefas, m´etodos e ferramentas. Universidade Federal de Goi´as (UFC), 2009.

87

CARDOSO, O. N. P.; MACHADO, R. T. M. Gest˜ao do conhecimento usando data mining: estudo de caso na universidade federal de lavras. Revista de Administra¸c˜ao P´ ublica, SciELO Brasil, v. 42, n. 3, p. 495–528, 2008. CARVALHO, D. R. Data mining atrav´es de introdu¸c˜ ao de regras e algoritmos gen´eticos. Disserta¸ca˜o (Mestrado) — PUC-PR, Curitiba, 1999. CASTILLO, R. A. F. d. Moodle - modular object oriented dynamic learning enviroment. Editora CCUEC, 2005. CLARK, R. C.; MAYER, R. E. E-learning and the science of instruction: Proven guidelines for consumers and designers of multimedia learning. [S.l.]: John Wiley & Sons, 2011. ˆ CORTES, S. da C.; PORCARO, R. M.; LIFSCHITZ, S. Minera¸c˜ao de dadosfuncionalidades, t´ecnicas e abordagens. [S.l.]: PUC, 2002. DELISLE, M. Mastering Phpmyadmin 3.4 for Effective MySQL Management. [S.l.]: Packt Publishing Ltd, 2012. DESAI, M. S.; HART, J.; RICHARDS, T. C. E-Learning: paradigm shift in education. Education, ERIC, v. 129, n. 2, 2008. DIAS, M. M. Um modelo de formaliza¸ca˜o do processo de desenvolvimento de sistemas de descoberta de conhecimento em banco de dados. Tese (Doutorado) — Universidade Federal de Santa Catarina, 2001. DIAS, M. M. Parˆametros na escolha de t´ecnicas e ferramentas de minera¸c˜ao de dados. Acta Scientiarum. Technology, v. 24, p. 1715–1725, 2002. DINIZ, C. A. R.; NETO, F. L. Data mining: uma introdu¸c˜ao. [S.l.]: ABE, 2000. DONI, M. V. An´ alise de cluster: m´etodos hier´arquicos e de Particionamento. Monografia (TCC) — Universidade Presbiteriana Mackenzie, S˜ao Paulo, 2004. EPROINFO. Conhe¸ca o e-ProInfo. 2014. Dispon´ıvel em: hhttp://eproinfo.mec.gov.br/ fra eProinfo.php?opcao=1i. Acesso em: 20 Jul. 2014. FARIA, S. M. S. M. L. et al. Educational data mining e learning analytics na melhoria do ensino online. 2014. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery in databases. AI magazine, 1996. FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P.; UTHURUSAMY, R. Advances in knowledge discovery and data mining. the MIT Press, 1996. FILHO, I. J. M.; CARVALHO, R. S.; GOMES, A. S.; PERRIS, P. A. d. R.; RODRIGUES, R. L.; FELICIANO, F. D. d. O. An´alise comparativa da usabilidade dos ambientes de gest˜ao da aprendizagem amadeus e moodle. Revista Brasileira de Inform´atica na Educa¸c˜ao, v. 22, n. 01, 2014. FRANC ¸ A, R. S. de; AMARAL, H. J. C. d. Minera¸ca˜o de dados na identifica¸ca˜o de grupos de estudantes com dificuldades de aprendizagem no ensino de programa¸c˜ao. RENOTE, v. 11, n. 1, 2013.

88

FREITAS, J. A. B. de. An´alise de Cluster da Lisozima. In: . [S.l.: s.n.], 2006. GALAFASSI, F. P.; GLUZ, J. C.; GALAFASSI, C. An´alise cr´ıtica das pesquisas recentes sobre as tecnologias de objetos de aprendizagem e ambientes virtuais de aprendizagem. Revista Brasileira de Inform´atica na Educa¸c˜ao, v. 21, n. 03, 2013. GARCIA, E.; ROMERO, C.; VENTURA, S.; CASTRO, C. de. A collaborative educational association rule mining tool. The Internet and Higher Education, v. 14, n. 2, 2011. GIL, A. C. M´etodos e t´ecnicas de pesquisa social. In: . [S.l.]: Atlas, 2010. GODOY, D. R. d. Estabilidade em an´alise de agrupamento via modelo AMMI com ´ reamostragem “boostrap”. Disserta¸c˜ao (Mestrado) — Mestre em Ciˆencias. Area de concentra¸c˜ao: Estat´ıstica e Experimenta¸c˜ao Agronˆomica - Universidade de Sao Paulo Piracicaba, SP, 2013. GOEBEL, M.; GRUENWALD, L. A survey of data mining and knowledge discovery software tools. ACM SIGKDD Explorations Newsletter, ACM, v. 1, n. 1, 1999. GOMES, A. S.; CARVALHO, R. S.; FILHO, I. J. M.; ROLIM, A. L. S.; MONTEIR, B. S.; OLIVEIRA, G. R. S. Amadeus: Novo modelo de sistema de gest˜ao de aprendizagem. RBAAD - Revista Brasileira de Aprendizagem Aberta e a Distˆancia. Associa¸ca˜o Brasileira de Educa¸c˜ao a Distˆancia - ABED, 2009. GONC ¸ ALVES, V. e-Learning: reflex˜oes sobre cen´arios de aplica¸c˜ao,. Universidade da Madeira, Sociedade Portuguesa de Ciˆencias da Educa¸ca˜o, 2007. GONZALEZ, M. Fundamentos da tutoria em educa¸ca˜o a distˆancia. [S.l.]: Avercamp, 2005. GOTTARDO, E.; KAESTNER, C.; NORONHA, R. V. Avalia¸c˜ao de desempenho de estudantes em cursos de educa¸ca˜o a distˆancia utilizando minera¸ca˜o de dados. In: Anais do Workshop de Desafios da Computa¸c˜ao Aplicada `a Educa¸c˜ao. [S.l.: s.n.], 2012. GOTTARDO, E.; KAESTNER, C. A. A.; NORONHA, R. V. Estimativa de desempenho acadˆemico de estudantes: An´alise da aplica¸c˜ao de t´ecnicas de minera¸c˜ao de dados em cursos a distˆancia. Revista Brasileira de Inform´atica na Educa¸c˜ao, v. 22, n. 01, 2014. GOUVEIA, R. M. M. Minera¸c˜ao de dados em data warehouse para sistema de abastecimento de a´gua. Disserta¸ca˜o (Mestrado) — Universidade Federal da Para´ıba, Jo˜ao Pessoa, PB, 2009. GROFF, J. R.; WEINBERG, P. N. et al. SQL: the complete reference. [S.l.]: McGraw-Hill/Osborne, 2002. HAIR, J. F.; BLACK, W. C.; BABIN, B. J.; ANDERSON, R. E.; TATHAM, R. L. An´alise multivariada de dados. [S.l.]: Bookman, 2005. HARRISON, T. H. Intranet data warehouse: ferramentas e t´ecnicas para a utiliza¸c˜ao do data warehouse na intranet. [S.l.]: Berkerley/ABDR, 1998. ISA/UTL. Capitulo 4 - An´alises Classificat´orias (Clustering). 2015. Dispon´ıvel em: hhttp://www.isa.utl.pt/dm/mestrado/mmacb/UCs/em/webEMCap4.pdfi. Acesso em: 14 jan. 2015.

89

JAIN, A. K.; DUBES, R. C. Algorithms for clustering data. [S.l.]: Prentice-Hall, Inc., 1988. JAIN, A. K.; MURTY, M. N.; FLYNN, P. J. Data clustering: a review. ACM computing surveys (CSUR), Acm, v. 31, n. 3, 1999. JOVIC, A.; BRKIC, K.; BOGUNOVIC, N. An overview of free software tools for general data mining. In: IEEE. Information and Communication Technology, Electronics and Microelectronics (MIPRO), 2014 37th International Convention on. [S.l.], 2014. p. 1112–1117. JR, J. H. W. Hierarchical grouping to optimize an objective function. Journal of the American statistical association, Taylor & Francis, v. 58, n. 301, p. 236–244, 1963. ´ JUNIOR, G. R. F. Metodologias de Minera¸c˜ao de Dados aplicadas a Ambientes Educacionais Online. Disserta¸ca˜o (Mestrado), 2010. KAUARK, F.; MANH˜aES, F. C.; MEDEIROS, C. H. Metodologia da pesquisa: um guia pr´atico. [S.l.]: Via Literatum, 2010. KOEDINGER, K. R.; CUNNINGHAM, K.; SKOGSHOLM, A.; LEBER, B. An open repository and analysis tools for fine-grained, longitudinal learner data. EDM, v. 157, 2008. LACHI, R. L.; ROCHA, H. V. da. Aspectos b´ asicos de clustering: conceitos e t´ecnicas. [S.l.]: UNICAMP, 2005. LAROSE, D. T. Discovering knowledge in data: an introduction to data mining. [S.l.]: John Wiley & Sons, 2014. LIMA, J. R.; CAPIT˜aO, Z. M. A. e-Learning e e-Conte´ udos. [S.l.]: Centro Atlˆantico, 2003. LOBO, E. J. R. Guia Pr´atico de MySQL. [S.l.]: Digerati Book, 2008. LOPES, M. C. S. Minera¸c˜ao de dados textuais utilizando t´ecnicas de clustering para o idioma portuguˆes. Tese (Doutorado) — UNIVERSIDADE FEDERAL DO RIO DE JANEIRO, 2004. MAIMON, O. Z.; ROKACH, L. Data mining and knowledge discovery handbook. [S.l.]: Springer, 2005. MARQUES, J. L. d. Q. Minera¸c˜ao de dados educacionais: um estudo de caso utilizando o ambiente virtual do senai. Monografia (TCC) — Trabalho de Conclus˜ao de Curso.(Gradua¸c˜ao em Licenciatura Plena em Computa¸c˜ao) - Universidade Estadual da Para´ıba, Campina Grande - PB, 2014. MARTINHAGO, S. Descoberta de Conhecimento sobre o Processo Seletivo da UFPR. Disserta¸c˜ao (Mestrado) — Programa de P´os-Gradua¸c˜ao em M´etodos Num´ericos em Engenharia - Universidade Federal do Paran´a, Curitiba, PR, 2005. MESSA, W. C. Utiliza¸ca˜o de ambientes virtuais de aprendizagem-avas: A busca por uma aprendizagem significativa. Revista Brasileira de Aprendizagem Aberta e a Distˆ ancia, v. 9, 2010. MILANI, A. MySQL - Guia do programador. [S.l.]: Novatec Editora, 2007.

90

MOORE, M. G.; KEARSLEY, G. Distance education: A systems view of online learning. [S.l.]: Cengage Learning, 2011. OLIVEIRA, K. d.; VARGAS, E. Guia pr´atico - Excel XP. [S.l.]: Editora Viena, 2001. OLIVEIRA, T. B. S. d. Clusteriza¸c˜ao de dados utilizando t´ecnicas de redes complexas e computa¸c˜ao bioinspirada. Tese (Doutorado) — Disserta¸c˜ao apresentada ao Instituto de Ciˆencias Matem´aticas e de Computa¸c˜ao – ICMC/USP - Universidade de S˜ao Paulo, SP, 2008. OLSON, D. L.; DELEN, D. Advanced data mining techniques. [S.l.]: Springer, 2008. PANG-NING, T.; STEINBACH, M.; KUMAR, V. et al. Introduction to data mining. In: Library of Congress. [S.l.: s.n.], 2012. PASTA, A. Aplica¸c˜ao da T´ecnica de Data Mining na Base de Dados do Ambiente de Gest˜ao Educacional. Disserta¸c˜ao (Mestrado) — Curso de Mestrado Acadˆemico em Computa¸ca˜o Aplicada, Universidade Vale Do Itaja´ı, Itaja´ı, 2011. PAULA, L. T. d. Informa¸c˜ao nos ambientes virtuais de aprendizados (ava). Perspectivas em Ciˆencia da Informa¸c˜ao, SciELO Brasil, v. 15, n. 1, 2010. PEREIRA, T. R. S.; CHAVES, D. A. R. Moodle: Um experimento on-line para ´ potencializar um ambiente de apoio a` aprendizagem. XVIII SIMPOSIO NACIONAL DE ´ GEOMETRIA DESCRITIVA E DESENHO TECNICO, 2007. PETERNELLI, L. A. Capitulo 9 - Regress˜ao linear e correla¸c˜ao. 2015. Dispon´ıvel em: hhttp://www.dpi.ufv.br/∼peternelli/inf162.www.16032004/materiaisi. Acesso em: 12 jan. 2015. PIMENTEL, E. P.; OMAR, N. Descobrindo conhecimentos em dados de avalia¸c˜ao da aprendizagem com t´ecnicas de minera¸ca˜o de dados. Anais do Workshop de Inform´ atica na Escola, v. 1, n. 1, 2006. PINHEIRO, M. A. Estrat´egias para o design instrucional de cursos pela internet. Disserta¸ca˜o (Mestrado) — Mestre em Engenharia de Produ¸ca˜o - Florian´opolis, SC, 2002. PITHON, A. J.; BROCHADO, M. R. A plataforma e-proinfo como ferramenta de apoio a aprendizagem colaborativa. Anais do XXVI ENEGEP, Fortaleza, CE, Brasil, v. 9, 2006. PRASS, F. S. Estudo comparativo entre algoritmos de an´alise de agrupamentos em data mining. 2004. 71 f. Disserta¸c˜ao (Mestrado) — Universidade Federal de Santa Catarina, Florian´opolis, SC, 2004. PRODANOV, C. C.; FREITAS, E. C. d. Metodologia do trabalho cient´ıfico: m´etodos e t´ecnicas da pesquisa e do trabalho acadˆemico. Novo Hamburgo: Feevale, 2013. PYLE, D. Data preparation for data mining. [S.l.]: Morgan Kaufmann, 1999. RAMOS, J. L. C. Requisitos para ferramentas de avalia¸c˜ ao em ambientes virtuais de ensino. Disserta¸ca˜o (Mestrado) — Universidade Federal de Pernambuco, PE, 2006. RAMOS, J. L. C.; SILVA, J. C. S.; RODRIGUES, R. L.; GOMES, A. S. An´alise de expectativas e habilidades discentes na modalidade de ensino a distˆancia. 9a Conferˆencia Ib´erica de Sistemas e Tecnologias de Informa¸c˜ao, CISTI 2014, 2014.

91

RIBEIRO, E. N.; MENDON¸cA, G. A. d. A.; MENDON¸cA, A. F. A importˆancia dos ambientes virtuais de aprendizagem na busca de novos dom´ınios na ead. In: Anais do 13o Congresso Internacional de Educa¸c˜ao a Distˆancia. Curitiba, Brasil. [S.l.: s.n.], 2007. RODRIGUES, R. L.; MEDEIROS, F. de; GOMES, A. S. Modelo de Regress˜ao Linear aplicado `a previs˜ao de desempenho de estudantes em ambiente de aprendizagem. v. 24, n. 1, 2013. ROMERO, C.; VENTURA, S. Educational data mining: A survey from 1995 to 2005. Expert systems with applications, Elsevier, v. 33, n. 1, 2007. ROMERO, C.; VENTURA, S.; ESPEJO, P. G.; HERV´aS, C. Data mining algorithms to classify students. In: EDM. [S.l.: s.n.], 2008. RPROJECT. What is R? 2014. Dispon´ıvel em: hwww.r-project.orgi. Acesso em: 15 dez. 2014. ˆ SALVADOR, H. G.; CUNHA, A. M. D.; CORREA, C. S. Vedalogic: a method of climatologic data verification based on data mining models. Revista Brasileira de Meteorologia, SciELO Brasil, v. 24, n. 4, 2009. SALVUCCI, M.; LISBOA, M. J. A.; MENDES, N. C. Educa¸c˜ao a Distˆancia no Brasil: Fundamentos legais e implementa¸ca˜o e-learning in brasil: legal basis and implementation. 2012. SCHLEMMER, E. AVA: um ambiente de convivˆencia interacionista sistˆemico para comunidades virtuais na cultura da aprendizagem. 2002. Tese (Doutorado) — Tese (Doutorado em Inform´atica na Educa¸c˜ao)–Programa de P´os-Gradua¸c˜ao em Inform´atica na Educa¸c˜ao, Universidade Federal do Rio Grande do Sul, Porto Alegre-RS, 2002. SCHLEMMER, E.; SACCOL, A. Z.; GARRIDO, S. Um modelo sistˆemico de avalia¸c˜ao de softwares para educa¸c˜ao a distˆancia como apoio ‘a gest˜ao de ead. REGE Revista de Gest˜ao,, v. 14, n. 1, 2007. SEAD. Cursos da SEaD. 2015. Dispon´ıvel em: hhttp://www.sead.univasf.edu.br/index. php?link=cursosi. Acesso em: 06 Mar. 2015. ´ SEIDEL, E. J.; JUNIOR, F. d. J. M.; ANSUJ, A. P.; NOAL, M. R. C. Compara¸ca˜o entre o m´etodo ward eo m´etodo k-m´edias no agrupamento de produtores de leite. Ciˆencia e Natura, v. 30, n. 1, p. 07–15, 2013. SENECHAL, A. C. L. An´alise e pr´e-Processamento de dados utilizando t´ecnicas de minera¸c˜ao de dados educacionais para o moodle. Monografia (TCC) — Trabalho de Conclus˜ao de Curso.(Gradua¸c˜ao em Ciˆencia da Computa¸c˜ao) - Universidade Federal de Lavras., Lavras, MG, 2013. SHIMAKURA, S. E. Interpreta¸c˜ao do coeficiente de correla¸c˜ao. 2015. Dispon´ıvel em: hhttp://leg.ufpr.br/∼silvia/CE003/node74.htmli. Acesso em: 06 Fev. 2015. SILVA, A. L. C. Ambientes virtuais de aprendizagem: uma experiˆencia no ensino presencial de gradua¸c˜ao. 2003. 108 f. Disserta¸c˜ao (Mestrado) — Curso de Mestrado Acadˆemico em Educa¸ca˜o, Universidade Vale Do Itaja´ı, Itaja´ı, 2003.

92

SILVA, M. P. dos S. Minera¸c˜ao de Dados-Conceitos, Aplica¸c˜ oes e Experimentos com Weka. 2004. SOARES, S.; OCHI, L. S.; DRUMMOND, L. et al. Um algoritmo de constru¸c˜ao e busca local para o problema de clusteriza¸c˜ao de bases de dados. TEMA-Tendˆencias de Matem´atica Aplicada e Computacional, v. 7, n. 1, p. 109–118, 2006. UAB. Portal da Universidade Aberta do Brasil. 2014. Dispon´ıvel em: hhttp: //www.uab.capes.gov.bri. Acesso em: 22 Jul. 2014. VALENTINI, C. B.; SOARES, E. M. d. S.; (ORG.). Aprendizagem em ambientes virtuais: compartilhando id´eias e construindo cen´arios. 2a . ed. [S.l.]: Educs, 2010. YIN, R. K. Estudo de Caso: Planejamento e m´etodos. [S.l.]: Bookman editora, 2001.

APÊNDICES

APÊNDICE 1 CONSULTAS SQL REALIZADAS NA FERRAMENTA PHPMYADMIN

APÊNDICE 2 Matriz de Correleção – Matriz de Scatter Plots

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.