Técnicas de aprendizado de máquina para descoberta de conhecimento sobre dados abertos do ensino superior público brasileiro

Rodrigues, Ebony Marques

ALERTA!

O Repositório Institucional da UFRPE passou a funcionar em um novo endereço: arandu.ufrpe.br

Use este identificador para citar ou linkar para este item: https://repository.ufrpe.br/handle/123456789/4179

Título:	Técnicas de aprendizado de máquina para descoberta de conhecimento sobre dados abertos do ensino superior público brasileiro
Autor:	Rodrigues, Ebony Marques
Endereco Lattes do autor:	http://lattes.cnpq.br/5929185711837204
Orientador:	Gouveia, Roberta Macêdo Marques
Endereco Lattes do orientador :	http://lattes.cnpq.br/2024317361355224
Palavras-chave:	Mineração de dados (Computação);Avaliação educacional;Censo escolar;Educação superior;Aprendizado do computador
Data do documento:	10-Dez-2021
Citação:	RODRIGUES, Ebony Marques. Técnicas de aprendizado de máquina para descoberta de conhecimento sobre dados abertos do ensino superior público brasileiro. 2021. 60 f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Departamento de Estatística e Informática, Universidade Federal Rural de Pernambuco, Recife, 2021.
Abstract:	This work deals with the use of techniques from the methods of Knowledge Discovery in Databases — KDD — and Cross Industry Standard Process for Data Mining — CRISPDM — on educational databases made available by the Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (National Institute of Educational Studies and Research Anísio Teixeira) — INEP — aiming to the discovery of knowledge that allows the identification, as well as the understanding, of the context in the formation of students from public Brazilian higher education institutions. Three data mining scenarios are observed, considering Supervised Machine Learning and Unsupervised Machine Learning methods, covering data classification, grouping and association experiments. The first scenario, which includes data from graduates of bachelor’s and licentiate’s undergraduate courses, aims to predict the approximate length of stay at graduation, considering the students’ socioeconomic information, through 16 classification models built using Decision Tree, Random Forest, XGBoost and Multilayer Perceptron Neural Network algorithms. XGBoost models had the best results in all experiments. In turn, the second scenario uses the Kmeans algorithm to perform a grouping of public higher education institutions that, based on the analysis of four groups obtained by considering information on expenses, numbers of professors and technicians, location and administrative category, among others, made it possible to identify similarities and dissimilarities between the institutions. The groups, in addition to data used in the first scenario, which include information about the students, such as age group, length of stay at graduation and form of admission to graduation, noting whether this occurred through affirmative action or social inclusion policies, among others, they are considered in the experiments of the third scenario, using the Apriori algorithm, for the generation of association rules that can support the discovery of knowledge in the context of Brazilian public higher education.
Resumo:	Este trabalho trata do uso de técnicas dos métodos de Knowledge Discovery in Databases — KDD — e Cross Industry Standard Process for Data Mining — CRISPDM — sobre bases de dados educacionais disponibilizadas pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira — INEP — visando à descoberta de conhecimento que permita a identificação, assim como a compreensão, do contexto de formação de discentes de Instituições de Ensino Superior — IES — públicas brasileiras. Três cenários de mineração de dados são observados, tendo em vista métodos do Aprendizado de Máquina Supervisionado e do Aprendizado de Máquina Não Supervisionado, abrangendo experimentos de classificação, agrupamento e associação de dados. O primeiro cenário, que contempla dados de concluintes de cursos de graduação de graus bacharelado e licenciatura, objetiva prever o tempo aproximado de conclusão da graduação, considerando informações socioeconômicas dos estudantes, por meio de 16 modelos de classificação construídos com o emprego de algoritmos de Árvore de Decisão, Floresta Aleatória, XGBoost e Rede Neural Perceptron Multicamadas. Os modelos XGBoost tiveram os melhores resultados em todos os experimentos. Por sua vez, o segundo cenário utiliza o algoritmo KMeans para a execução de um agrupamento de IES públicas que, a partir da análise de quatro grupos obtidos com a consideração de informações sobre despesas, quantidades de docentes e técnicos, localização e categoria administrativa das IES, entre outras, possibilitou a identificação de similaridades e dissimilaridades entre as instituições. Os grupos em questão, além de dados utilizados no primeiro cenário, que incluem informações sobre os estudantes, como faixa etária, tempo de graduação e forma de ingresso na graduação, observando se esse ocorreu por meio de políticas de ação afirmativa ou de inclusão social, entre outras, são considerados nos experimentos do terceiro cenário, com o uso do algoritmo Apriori, para a geração de regras de associação que podem suportar a descoberta de conhecimento no âmbito do ensino superior público brasileiro.
URI:	https://repository.ufrpe.br/handle/123456789/4179
Aparece nas coleções:	TCC - Bacharelado em Sistemas da Informação (Sede)

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
tcc_ebonymarquesrodrigues.pdf		2,51 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas