Please use this identifier to cite or link to this item: https://repository.ufrpe.br/handle/123456789/1066
Title: Análise dos componentes principais supervisionada: uma abordagem não-paramétrica
Authors: Sousa, Raul Pedro de Vasconcelos
metadata.dc.contributor.authorLattes: http://lattes.cnpq.br/3362844917050042
metadata.dc.contributor.advisor: Carvalho, Tiago Buarque Assunção de
metadata.dc.contributor.advisorLattes: http://lattes.cnpq.br/7150833804013500
Keywords: Teoria bayesiana de decisão estatística;Mineração de dados (Computação);Estatística - Processamento de dados
Issue Date: 4-Feb-2019
Citation: SOUSA, Raul Pedro de Vasconcelos.Análise dos componentes principais supervisionada: uma abordagem não-paramétrica.2019.58 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Unidade Acadêmica de Garanhuns, Universidade Federal Rural de Pernambuco, Garanhuns, 2019.
Abstract: Problems of classification of data become more commonly used. Classification task has a broader range of applications, ranging from detection of spam emails to classification of malignant and benign tumors. In these problems, the quantity of characteristics plays a fundamental role both in the quality and performance of the classifiers. Data having a high dimensionality tends to have lower accuracy and longer processing time. Feature extraction techniques are excellent solutions to this situation, generating a new set of features and selecting the best ones for classification. Principal Component Analysis (PCA) is one of the most common feature extraction techniques. In general, PCA presents excellent results, but because it is an unsupervised technique there are situations where the method can not extract discriminant features. We developed a supervised version of the PCA using Bayesian classification with the kernel density estimation (KDE) to select features. This method has emerged as an extension of the Minimum Classification Error PCA (MCPCA). MCPCA also uses the Bayesian error as a metric however it presents a series of constraints. Comparing the exposed method with PCA, MCPCA and Supervised PCA (SPCA), another supervised approach to PCA, comparing the accuracy by characteristics in four classifiers to sixteen databases. The proposed method presented the greater accuracy in 72% of the cases. For PCA, MCPCA, and SPCA this number is 31%, 36%, 12%, respectively. When using a single extracted feature, the maximum accuracy if achieved is 89%, 14%, 37%, and 25% of the cases for proposed method, PCA, MCPCA, and SPCA, respectively.
Description: Problemas de classificação tem se tornado cada vez mais comuns, sendo utilizados desde da detecção de emails spams até classificação de tumores em malignos e benignos. Nestes problemas a quantidade de características desempenha um papel fundamental tanto na qualidade quanto no desempenho dos classificadores, nos quais, dados que possuem alta dimensionalidade tendem apresentar taxa de acerto inferior e maior tempo de processamento. Assim técnicas de extração de características são excelentes opções para contornar essa situação, gerando novas características e selecionando as melhores para a classificação. O Principal Component Analysis (PCA) é uma das técnicas de extração de características mais utilizadas obtendo, em termos gerais, ótimos resultados, contudo, por ser uma técnica não supervisada que utiliza a variância como critério de seleção, há situações em que o método não consegue extrair as melhores características. Então desenvolvemos uma versão supervisionada do PCA utilizando classificação Bayesiana em conjunto com técnica de estimação de densidade de Kernel (janela de Parzen) para avaliar e selecionar as características, ao invés de utilizar a variância como na tradicional implementação do PCA. Propondo assim uma seleção que utiliza o erro Bayesiano como critério base da avaliação. Esse método surgiu como uma extensão do Minimum Classification Error PCA (MCPCA) que utiliza o erro Bayesiano como métrica também, contudo, apresentado uma série de restrições, como ser limitado a problemas de apenas 2 classes. Comparamos o método proposto com o PCA, MCPCA e com o Supervised PCA (SPCA), outra abordagem supervisionada do PCA, comparando a taxa de acerto por quantidade de características em 4 classificadores para 16 bases de dado. O método proposto apresentou maior taxa de acerto em 72% dos casos, enquanto o PCA, MCPCA e SPCA conseguiram 31%, 36%, 12% respectivamente. No cenário de apenas uma característica o resultado obtido foi de 89%, 14%, 37%, e 25% dos casos para o proposto, PCA, MCPCA e SPCA respectivamente.
URI: https://repository.ufrpe.br/handle/123456789/1066
Appears in Collections:TCC - Bacharelado em Ciência da Computação (UAG)

Files in This Item:
File Description SizeFormat 
tcc_raulpedrodevasconcelossousa.pdf2,37 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.