Análise dos componentes principais supervisionada: uma abordagem não-paramétrica

Sousa, Raul Pedro de Vasconcelos

ALERTA!

O Repositório Institucional da UFRPE passou a funcionar em um novo endereço: arandu.ufrpe.br

Use este identificador para citar ou linkar para este item: https://repository.ufrpe.br/handle/123456789/1066

Título:	Análise dos componentes principais supervisionada: uma abordagem não-paramétrica
Autor:	Sousa, Raul Pedro de Vasconcelos
Endereco Lattes do autor:	http://lattes.cnpq.br/3362844917050042
Orientador:	Carvalho, Tiago Buarque Assunção de
Endereco Lattes do orientador :	http://lattes.cnpq.br/7150833804013500
Palavras-chave:	Teoria bayesiana de decisão estatística;Mineração de dados (Computação);Estatística - Processamento de dados
Data do documento:	4-Fev-2019
Citação:	SOUSA, Raul Pedro de Vasconcelos.Análise dos componentes principais supervisionada: uma abordagem não-paramétrica.2019.58 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Unidade Acadêmica de Garanhuns, Universidade Federal Rural de Pernambuco, Garanhuns, 2019.
Abstract:	Problems of classification of data become more commonly used. Classification task has a broader range of applications, ranging from detection of spam emails to classification of malignant and benign tumors. In these problems, the quantity of characteristics plays a fundamental role both in the quality and performance of the classifiers. Data having a high dimensionality tends to have lower accuracy and longer processing time. Feature extraction techniques are excellent solutions to this situation, generating a new set of features and selecting the best ones for classification. Principal Component Analysis (PCA) is one of the most common feature extraction techniques. In general, PCA presents excellent results, but because it is an unsupervised technique there are situations where the method can not extract discriminant features. We developed a supervised version of the PCA using Bayesian classification with the kernel density estimation (KDE) to select features. This method has emerged as an extension of the Minimum Classification Error PCA (MCPCA). MCPCA also uses the Bayesian error as a metric however it presents a series of constraints. Comparing the exposed method with PCA, MCPCA and Supervised PCA (SPCA), another supervised approach to PCA, comparing the accuracy by characteristics in four classifiers to sixteen databases. The proposed method presented the greater accuracy in 72% of the cases. For PCA, MCPCA, and SPCA this number is 31%, 36%, 12%, respectively. When using a single extracted feature, the maximum accuracy if achieved is 89%, 14%, 37%, and 25% of the cases for proposed method, PCA, MCPCA, and SPCA, respectively.
Resumo:	Problemas de classificação tem se tornado cada vez mais comuns, sendo utilizados desde da detecção de emails spams até classificação de tumores em malignos e benignos. Nestes problemas a quantidade de características desempenha um papel fundamental tanto na qualidade quanto no desempenho dos classificadores, nos quais, dados que possuem alta dimensionalidade tendem apresentar taxa de acerto inferior e maior tempo de processamento. Assim técnicas de extração de características são excelentes opções para contornar essa situação, gerando novas características e selecionando as melhores para a classificação. O Principal Component Analysis (PCA) é uma das técnicas de extração de características mais utilizadas obtendo, em termos gerais, ótimos resultados, contudo, por ser uma técnica não supervisada que utiliza a variância como critério de seleção, há situações em que o método não consegue extrair as melhores características. Então desenvolvemos uma versão supervisionada do PCA utilizando classificação Bayesiana em conjunto com técnica de estimação de densidade de Kernel (janela de Parzen) para avaliar e selecionar as características, ao invés de utilizar a variância como na tradicional implementação do PCA. Propondo assim uma seleção que utiliza o erro Bayesiano como critério base da avaliação. Esse método surgiu como uma extensão do Minimum Classification Error PCA (MCPCA) que utiliza o erro Bayesiano como métrica também, contudo, apresentado uma série de restrições, como ser limitado a problemas de apenas 2 classes. Comparamos o método proposto com o PCA, MCPCA e com o Supervised PCA (SPCA), outra abordagem supervisionada do PCA, comparando a taxa de acerto por quantidade de características em 4 classificadores para 16 bases de dado. O método proposto apresentou maior taxa de acerto em 72% dos casos, enquanto o PCA, MCPCA e SPCA conseguiram 31%, 36%, 12% respectivamente. No cenário de apenas uma característica o resultado obtido foi de 89%, 14%, 37%, e 25% dos casos para o proposto, PCA, MCPCA e SPCA respectivamente.
URI:	https://repository.ufrpe.br/handle/123456789/1066
Aparece nas coleções:	TCC - Bacharelado em Ciência da Computação (UAG)

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
tcc_raulpedrodevasconcelossousa.pdf		2,37 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas