Classificação automática de discursos de ódio em textos do twitter

Nascimento, Robson Murilo Ferreira do

ALERTA!

O Repositório Institucional da UFRPE passou a funcionar em um novo endereço: arandu.ufrpe.br

Use este identificador para citar ou linkar para este item: https://repository.ufrpe.br/handle/123456789/2439

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Souza, Ellen Polliana Ramos	-
dc.contributor.author	Nascimento, Robson Murilo Ferreira do	-
dc.date.accessioned	2020-07-22T20:03:04Z	-
dc.date.available	2020-07-22T20:03:04Z	-
dc.date.issued	2019	-
dc.identifier.citation	NASCIMENTO, Robson Murilo Ferreira do. Classificação automática de discursos de ódio em textos do twitter. 2019. 47 f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Unidade Acadêmica de Serra Talhada, Universidade Federal Rural de Pernambuco, Serra Talhada, 2019.	pt_BR
dc.identifier.uri	https://repository.ufrpe.br/handle/123456789/2439	-
dc.description	Discurso do ódio, ou no inglês Hate Speech, pode ser definido como qualquer ato de comunicação que inferiorize uma pessoa por sua etnia, raça, religião, orientação sexual, nacionalidade ou outras características. Esse ato está se tornando cada vez mais comum nas redes sociais, onde muitas pessoas confundem liberdade de expressão com intolerância. Os jovens são os principais afetados, pois representam um grupo mais fácil de ser atingido pela ideologia propagada pelos Haters, os quais exaltam a violência, adotam ideologias racistas e xenofóbicas, intolerância religiosa e etc. Uma ferramenta capaz de ajudar a combater esse problema, é a Mineração de Texto, que busca extrair regularidades, padrões ou tendências de textos em linguagem natural, assim podendo ser definida como um método de extração de informações relevantes em bases de dados não estruturadas ou semi-estruturadas. Considerando o Twitter como uma das redes sociais mais utilizadas no Brasil, este trabalho tem como objetivo de implementar e avaliar técnicas supervisionadas de aprendizagem de máquina, com intuito de identificar de forma automática discurso de ódio em tweets. Para isso, foram utilizados dois corpus, um na língua inglesa, previamente disponibilizado, e outro com a língua português do Brasil,o qual foi montado com texto do Twitter, que posteriormente parte dele foi anotado de forma manual, e ambos passaram por um pré-processamento, a fim de criar coleções douradas, utilizadas para construção e avaliação dos modelos supervisionados. Por fim, foi realizada uma análise comparativa dos algoritmos de aprendizagem de máquina: SVM, Naive-Bayse e Regressão Logística, combinados com a técnica de processamento de linguagem natural stemming.	pt_BR
dc.description.abstract	Hate Speech can be defined as any communication that denigrates a person by their ethnicity, race, religion, sexual orientation, nationality or other characteristics. This behavior is becoming increasingly common in social networks, where many people confuse freedom of expression with intolerance. Young people are the main users affected since they represent a portion which might be easier to be influenced by the ideology propagated by haters, which in turn spread violence, racism, xenophobia, religious intolerance, etc. The tool that might help to handle this issue is Text Mining, which is capable of capture patterns or trends of texts in natural language. This task can be defined as a method of extracting relevant information in unstructured databases or semi-structured. Given that the Twitter is one of the most used social networks in Brazil, this work aims to implement and evaluate supervised machine learning techniques in order to automatically identify hate speech in tweets. With that in mind, we build a corpus with data collected from Twitter and part of it is manually annotated and subsequently preprocessed so we can obtain the ground truth collection used for training and evaluation of the supervised models. Finally, we conduct a comparison between machine learning algorithms, namely the SVM, Naive-Bayes and Logistic Regression. Later, we identify the best model under the described domain.	pt_BR
dc.format.extent	47 f.	pt_BR
dc.language.iso	por	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Atribuição-NãoComercial-CompartilhaIgual 4.0 Internacional (CC BY-NC-SA 4.0)	pt_BR
dc.rights	https://creativecommons.org/licenses/by-nc-sa/4.0/deed.pt_BR	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	openAccess	pt_BR
dc.subject	Twitter (Rede social on-line)	pt_BR
dc.subject	Discurso de ódio na Internet	pt_BR
dc.subject	Redes sociais on-line	pt_BR
dc.subject	Mineração de dados (Computação)	pt_BR
dc.title	Classificação automática de discursos de ódio em textos do twitter	pt_BR
dc.type	bachelorThesis	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/8962852253787699	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/6593918610781356	pt_BR
dc.degree.level	Graduacao	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.local	Serra Talhada	pt_BR
dc.degree.grantor	Universidade Federal Rural de Pernambuco	pt_BR
dc.degree.graduation	Bacharelado em Sistemas de Informação	pt_BR
dc.degree.departament	Unidade Acadêmica de Serra Talhada	pt_BR
Aparece nas coleções:	TCC - Bacharelado em Sistemas de Informação (UAST)

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
tcc_robsonmuriloferreiradonascimento.pdf		375,31 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas