Use este identificador para citar ou linkar para este item: https://repository.ufrpe.br/handle/123456789/1881
Título: Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural
Autor: Silva, João Marcos Nascimento da
Endereco Lattes do autor: http://lattes.cnpq.br/5276914899067852
Orientador: Lima, Rinaldo José de
Endereco Lattes do orientador : http://lattes.cnpq.br/7645118086647340
Palavras-chave: Algoritmos computacionais;Mineração de dados (Computação)
Data do documento: 2019
Citação: SILVA, João Marcos Nascimento da. Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural. 2019. 69 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2019.
Abstract: Due to the large amount of works developed in the biomedical field and the availability ofhuge databases on biomedical entities, including proteins, genes and viruses, it comesthe need to be able to automatically index such human knowledge bases.Such need has led to the development and computational tools to assist the researcherin the recovery of specific information involving certain proteins and their relations. Inthis context, two of the main problems in the biomedical area involving techniques of Text Mining most investigated are the Named Entity Recognition (NER) and RelationExtraction.This work focuses on the first problem that serves as a basis for the second, i.e., first wehave to identify and classify the entities and then, with the identified/classified entities,identify the existing relations between them, if any. The approach adopted in this paperis based on the recent techniques of supervised/non-supervised learning of deep neural networks, or Deep Learning (DL). In particular, the problem of NER is investigated usingrecent techniques of dense feature representation using DL.At first, the sentences from a biomedical corpus are represented as graphs thanks tothe generation of annotations (metadata) generated automatically by natural language processing tools, such as tokenization, syntactic parsing, etc. These graphs are thenimported into a graph-based database so that various queries submitted to this data base can be optimized in order to extract both lexical and syntactic attributes (or features) ofthe entities (or nodes) present in the graphs. The information generated in the previousstep is used as input Deep Learning-based algorithms called Graph Embedding (GE)that map the representation of graph nodes (entity) in a dense vector representation(vector of real numbers) that has several properties of interest for this search. Finally,such dense representation of features) are employed as input for supervised machine learning algorithms.This work presents an experimental study where some of the existent algorithms of GEare compared, along with several types of sentence representation based on graphs,and their impacts on the task of entity classification (NER), or node classification. Theexperimental results are promising, reaching more than 90% accuracy in the best cases
Resumo: Devido a grande quantidade de pesquisas desenvolvidas na área biomédica e na disponibilidade de enormes bases de dados sobre entidades biomédicas, incluindo proteínas, genes e vírus, vem a necessidade de se poder indexar de forma automática tais bases de conhecimento humano.Tal necessidade tem levado ao desenvolvimento e ferramentas computacionais para auxiliar o pesquisador na recuperação de informações específicas envolvendo certas proteínas e suas relações. Neste contexto, dois dos principais problemas na área biomédica envolvendo técnicas de Mineração de Textos (Text Mining) mais investigados são o reconhecimento de entidades nomeadas (REN) e extração de relações.Este trabalho foca no primeiro problema que serve de base para o segundo, isto é,primeiramente tem-se que se identificar e classificar as entidades para, em seguida,com as entidades identificas e classificadas, identificar as relações existentes entre selas, se houver.A abordagem adotada neste trabalho é baseada em técnicas recentes de aprendizado supervisionado/não supervisionado de redes neurais profundas, ou Deep Learning (DL)em inglês.Em particular, investiga-se o problema de REN usando técnicas recentes de representação densa de características (ou features, do inglês) usando DL. Dessa forma, em um primeiro momento, as frases de um corpus da área biomédica são representadas em forma de grafo graças à geração de anotações (metadados) gerados de forma automática por ferramentas de processamento de linguagem natural, tais como tokenização,parsing sintático etc. Em seguida, esses grafos são importados em um banco de dados baseada em grafo para que se possa otimizar diversas consultas que são submetidas a esta base a fim de se extrair atributos (ou features) léxicos e sintáticos das entidades(ou nós) presentes nos grafos. Com informação gerada na etapa anterior, emprega-se uma categoria de algoritmos de Deep Learning chamados Graph Embedding (GE) que mapeam a representação de nós do grafo (entidade) em uma representação densa em um espaço vetorial que possui diversas propriedades de interesse para esta pesquisa.Finalmente, faz-se uso desta representação densa de features (vetor de números reais)como entrada para algoritmos de classificação.Este trabalho apresenta um estudo experimental onde são comparados alguns dos algoritmos de GE, aliados a diversas formas de representação das frases baseadas em grafos e seus impactos na tarefa de classificação de entidades (REN), ou node classification. Os resultados experimentais obtidos são promissores alcançando nos melhores casos, mais de 90% de acurácia.
URI: https://repository.ufrpe.br/handle/123456789/1881
Aparece nas coleções:TCC - Bacharelado em Ciência da Computação (Sede)

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
tcc_joaomarcosnascimentodasilva.pdf1,35 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.