Use este identificador para citar ou linkar para este item: https://repositorio.uema.br/jspui/handle/123456789/3332
Título: Estudo semântico de palavras fora do vocabulário utilizando redes neurais recorrentes
Título(s) alternativo(s): Semantic study of out-of-vocabulary words using recurrent neural networks
Autor(es): Pedroso, Paula Myrian Lima
Orientador: Jacob Júnior, Antônio Fernando Lavareda
Membro da Banca: Sá, Eveline de Jesus Viana
Membro da Banca: Marcacini, Ricardo Marcondes
Data do documento: 2024-10-28
Editor: Universidade Estadual do Maranhão
Resumo: O processo de reconhecimento da escrita de textos computacionais por meio do Processamento de Linguagem Natural (PLN) passa por alguns desafios quando há palavras que ainda não foram categorizadas, as quais são denominadas Fora do Vocabulário (OOV). Comumente são conteúdos que fazem uma representação, como gírias locais ou erros de digitação. Estes tipos de conteúdo têm crescido exponencialmente à medida que a Internet popularizou, fazendo com que as pessoas interajam mais assiduamente através de textos. Este trabalho apresenta seis modelos a base de Redes Neurais (RN) para o tratamento dessas palavras desconhecidas na linguagem portuguesa, que são Redes Neurais Recorrentes Simples (RNN), bidirecional RNN (BIRNN), Memória Longa de Curto Prazo (LSTM), bidirecional LSTM (BILSTM), Unidades Recorrentes Fechada (GRU) e bidirecional GRU (BIGRU). Foi realizado treinamentos com os modelos citados utilizando três bases distintas, porém ambas na linguagem portuguesa. Após o treinamento, foi feita uma função que fosse capaz de categorizar as OOVs, criando vetores válidos. Além disso, o significado delas também foi verificado utilizando a semelhança por cosseno e a marcação gramatical. Com todos os testes, foi possível obter uma acurácia de 99,99% com uma das bases utilizando o modelo GRU
Resumo: The process of recognizing computer text writing by means of Natural Language Processing (NLP) goes through some challenges when there are words that have not yet been categorized, which are called Out-of-Vocabulary (OOV). These are commonly content that make a representation, such as local slang or typing error. These types of content have grown exponentially as the Internet has become more popular, causing people to interact more assiduously through text. This paper presents six Neural Network (NN) based models for the treatment of these unknown words in the Portuguese language, which are Simple Recurrent Neural Networks (RNN), bidirectional RNN (BIRNN), Long Short-Term Memory (LSTM), bidirectional LSTM (BILSTM), Gated Recurrent Units (GRU) and bidirectional GRU (BIGRU). The models were trained using three different bases, but both in Portuguese. After training, a function was made that was able to categorize the OOVs, creating valid vectors. In addition, their meaning was also verified using cosine similarity and part-of-speech tagging. With all the tests, it was possible to obtain an accuracy of 99.99% with one of the bases using the GRU model
Palavras-chave: Processamento de Linguagem Natural - PLN
Fora do Vocabulário - OOV
Redes Neurais
Recorrentes
Bidirecional
Semelhança por cosseno
Marcação gramatical
Natural Language Processing (NLP)
Out-of-Vocabulary (OOV)
Neural Networks
Recurrent
Bidirectional
Cosine similarity
Part-of-speech tagging
Aparece nas coleções:Mestrado Profissional em Engenharia da Computação e Sistemas - CCT - Dissertações

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
DISSERTAÇÃO- PAULA MYRIAN LIMA PEDROSO- PECS CCT UEMA 2022.pdfPDF A1.27 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.