Estudo semântico de palavras fora do vocabulário utilizando redes neurais recorrentes

Pedroso, Paula Myrian Lima

Use este identificador para citar ou linkar para este item: https://repositorio.uema.br/jspui/handle/123456789/3332

Título:	Estudo semântico de palavras fora do vocabulário utilizando redes neurais recorrentes
Título(s) alternativo(s):	Semantic study of out-of-vocabulary words using recurrent neural networks
Autor(es):	Pedroso, Paula Myrian Lima
Orientador:	Jacob Júnior, Antônio Fernando Lavareda
Membro da Banca:	Sá, Eveline de Jesus Viana
Membro da Banca:	Marcacini, Ricardo Marcondes
Data do documento:	2024-10-28
Editor:	Universidade Estadual do Maranhão
Resumo:	O processo de reconhecimento da escrita de textos computacionais por meio do Processamento de Linguagem Natural (PLN) passa por alguns desafios quando há palavras que ainda não foram categorizadas, as quais são denominadas Fora do Vocabulário (OOV). Comumente são conteúdos que fazem uma representação, como gírias locais ou erros de digitação. Estes tipos de conteúdo têm crescido exponencialmente à medida que a Internet popularizou, fazendo com que as pessoas interajam mais assiduamente através de textos. Este trabalho apresenta seis modelos a base de Redes Neurais (RN) para o tratamento dessas palavras desconhecidas na linguagem portuguesa, que são Redes Neurais Recorrentes Simples (RNN), bidirecional RNN (BIRNN), Memória Longa de Curto Prazo (LSTM), bidirecional LSTM (BILSTM), Unidades Recorrentes Fechada (GRU) e bidirecional GRU (BIGRU). Foi realizado treinamentos com os modelos citados utilizando três bases distintas, porém ambas na linguagem portuguesa. Após o treinamento, foi feita uma função que fosse capaz de categorizar as OOVs, criando vetores válidos. Além disso, o significado delas também foi verificado utilizando a semelhança por cosseno e a marcação gramatical. Com todos os testes, foi possível obter uma acurácia de 99,99% com uma das bases utilizando o modelo GRU
Resumo:	The process of recognizing computer text writing by means of Natural Language Processing (NLP) goes through some challenges when there are words that have not yet been categorized, which are called Out-of-Vocabulary (OOV). These are commonly content that make a representation, such as local slang or typing error. These types of content have grown exponentially as the Internet has become more popular, causing people to interact more assiduously through text. This paper presents six Neural Network (NN) based models for the treatment of these unknown words in the Portuguese language, which are Simple Recurrent Neural Networks (RNN), bidirectional RNN (BIRNN), Long Short-Term Memory (LSTM), bidirectional LSTM (BILSTM), Gated Recurrent Units (GRU) and bidirectional GRU (BIGRU). The models were trained using three different bases, but both in Portuguese. After training, a function was made that was able to categorize the OOVs, creating valid vectors. In addition, their meaning was also verified using cosine similarity and part-of-speech tagging. With all the tests, it was possible to obtain an accuracy of 99.99% with one of the bases using the GRU model
Palavras-chave:	Processamento de Linguagem Natural - PLN Fora do Vocabulário - OOV Redes Neurais Recorrentes Bidirecional Semelhança por cosseno Marcação gramatical Natural Language Processing (NLP) Out-of-Vocabulary (OOV) Neural Networks Recurrent Bidirectional Cosine similarity Part-of-speech tagging
Aparece nas coleções:	Mestrado Profissional em Engenharia da Computação e Sistemas - CCT - Dissertações

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
DISSERTAÇÃO- PAULA MYRIAN LIMA PEDROSO- PECS CCT UEMA 2022.pdf	PDF A	1.27 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas

UEMA Repositório

O UEMA Repositório preserva e provê acesso fácil e aberto a todos os tipos de objetos digitais, incluindo: textos, imagens, vídeos e conjuntos de dados.