Use este identificador para citar ou linkar para este item:
https://repositorio.uema.br/jspui/handle/123456789/3332
Título: | Estudo semântico de palavras fora do vocabulário utilizando redes neurais recorrentes |
Título(s) alternativo(s): | Semantic study of out-of-vocabulary words using recurrent neural networks |
Autor(es): | Pedroso, Paula Myrian Lima |
Orientador: | Jacob Júnior, Antônio Fernando Lavareda |
Membro da Banca: | Sá, Eveline de Jesus Viana |
Membro da Banca: | Marcacini, Ricardo Marcondes |
Data do documento: | 2024-10-28 |
Editor: | Universidade Estadual do Maranhão |
Resumo: | O processo de reconhecimento da escrita de textos computacionais por meio do Processamento de Linguagem Natural (PLN) passa por alguns desafios quando há palavras que ainda não foram categorizadas, as quais são denominadas Fora do Vocabulário (OOV). Comumente são conteúdos que fazem uma representação, como gírias locais ou erros de digitação. Estes tipos de conteúdo têm crescido exponencialmente à medida que a Internet popularizou, fazendo com que as pessoas interajam mais assiduamente através de textos. Este trabalho apresenta seis modelos a base de Redes Neurais (RN) para o tratamento dessas palavras desconhecidas na linguagem portuguesa, que são Redes Neurais Recorrentes Simples (RNN), bidirecional RNN (BIRNN), Memória Longa de Curto Prazo (LSTM), bidirecional LSTM (BILSTM), Unidades Recorrentes Fechada (GRU) e bidirecional GRU (BIGRU). Foi realizado treinamentos com os modelos citados utilizando três bases distintas, porém ambas na linguagem portuguesa. Após o treinamento, foi feita uma função que fosse capaz de categorizar as OOVs, criando vetores válidos. Além disso, o significado delas também foi verificado utilizando a semelhança por cosseno e a marcação gramatical. Com todos os testes, foi possível obter uma acurácia de 99,99% com uma das bases utilizando o modelo GRU |
Resumo: | The process of recognizing computer text writing by means of Natural Language Processing (NLP) goes through some challenges when there are words that have not yet been categorized, which are called Out-of-Vocabulary (OOV). These are commonly content that make a representation, such as local slang or typing error. These types of content have grown exponentially as the Internet has become more popular, causing people to interact more assiduously through text. This paper presents six Neural Network (NN) based models for the treatment of these unknown words in the Portuguese language, which are Simple Recurrent Neural Networks (RNN), bidirectional RNN (BIRNN), Long Short-Term Memory (LSTM), bidirectional LSTM (BILSTM), Gated Recurrent Units (GRU) and bidirectional GRU (BIGRU). The models were trained using three different bases, but both in Portuguese. After training, a function was made that was able to categorize the OOVs, creating valid vectors. In addition, their meaning was also verified using cosine similarity and part-of-speech tagging. With all the tests, it was possible to obtain an accuracy of 99.99% with one of the bases using the GRU model |
Palavras-chave: | Processamento de Linguagem Natural - PLN Fora do Vocabulário - OOV Redes Neurais Recorrentes Bidirecional Semelhança por cosseno Marcação gramatical Natural Language Processing (NLP) Out-of-Vocabulary (OOV) Neural Networks Recurrent Bidirectional Cosine similarity Part-of-speech tagging |
Aparece nas coleções: | Mestrado Profissional em Engenharia da Computação e Sistemas - CCT - Dissertações |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
DISSERTAÇÃO- PAULA MYRIAN LIMA PEDROSO- PECS CCT UEMA 2022.pdf | PDF A | 1.27 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.