Use este identificador para citar ou linkar para este item: https://repositorio.uema.br/jspui/handle/123456789/3332
Registro completo de metadados
Campo DCValorIdioma
dc.creatorPedroso, Paula Myrian Lima-
dc.date.accessioned2024-10-21T18:11:50Z-
dc.date.available2024-10-21-
dc.date.available2024-10-21T18:11:50Z-
dc.date.issued2024-10-28-
dc.identifier.citationPEDROSO, Paula Myrian Lima. Estudo semântico de palavras fora do vocabulário utilizando redes neurais recorrentes. 2022. 77 f. Dissertação (Pós-Graduação em Engenharia de Computação e Sistemas) - Centro de Ciências Tecnológicas, Universidade Estadual do Maranhão, São Luís - MA, 2022. Disponível em: https://repositorio.uema.br/jspui/handle/123456789/3332pt_BR
dc.identifier.urihttps://repositorio.uema.br/jspui/handle/123456789/3332-
dc.description.abstractThe process of recognizing computer text writing by means of Natural Language Processing (NLP) goes through some challenges when there are words that have not yet been categorized, which are called Out-of-Vocabulary (OOV). These are commonly content that make a representation, such as local slang or typing error. These types of content have grown exponentially as the Internet has become more popular, causing people to interact more assiduously through text. This paper presents six Neural Network (NN) based models for the treatment of these unknown words in the Portuguese language, which are Simple Recurrent Neural Networks (RNN), bidirectional RNN (BIRNN), Long Short-Term Memory (LSTM), bidirectional LSTM (BILSTM), Gated Recurrent Units (GRU) and bidirectional GRU (BIGRU). The models were trained using three different bases, but both in Portuguese. After training, a function was made that was able to categorize the OOVs, creating valid vectors. In addition, their meaning was also verified using cosine similarity and part-of-speech tagging. With all the tests, it was possible to obtain an accuracy of 99.99% with one of the bases using the GRU modelpt_BR
dc.languageporpt_BR
dc.publisherUniversidade Estadual do Maranhãopt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectProcessamento de Linguagem Natural - PLNpt_BR
dc.subjectFora do Vocabulário - OOVpt_BR
dc.subjectRedes Neuraispt_BR
dc.subjectRecorrentespt_BR
dc.subjectBidirecionalpt_BR
dc.subjectSemelhança por cossenopt_BR
dc.subjectMarcação gramaticalpt_BR
dc.subjectNatural Language Processing (NLP)pt_BR
dc.subjectOut-of-Vocabulary (OOV)pt_BR
dc.subjectNeural Networkspt_BR
dc.subjectRecurrentpt_BR
dc.subjectBidirectionalpt_BR
dc.subjectCosine similaritypt_BR
dc.subjectPart-of-speech taggingpt_BR
dc.titleEstudo semântico de palavras fora do vocabulário utilizando redes neurais recorrentespt_BR
dc.title.alternativeSemantic study of out-of-vocabulary words using recurrent neural networkspt_BR
dc.typeDissertaçãopt_BR
dc.creator.Latteshttp://lattes.cnpq.br/436188328243406pt_BR
dc.contributor.advisor1Jacob Júnior, Antônio Fernando Lavareda-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4510520291728075pt_BR
dc.contributor.advisor-co1Lobato, Fábio Manoel França-
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/8320014491229434pt_BR
dc.contributor.referee1Sá, Eveline de Jesus Viana-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/6579292885078121pt_BR
dc.contributor.referee2Marcacini, Ricardo Marcondes-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/3272611282260295pt_BR
dc.description.resumoO processo de reconhecimento da escrita de textos computacionais por meio do Processamento de Linguagem Natural (PLN) passa por alguns desafios quando há palavras que ainda não foram categorizadas, as quais são denominadas Fora do Vocabulário (OOV). Comumente são conteúdos que fazem uma representação, como gírias locais ou erros de digitação. Estes tipos de conteúdo têm crescido exponencialmente à medida que a Internet popularizou, fazendo com que as pessoas interajam mais assiduamente através de textos. Este trabalho apresenta seis modelos a base de Redes Neurais (RN) para o tratamento dessas palavras desconhecidas na linguagem portuguesa, que são Redes Neurais Recorrentes Simples (RNN), bidirecional RNN (BIRNN), Memória Longa de Curto Prazo (LSTM), bidirecional LSTM (BILSTM), Unidades Recorrentes Fechada (GRU) e bidirecional GRU (BIGRU). Foi realizado treinamentos com os modelos citados utilizando três bases distintas, porém ambas na linguagem portuguesa. Após o treinamento, foi feita uma função que fosse capaz de categorizar as OOVs, criando vetores válidos. Além disso, o significado delas também foi verificado utilizando a semelhança por cosseno e a marcação gramatical. Com todos os testes, foi possível obter uma acurácia de 99,99% com uma das bases utilizando o modelo GRUpt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentCampus São Luis Centro de Ciências Tecnológicas – CCTpt_BR
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO E SISTEMAS - PECSpt_BR
dc.publisher.initialsUEMApt_BR
dc.subject.cnpqCiências Sociais Aplicadaspt_BR
Aparece nas coleções:Mestrado Profissional em Engenharia da Computação e Sistemas - CCT - Dissertações

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
DISSERTAÇÃO- PAULA MYRIAN LIMA PEDROSO- PECS CCT UEMA 2022.pdfPDF A1.27 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.