Use este identificador para citar ou linkar para este item:
https://repositorio.uema.br/jspui/handle/123456789/3332
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.creator | Pedroso, Paula Myrian Lima | - |
dc.date.accessioned | 2024-10-21T18:11:50Z | - |
dc.date.available | 2024-10-21 | - |
dc.date.available | 2024-10-21T18:11:50Z | - |
dc.date.issued | 2024-10-28 | - |
dc.identifier.citation | PEDROSO, Paula Myrian Lima. Estudo semântico de palavras fora do vocabulário utilizando redes neurais recorrentes. 2022. 77 f. Dissertação (Pós-Graduação em Engenharia de Computação e Sistemas) - Centro de Ciências Tecnológicas, Universidade Estadual do Maranhão, São Luís - MA, 2022. Disponível em: https://repositorio.uema.br/jspui/handle/123456789/3332 | pt_BR |
dc.identifier.uri | https://repositorio.uema.br/jspui/handle/123456789/3332 | - |
dc.description.abstract | The process of recognizing computer text writing by means of Natural Language Processing (NLP) goes through some challenges when there are words that have not yet been categorized, which are called Out-of-Vocabulary (OOV). These are commonly content that make a representation, such as local slang or typing error. These types of content have grown exponentially as the Internet has become more popular, causing people to interact more assiduously through text. This paper presents six Neural Network (NN) based models for the treatment of these unknown words in the Portuguese language, which are Simple Recurrent Neural Networks (RNN), bidirectional RNN (BIRNN), Long Short-Term Memory (LSTM), bidirectional LSTM (BILSTM), Gated Recurrent Units (GRU) and bidirectional GRU (BIGRU). The models were trained using three different bases, but both in Portuguese. After training, a function was made that was able to categorize the OOVs, creating valid vectors. In addition, their meaning was also verified using cosine similarity and part-of-speech tagging. With all the tests, it was possible to obtain an accuracy of 99.99% with one of the bases using the GRU model | pt_BR |
dc.language | por | pt_BR |
dc.publisher | Universidade Estadual do Maranhão | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject | Processamento de Linguagem Natural - PLN | pt_BR |
dc.subject | Fora do Vocabulário - OOV | pt_BR |
dc.subject | Redes Neurais | pt_BR |
dc.subject | Recorrentes | pt_BR |
dc.subject | Bidirecional | pt_BR |
dc.subject | Semelhança por cosseno | pt_BR |
dc.subject | Marcação gramatical | pt_BR |
dc.subject | Natural Language Processing (NLP) | pt_BR |
dc.subject | Out-of-Vocabulary (OOV) | pt_BR |
dc.subject | Neural Networks | pt_BR |
dc.subject | Recurrent | pt_BR |
dc.subject | Bidirectional | pt_BR |
dc.subject | Cosine similarity | pt_BR |
dc.subject | Part-of-speech tagging | pt_BR |
dc.title | Estudo semântico de palavras fora do vocabulário utilizando redes neurais recorrentes | pt_BR |
dc.title.alternative | Semantic study of out-of-vocabulary words using recurrent neural networks | pt_BR |
dc.type | Dissertação | pt_BR |
dc.creator.Lattes | http://lattes.cnpq.br/436188328243406 | pt_BR |
dc.contributor.advisor1 | Jacob Júnior, Antônio Fernando Lavareda | - |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/4510520291728075 | pt_BR |
dc.contributor.advisor-co1 | Lobato, Fábio Manoel França | - |
dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/8320014491229434 | pt_BR |
dc.contributor.referee1 | Sá, Eveline de Jesus Viana | - |
dc.contributor.referee1Lattes | http://lattes.cnpq.br/6579292885078121 | pt_BR |
dc.contributor.referee2 | Marcacini, Ricardo Marcondes | - |
dc.contributor.referee2Lattes | http://lattes.cnpq.br/3272611282260295 | pt_BR |
dc.description.resumo | O processo de reconhecimento da escrita de textos computacionais por meio do Processamento de Linguagem Natural (PLN) passa por alguns desafios quando há palavras que ainda não foram categorizadas, as quais são denominadas Fora do Vocabulário (OOV). Comumente são conteúdos que fazem uma representação, como gírias locais ou erros de digitação. Estes tipos de conteúdo têm crescido exponencialmente à medida que a Internet popularizou, fazendo com que as pessoas interajam mais assiduamente através de textos. Este trabalho apresenta seis modelos a base de Redes Neurais (RN) para o tratamento dessas palavras desconhecidas na linguagem portuguesa, que são Redes Neurais Recorrentes Simples (RNN), bidirecional RNN (BIRNN), Memória Longa de Curto Prazo (LSTM), bidirecional LSTM (BILSTM), Unidades Recorrentes Fechada (GRU) e bidirecional GRU (BIGRU). Foi realizado treinamentos com os modelos citados utilizando três bases distintas, porém ambas na linguagem portuguesa. Após o treinamento, foi feita uma função que fosse capaz de categorizar as OOVs, criando vetores válidos. Além disso, o significado delas também foi verificado utilizando a semelhança por cosseno e a marcação gramatical. Com todos os testes, foi possível obter uma acurácia de 99,99% com uma das bases utilizando o modelo GRU | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Campus São Luis Centro de Ciências Tecnológicas – CCT | pt_BR |
dc.publisher.program | PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO E SISTEMAS - PECS | pt_BR |
dc.publisher.initials | UEMA | pt_BR |
dc.subject.cnpq | Ciências Sociais Aplicadas | pt_BR |
Aparece nas coleções: | Mestrado Profissional em Engenharia da Computação e Sistemas - CCT - Dissertações |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
DISSERTAÇÃO- PAULA MYRIAN LIMA PEDROSO- PECS CCT UEMA 2022.pdf | PDF A | 1.27 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.