Use este identificador para citar ou linkar para este item: https://repositorio.uema.br/jspui/handle/123456789/6185
Registro completo de metadados
Campo DCValorIdioma
dc.creatorPacheco, Jose Chrystian Lima-
dc.date.accessioned2026-06-12T14:09:12Z-
dc.date.available2026-06-12-
dc.date.available2026-06-12T14:09:12Z-
dc.date.issued2025-
dc.identifier.citationPACHECO, José Chrystian Lima. Reduzindo alucinações e aprimorando a qualidade de respostas em sistemas alimentados por large language models através de re-ranking de documentos para aplicações em domínios específicos. 2025. 46 f. Monografia (Graduação em Engenharia de Computação) – Centro de Ciências Tecnológicas, Universidade Estadual do Maranhão, São Luís-MA, Brasil, 2025. Disponível em: https://repositorio.uema.br/jspui/handle/123456789/6185pt_BR
dc.identifier.urihttps://repositorio.uema.br/jspui/handle/123456789/6185-
dc.description.abstractThis work addresses the problem of hallucinations in Large-Scale Language Models (LLMs) by improving Retrieval Augmented Generation (RAG) systems. Specifically, it proposes a document re-ranking model, based on BERT architecture, to refine the results retrieved in a RAG system, prioritizing more relevant documents and, consequently, mitigating the generation of incorrect or unfounded information (hallucinations) by LLMs. To train and evaluate the model, an innovative dataset was created from ten Undergraduate Thesis Projects (TCCs) from the State University of Maranhão (UEMA), using Natural Language Processing (NLP) techniques for text extraction and automatic generation of questions with different levels of relevance (scores 1, 3 and 5). The BERTimbau re-ranking model was trained to classify question and document pairs according to their relevance. Experimental results demonstrate that the model achieves 92% accuracy in relevance classification and an MRR of 0.7367, indicating a significant improvement in the ordering of retrieved documents compared to an approach without re-ranking (MRR of 0.4140). The qualitative analysis illustrates the model's ability to discern between different levels of semantic relationship between questions and documents. This work contributes to the advancement of the state of the art in RAG, providing an effective method to reduce hallucinations in LLM and improve the reliability of information generated in applications in the Portuguese language domain, specifically in the context of UEMA's final course projectspt_BR
dc.languageporpt_BR
dc.publisherUniversidade Estadual do Maranhãopt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectAlucinaçõespt_BR
dc.subjectModelos de Linguagem de Grande Escalapt_BR
dc.subjectRetrieval Augmented Generationpt_BR
dc.subjectRe-ranqueamento de Documentospt_BR
dc.subjectBERTpt_BR
dc.subjectProcessamento de Linguagem Naturalpt_BR
dc.subjectHallucinationspt_BR
dc.subjectLargeLanguageModelspt_BR
dc.subjectRetrieval Augmented Generationpt_BR
dc.subjectDocument Re-rankingpt_BR
dc.subjectBERTpt_BR
dc.subjectNatural LanguageProcessingpt_BR
dc.titleReduzindo alucinações e aprimorando a qualidade de respostas em sistemas alimentados por large language models através de re-ranking de documentos para aplicações em domínios específicospt_BR
dc.title.alternativeReducing hallucinations and improving response quality in systems powered by large language models through document re-ranking for domain-specific applicationspt_BR
dc.typeTrabalho de Conclusão de Cursopt_BR
dc.contributor.advisor1Fonseca, Luis Carlos Costa-
dc.contributor.advisor1IDhttps://orcid.org/0000-0001-7648-6746pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/5011119718693303pt_BR
dc.contributor.referee1BrandãoNeto, Pedro-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/5367580878507735pt_BR
dc.contributor.referee2Silva, Reinaldo de Jesus da-
dc.contributor.referee2IDhttps://orcid.org/0000-0001-6238-0166pt_BR
dc.contributor.referee2Latteshttp://lattes.cnpq.br/7984455205688904pt_BR
dc.description.resumoEste trabalho aborda o problema das alucinações em Modelos de Linguagem de Grande Escala (LLMs)por meio da melhoria de sistemas de Retrieval Augmented Generation (RAG).Especificamente, propõe-se um modelo de re-ranqueamento de documentos, baseado arquitetura BERT, para refinar os resultados recuperados em um sistema RAG, priorizando documentos mais relevantes e, consequentemente, mitigandoageração de informações incorretas ou infundadas(alucinações) pelos LLMs. Para treinar e avaliar o modelo,foicriado um dataset inovador a partir de dez Trabalhos de Conclusão de Curso (TCCs) da Universidade Estadual do Maranhão(UEMA),utilizando técnicas de Processamento de Linguagem Natural(PLN) para extração de texto e geração automática de perguntas com diferentes níveis de relevância(scores1,3e5).O modelo de re- ranqueamento BERTimbau foi treinado para classificar pares de pergunta e documento de acordo com sua relevância. Os resultados experimentais demonstram que o modelo alcança uma acurácia de 92% na classificação der elevância e um MRR de0.7367, indicando uma melhora significativa na ordenação dos documentos recuperados em comparação com uma abordagem sem re-ranqueamento(MRRde0.4140). A análise qualitativa ilustra a capacida de domodelo de discernir entre diferentes níveis de relação semântica entre perguntas e documentos. Este trabalho contribui para o avanço do estado da arte em RAG, fornecendo um método eficaz para reduzir alucinações em LLM se melhorar a confiabilidade das informações geradas em aplicações no domínio da língua portuguesa, especificamente no contexto de TCCs da UEMApt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentCampus São Luis Centro de Ciências Tecnológicas – CCTpt_BR
dc.publisher.initialsUEMApt_BR
dc.subject.cnpqSistemas de Computaçãopt_BR
Aparece nas coleções:Curso de Bacharelado em Engenharia de Computação - CCT UEMA - Monografias

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
TCC - JOSÉ CHRYSTIAN LIMA PACHECO - ENG. DE COMPUTACAO CCT UEMA 2025..pdfPDF A764.72 kBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.