Reduzindo alucinações e aprimorando a qualidade de respostas em sistemas alimentados por large language models através de re-ranking de documentos para aplicações em domínios específicos

Pacheco, Jose Chrystian Lima

Use este identificador para citar ou linkar para este item: https://repositorio.uema.br/jspui/handle/123456789/6185

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Pacheco, Jose Chrystian Lima	-
dc.date.accessioned	2026-06-12T14:09:12Z	-
dc.date.available	2026-06-12	-
dc.date.available	2026-06-12T14:09:12Z	-
dc.date.issued	2025	-
dc.identifier.citation	PACHECO, José Chrystian Lima. Reduzindo alucinações e aprimorando a qualidade de respostas em sistemas alimentados por large language models através de re-ranking de documentos para aplicações em domínios específicos. 2025. 46 f. Monografia (Graduação em Engenharia de Computação) – Centro de Ciências Tecnológicas, Universidade Estadual do Maranhão, São Luís-MA, Brasil, 2025. Disponível em: https://repositorio.uema.br/jspui/handle/123456789/6185	pt_BR
dc.identifier.uri	https://repositorio.uema.br/jspui/handle/123456789/6185	-
dc.description.abstract	This work addresses the problem of hallucinations in Large-Scale Language Models (LLMs) by improving Retrieval Augmented Generation (RAG) systems. Specifically, it proposes a document re-ranking model, based on BERT architecture, to refine the results retrieved in a RAG system, prioritizing more relevant documents and, consequently, mitigating the generation of incorrect or unfounded information (hallucinations) by LLMs. To train and evaluate the model, an innovative dataset was created from ten Undergraduate Thesis Projects (TCCs) from the State University of Maranhão (UEMA), using Natural Language Processing (NLP) techniques for text extraction and automatic generation of questions with different levels of relevance (scores 1, 3 and 5). The BERTimbau re-ranking model was trained to classify question and document pairs according to their relevance. Experimental results demonstrate that the model achieves 92% accuracy in relevance classification and an MRR of 0.7367, indicating a significant improvement in the ordering of retrieved documents compared to an approach without re-ranking (MRR of 0.4140). The qualitative analysis illustrates the model's ability to discern between different levels of semantic relationship between questions and documents. This work contributes to the advancement of the state of the art in RAG, providing an effective method to reduce hallucinations in LLM and improve the reliability of information generated in applications in the Portuguese language domain, specifically in the context of UEMA's final course projects	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Estadual do Maranhão	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Alucinações	pt_BR
dc.subject	Modelos de Linguagem de Grande Escala	pt_BR
dc.subject	Retrieval Augmented Generation	pt_BR
dc.subject	Re-ranqueamento de Documentos	pt_BR
dc.subject	BERT	pt_BR
dc.subject	Processamento de Linguagem Natural	pt_BR
dc.subject	Hallucinations	pt_BR
dc.subject	LargeLanguageModels	pt_BR
dc.subject	Retrieval Augmented Generation	pt_BR
dc.subject	Document Re-ranking	pt_BR
dc.subject	BERT	pt_BR
dc.subject	Natural LanguageProcessing	pt_BR
dc.title	Reduzindo alucinações e aprimorando a qualidade de respostas em sistemas alimentados por large language models através de re-ranking de documentos para aplicações em domínios específicos	pt_BR
dc.title.alternative	Reducing hallucinations and improving response quality in systems powered by large language models through document re-ranking for domain-specific applications	pt_BR
dc.type	Trabalho de Conclusão de Curso	pt_BR
dc.contributor.advisor1	Fonseca, Luis Carlos Costa	-
dc.contributor.advisor1ID	https://orcid.org/0000-0001-7648-6746	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/5011119718693303	pt_BR
dc.contributor.referee1	BrandãoNeto, Pedro	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/5367580878507735	pt_BR
dc.contributor.referee2	Silva, Reinaldo de Jesus da	-
dc.contributor.referee2ID	https://orcid.org/0000-0001-6238-0166	pt_BR
dc.contributor.referee2Lattes	http://lattes.cnpq.br/7984455205688904	pt_BR
dc.description.resumo	Este trabalho aborda o problema das alucinações em Modelos de Linguagem de Grande Escala (LLMs)por meio da melhoria de sistemas de Retrieval Augmented Generation (RAG).Especificamente, propõe-se um modelo de re-ranqueamento de documentos, baseado arquitetura BERT, para refinar os resultados recuperados em um sistema RAG, priorizando documentos mais relevantes e, consequentemente, mitigandoageração de informações incorretas ou infundadas(alucinações) pelos LLMs. Para treinar e avaliar o modelo,foicriado um dataset inovador a partir de dez Trabalhos de Conclusão de Curso (TCCs) da Universidade Estadual do Maranhão(UEMA),utilizando técnicas de Processamento de Linguagem Natural(PLN) para extração de texto e geração automática de perguntas com diferentes níveis de relevância(scores1,3e5).O modelo de re- ranqueamento BERTimbau foi treinado para classificar pares de pergunta e documento de acordo com sua relevância. Os resultados experimentais demonstram que o modelo alcança uma acurácia de 92% na classificação der elevância e um MRR de0.7367, indicando uma melhora significativa na ordenação dos documentos recuperados em comparação com uma abordagem sem re-ranqueamento(MRRde0.4140). A análise qualitativa ilustra a capacida de domodelo de discernir entre diferentes níveis de relação semântica entre perguntas e documentos. Este trabalho contribui para o avanço do estado da arte em RAG, fornecendo um método eficaz para reduzir alucinações em LLM se melhorar a confiabilidade das informações geradas em aplicações no domínio da língua portuguesa, especificamente no contexto de TCCs da UEMA	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Campus São Luis Centro de Ciências Tecnológicas – CCT	pt_BR
dc.publisher.initials	UEMA	pt_BR
dc.subject.cnpq	Sistemas de Computação	pt_BR
Aparece nas coleções:	Curso de Bacharelado em Engenharia de Computação - CCT UEMA - Monografias

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
TCC - JOSÉ CHRYSTIAN LIMA PACHECO - ENG. DE COMPUTACAO CCT UEMA 2025..pdf	PDF A	764.72 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas

UEMA Repositório

O UEMA Repositório preserva e provê acesso fácil e aberto a todos os tipos de objetos digitais, incluindo: textos, imagens, vídeos e conjuntos de dados.