Processamento de documentos jurídicos longos: comparação e avaliação de métodos baseados em Modelos de Linguagem

Araújo, Gabriele de Sousa

Use este identificador para citar ou linkar para este item: https://repositorio.uema.br/jspui/handle/123456789/6236

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Araújo, Gabriele de Sousa	-
dc.date.accessioned	2026-07-01T17:53:37Z	-
dc.date.available	2026-07-01	-
dc.date.available	2026-07-01T17:53:37Z	-
dc.date.issued	2025-11-12	-
dc.identifier.citation	ARAÚJO, Gabriele de Sousa. Processamento de documentos jurídicos longos: comparação e avaliação de métodos baseados em modelos de linguagem. 2025. 164 f. Dissertação (Mestrado Profissional em Engenharia de Computação e Sistemas) - Centro de Ciências e Tecnologias, Universidade Estadual do Maranhão, São Luís, 2025. Disponível em: https://repositorio.uema.br/jspui/handle/123456789/6236.	pt_BR
dc.identifier.uri	https://repositorio.uema.br/jspui/handle/123456789/6236	-
dc.description.abstract	The Brazilian legal system faces a structural scenario of accumulating lawsuits, which compromises its efficiency and adherence to the constitutional principle of a reasonable trial duration. As of August 2024, the number of pending cases exceeded 80 million, according to data from the Judiciary's National Database. This substantial volume of litigation directly impacts the speed and effectiveness of judicial service delivery, necessitating the development of technological tools capable of supporting the management, screening, and comprehension of legal documents—documents whose length and complexity challenge traditional human and automated analysis workflows. In this context, understanding how advanced text processing techniques can contribute to streamlining judicial activity lies at the heart of this dissertation. Existing applications in the field, such as BumbaBERT, show promising results for optimizing procedural workflows but remain constrained by the structural limitations of their underlying Transformer architecture, particularly due to high computational complexity. To address this issue, this dissertation project proposes and evaluates a set of strategies aimed at the efficient processing of long documents, using initial complaints linked to Incidents for the Resolution of Repetitive Demands (IRDR) as a case study. Building on gaps identified in the literature and the practical motivation stemming from the UEMA-TJMA technical cooperation agreement—specifically regarding the difficulty of adapting language models to extensive legal texts—the methodological process was guided by the Data Science Trajectories (DST) framework. This approach provided a foundation for understanding the domain and planning solutions, as well as for identifying a taxonomy of methods capable of organizing the field of automatic long-document classification into three categories: truncation methods derived from baselines (e.g., BumbaBERT, LegalBERT-PT); ...decomposition-recomposition (e.g., ToBERT) and content synthesis based on sentence selection strategies (e.g., TextRank, LexRank, SBERT, LlaMa). Based on this framework, empirical experimentation and statistical validation were conducted. Consequently, the study involved implementing and comparing eight architectures based on fine-tuning BumbaBERT—totaling 40 experiments—that considered performance metrics such as accuracy, F1-score, precision, and recall; computational efficiency indicators such as time, inference speed, and memory usage; statistical significance tests; and practical implementation feasibility. The results demonstrated that hierarchical architectures outperform content synthesis-based approaches, achieving a better balance between precision and stability, albeit at a higher computational cost. This finding reinforces the importance of preserving the integral argumentative structure of legal texts to ensure interpretive consistency and the reliability of automated classifications. Thus, the work contributes scientifically to the advancement of natural language processing in the legal domain by demonstrating how established strategies can be reinterpreted and adapted to address the linguistic and structural specificities of Brazilian legal texts. From a technological and institutional perspective, the study offers a reproducible artifact capable of integration into the TJMA’s automation system, thereby contributing to reduced case processing times and the strengthening of digital transformation policies in the public sector. Finally, regarding the social dimension, the study reaffirms the role of digital transformation as a tool for democratizing access to justice, fostering innovation that combines technical precision, ethical responsibility, and a commitment to the public interest.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Estadual do Maranhão	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Documentos jurídicos longos	pt_BR
dc.subject	Modelos de Linguagem	pt_BR
dc.subject	Justiça 4.0	pt_BR
dc.subject	Inteligência Artificial	pt_BR
dc.subject	Long legal documents	pt_BR
dc.subject	Language Models	pt_BR
dc.subject	Artificial Intelligence	pt_BR
dc.title	Processamento de documentos jurídicos longos: comparação e avaliação de métodos baseados em Modelos de Linguagem	pt_BR
dc.title.alternative	Processing long legal documents: comparison and evaluation of methods based on Language Models	pt_BR
dc.type	Dissertação	pt_BR
dc.creator.ID	https://orcid.org/0000-0003-1143-507X	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/2201818644935012	pt_BR
dc.contributor.advisor1	Lobato, Fábio Manoel França	-
dc.contributor.advisor1ID	https://orcid.org/0000-0002-6282-0368	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/8320014491229434	pt_BR
dc.contributor.advisor-co1	Santana, Ewaldo Eder Carvalho	-
dc.contributor.advisor-co1ID	https://orcid.org/0000-0002-8894-5353	pt_BR
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/0660692009750374	pt_BR
dc.contributor.referee1	Santos, Davi Viana dos	-
dc.contributor.referee1ID	https://orcid.org/0000-0003-0470-549X	pt_BR
dc.contributor.referee1Lattes	http://lattes.cnpq.br/9297257833779277	pt_BR
dc.contributor.referee2	Marcacini, Ricardo Marcondes	-
dc.contributor.referee2ID	https://orcid.org/0000-0002-2309-3487	pt_BR
dc.contributor.referee2Lattes	http://lattes.cnpq.br/3272611282260295	pt_BR
dc.description.resumo	O sistema jurídico brasileiro enfrenta um cenário estrutural de acúmulo de demandas judiciais, o que compromete sua eficiência e o cumprimento do princípio constitucional da razoável duração do processo. Em agosto de 2024, o número de ações em tramitação ultrapassou 80 milhões, segundo dados da Base Nacional de Dados do Poder Judiciário. Esse volume expressivo de litígios afeta diretamente a celeridade e efetividade da prestação jurisdicional, demandando o desenvolvimento de instrumentos tecnológicos capazes de apoiar a gestão, triagem e compreensão de documentos legais, cuja extensão e complexidade desafiam as rotinas tradicionais de análise humana e automatizada. Nesse cenário, compreender como técnicas avançadas de processamento de texto podem contribuir para a racionalização da atividade jurisdicional constitui o cerne desta dissertação. Aplicações já existentes no domínio, como o BumbaBERT, apresentam resultados promissores para a otimização do fluxo processual, porém ainda limitadas pelas restrições estruturais da arquitetura Transformer que as compõe, sobretudo em razão de sua alta complexidade computacional. Visando contornar essa problemática, o presente projeto de dissertação propõe e avalia um conjunto de estratégias direcionadas ao processamento eficiente de documentos longos, tomando como estudo de caso as petições iniciais vinculadas a Incidentes de Resolução de Demandas Repetitivas (IRDR). Partindo das lacunas identificadas na literatura e da motivação prática advinda do acordo de cooperação técnica UEMA-TJMA no que tange à diĄculdade de adaptação de modelos linguísticos a textos jurídicos extensos, o processo metodológico foi guiado pela Data Science Trajectories (DST). Essa abordagem forneceu base para a compreensão do domínio, planejamento das soluções, bem como a identificação de uma taxonomia de métodos capazes de organizar o campo de classificação automática de documentos longos em três vertentes: métodos de trucamento derivados dos baselines (e.g., BumbaBERT, LegalBERT-PT); decomposição-recomposição (e.g., ToBERT) e de síntese de conteúdo a partir de estratégias de seleção de sentenças (e.g., TextRank, LexRank, SBERT, LlaMa). A partir dessa estrutura, procedeu-se à experimentação empírica e à validação estatística. Sendo assim, o estudo envolveu a implementação e a comparação de oito arquiteturas baseadas no ajuste fino do BumbaBERT, totalizando 40 experimentos que consideraram métricas de desempenho como acurácia, F1-score, precisão e revocação; indicadores de eficiência computacional como tempo, inferência e uso de memória; testes de significância estatística; e a viabilidade prática de implementação. Os resultados demonstraram que arquiteturas hierárquicas superam abordagens baseadas na síntese de conteúdo, alcançando um melhor equilíbrio entre precisão e estabilidade, ainda que com maior custo computacional. Tal constatação reforça a importância de preservar a estrutura argumentativa integral de textos jurídicos para garantir a consistência interpretativa e a confiabilidade das classificações automáticas. Assim, o trabalho contribui, em termos científicos, para o avanço do processamento de linguagem natural no domínio jurídico, ao demonstrar como estratégias já consolidadas podem ser reinterpretadas e ajustadas para atender às especificidades linguísticas e estruturais dos textos jurídicos brasileiros. Do ponto de vista tecnológico e institucional, o estudo oferece um artefato reprodutível, passível de integração ao sistema de automação do TJMA, contribuindo para a redução do tempo de tramitação processual e para o fortalecimento de políticas de transformação digital no setor público. Por fim, em dimensão social, reafirma-se o papel da transformação digital como instrumento de democratização do acesso à justiça, promovendo uma inovação que alia precisão técnica, responsabilidade ética e compromisso com o interesse público.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Campus São Luis Centro de Ciências Tecnológicas – CCT	pt_BR
dc.publisher.program	PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO E SISTEMAS - PECS	pt_BR
dc.publisher.initials	UEMA	pt_BR
dc.subject.cnpq	Ciência da Computação	pt_BR
dc.subject.cnpq	Metodologia e Técnicas da Computação	pt_BR
Aparece nas coleções:	Mestrado Profissional em Engenharia da Computação e Sistemas - CCT - Dissertações

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
DISSERTAÇÃO - GABRIELE DE SOUSA ARAÚJO - PECS CCT UEMA 2025.pdf	PDF/A	3.45 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas

UEMA Repositório

O UEMA Repositório preserva e provê acesso fácil e aberto a todos os tipos de objetos digitais, incluindo: textos, imagens, vídeos e conjuntos de dados.