Use este identificador para citar ou linkar para este item: https://repositorio.uema.br/jspui/handle/123456789/6236
Registro completo de metadados
Campo DCValorIdioma
dc.creatorAraújo, Gabriele de Sousa-
dc.date.accessioned2026-07-01T17:53:37Z-
dc.date.available2026-07-01-
dc.date.available2026-07-01T17:53:37Z-
dc.date.issued2025-11-12-
dc.identifier.citationARAÚJO, Gabriele de Sousa. Processamento de documentos jurídicos longos: comparação e avaliação de métodos baseados em modelos de linguagem. 2025. 164 f. Dissertação (Mestrado Profissional em Engenharia de Computação e Sistemas) - Centro de Ciências e Tecnologias, Universidade Estadual do Maranhão, São Luís, 2025. Disponível em: https://repositorio.uema.br/jspui/handle/123456789/6236.pt_BR
dc.identifier.urihttps://repositorio.uema.br/jspui/handle/123456789/6236-
dc.description.abstractThe Brazilian legal system faces a structural scenario of accumulating lawsuits, which compromises its efficiency and adherence to the constitutional principle of a reasonable trial duration. As of August 2024, the number of pending cases exceeded 80 million, according to data from the Judiciary's National Database. This substantial volume of litigation directly impacts the speed and effectiveness of judicial service delivery, necessitating the development of technological tools capable of supporting the management, screening, and comprehension of legal documents—documents whose length and complexity challenge traditional human and automated analysis workflows. In this context, understanding how advanced text processing techniques can contribute to streamlining judicial activity lies at the heart of this dissertation. Existing applications in the field, such as BumbaBERT, show promising results for optimizing procedural workflows but remain constrained by the structural limitations of their underlying Transformer architecture, particularly due to high computational complexity. To address this issue, this dissertation project proposes and evaluates a set of strategies aimed at the efficient processing of long documents, using initial complaints linked to Incidents for the Resolution of Repetitive Demands (IRDR) as a case study. Building on gaps identified in the literature and the practical motivation stemming from the UEMA-TJMA technical cooperation agreement—specifically regarding the difficulty of adapting language models to extensive legal texts—the methodological process was guided by the Data Science Trajectories (DST) framework. This approach provided a foundation for understanding the domain and planning solutions, as well as for identifying a taxonomy of methods capable of organizing the field of automatic long-document classification into three categories: truncation methods derived from baselines (e.g., BumbaBERT, LegalBERT-PT); ...decomposition-recomposition (e.g., ToBERT) and content synthesis based on sentence selection strategies (e.g., TextRank, LexRank, SBERT, LlaMa). Based on this framework, empirical experimentation and statistical validation were conducted. Consequently, the study involved implementing and comparing eight architectures based on fine-tuning BumbaBERT—totaling 40 experiments—that considered performance metrics such as accuracy, F1-score, precision, and recall; computational efficiency indicators such as time, inference speed, and memory usage; statistical significance tests; and practical implementation feasibility. The results demonstrated that hierarchical architectures outperform content synthesis-based approaches, achieving a better balance between precision and stability, albeit at a higher computational cost. This finding reinforces the importance of preserving the integral argumentative structure of legal texts to ensure interpretive consistency and the reliability of automated classifications. Thus, the work contributes scientifically to the advancement of natural language processing in the legal domain by demonstrating how established strategies can be reinterpreted and adapted to address the linguistic and structural specificities of Brazilian legal texts. From a technological and institutional perspective, the study offers a reproducible artifact capable of integration into the TJMA’s automation system, thereby contributing to reduced case processing times and the strengthening of digital transformation policies in the public sector. Finally, regarding the social dimension, the study reaffirms the role of digital transformation as a tool for democratizing access to justice, fostering innovation that combines technical precision, ethical responsibility, and a commitment to the public interest.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Estadual do Maranhãopt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectDocumentos jurídicos longospt_BR
dc.subjectModelos de Linguagempt_BR
dc.subjectJustiça 4.0pt_BR
dc.subjectInteligência Artificialpt_BR
dc.subjectLong legal documentspt_BR
dc.subjectLanguage Modelspt_BR
dc.subjectArtificial Intelligencept_BR
dc.titleProcessamento de documentos jurídicos longos: comparação e avaliação de métodos baseados em Modelos de Linguagempt_BR
dc.title.alternativeProcessing long legal documents: comparison and evaluation of methods based on Language Modelspt_BR
dc.typeDissertaçãopt_BR
dc.creator.IDhttps://orcid.org/0000-0003-1143-507Xpt_BR
dc.creator.Latteshttp://lattes.cnpq.br/2201818644935012pt_BR
dc.contributor.advisor1Lobato, Fábio Manoel França-
dc.contributor.advisor1IDhttps://orcid.org/0000-0002-6282-0368pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8320014491229434pt_BR
dc.contributor.advisor-co1Santana, Ewaldo Eder Carvalho-
dc.contributor.advisor-co1IDhttps://orcid.org/0000-0002-8894-5353pt_BR
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/0660692009750374pt_BR
dc.contributor.referee1Santos, Davi Viana dos-
dc.contributor.referee1IDhttps://orcid.org/0000-0003-0470-549Xpt_BR
dc.contributor.referee1Latteshttp://lattes.cnpq.br/9297257833779277pt_BR
dc.contributor.referee2Marcacini, Ricardo Marcondes-
dc.contributor.referee2IDhttps://orcid.org/0000-0002-2309-3487pt_BR
dc.contributor.referee2Latteshttp://lattes.cnpq.br/3272611282260295pt_BR
dc.description.resumoO sistema jurídico brasileiro enfrenta um cenário estrutural de acúmulo de demandas judiciais, o que compromete sua eficiência e o cumprimento do princípio constitucional da razoável duração do processo. Em agosto de 2024, o número de ações em tramitação ultrapassou 80 milhões, segundo dados da Base Nacional de Dados do Poder Judiciário. Esse volume expressivo de litígios afeta diretamente a celeridade e efetividade da prestação jurisdicional, demandando o desenvolvimento de instrumentos tecnológicos capazes de apoiar a gestão, triagem e compreensão de documentos legais, cuja extensão e complexidade desafiam as rotinas tradicionais de análise humana e automatizada. Nesse cenário, compreender como técnicas avançadas de processamento de texto podem contribuir para a racionalização da atividade jurisdicional constitui o cerne desta dissertação. Aplicações já existentes no domínio, como o BumbaBERT, apresentam resultados promissores para a otimização do fluxo processual, porém ainda limitadas pelas restrições estruturais da arquitetura Transformer que as compõe, sobretudo em razão de sua alta complexidade computacional. Visando contornar essa problemática, o presente projeto de dissertação propõe e avalia um conjunto de estratégias direcionadas ao processamento eficiente de documentos longos, tomando como estudo de caso as petições iniciais vinculadas a Incidentes de Resolução de Demandas Repetitivas (IRDR). Partindo das lacunas identificadas na literatura e da motivação prática advinda do acordo de cooperação técnica UEMA-TJMA no que tange à diĄculdade de adaptação de modelos linguísticos a textos jurídicos extensos, o processo metodológico foi guiado pela Data Science Trajectories (DST). Essa abordagem forneceu base para a compreensão do domínio, planejamento das soluções, bem como a identificação de uma taxonomia de métodos capazes de organizar o campo de classificação automática de documentos longos em três vertentes: métodos de trucamento derivados dos baselines (e.g., BumbaBERT, LegalBERT-PT); decomposição-recomposição (e.g., ToBERT) e de síntese de conteúdo a partir de estratégias de seleção de sentenças (e.g., TextRank, LexRank, SBERT, LlaMa). A partir dessa estrutura, procedeu-se à experimentação empírica e à validação estatística. Sendo assim, o estudo envolveu a implementação e a comparação de oito arquiteturas baseadas no ajuste fino do BumbaBERT, totalizando 40 experimentos que consideraram métricas de desempenho como acurácia, F1-score, precisão e revocação; indicadores de eficiência computacional como tempo, inferência e uso de memória; testes de significância estatística; e a viabilidade prática de implementação. Os resultados demonstraram que arquiteturas hierárquicas superam abordagens baseadas na síntese de conteúdo, alcançando um melhor equilíbrio entre precisão e estabilidade, ainda que com maior custo computacional. Tal constatação reforça a importância de preservar a estrutura argumentativa integral de textos jurídicos para garantir a consistência interpretativa e a confiabilidade das classificações automáticas. Assim, o trabalho contribui, em termos científicos, para o avanço do processamento de linguagem natural no domínio jurídico, ao demonstrar como estratégias já consolidadas podem ser reinterpretadas e ajustadas para atender às especificidades linguísticas e estruturais dos textos jurídicos brasileiros. Do ponto de vista tecnológico e institucional, o estudo oferece um artefato reprodutível, passível de integração ao sistema de automação do TJMA, contribuindo para a redução do tempo de tramitação processual e para o fortalecimento de políticas de transformação digital no setor público. Por fim, em dimensão social, reafirma-se o papel da transformação digital como instrumento de democratização do acesso à justiça, promovendo uma inovação que alia precisão técnica, responsabilidade ética e compromisso com o interesse público.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentCampus São Luis Centro de Ciências Tecnológicas – CCTpt_BR
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO E SISTEMAS - PECSpt_BR
dc.publisher.initialsUEMApt_BR
dc.subject.cnpqCiência da Computaçãopt_BR
dc.subject.cnpqMetodologia e Técnicas da Computaçãopt_BR
Aparece nas coleções:Mestrado Profissional em Engenharia da Computação e Sistemas - CCT - Dissertações

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
DISSERTAÇÃO - GABRIELE DE SOUSA ARAÚJO - PECS CCT UEMA 2025.pdfPDF/A3.45 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.