Use este identificador para citar ou linkar para este item: https://repositorio.uema.br/jspui/handle/123456789/3399
Título: Representações Embeddings Orientadas à Linguagem jurídica Brasileira
Título(s) alternativo(s): Embedding Representations Oriented to Brazilian Legal Language
Autor(es): Carmo, Fabrício Almeida do
Orientador: Lobato, Fábio Manoel França
Membro da Banca: Jacob Junior, Antonio Fernando Lavareda
Membro da Banca: Sampaio, Cláuldio Henrique Carneiro
Membro da Banca: Marcacini, Ricardo Marcondes
Data do documento: 2024-02-26
Editor: Universidade Estadual do Maranhão
Resumo: O processamento automático de textos jurídicos dispostos em linguagem natural viabiliza a construção de uma gama de aplicações baseadas em inteligência artificial para o setor, tais como: a classificação e agrupamento de processos por assunto, sumarização de documentos, tradução para linguagem cidadã, entre outros. Nesse sentido, o judiciário brasileiro lançou o programa Justiça 4.0 buscando incentivar o desenvolvimento de soluções que ofereçam celeridade nas atividades processuais. Destaca-se que a linguagem técnica é predominante nesse domínio de aplicação, exigindo modelos especializados para o segmento. Frente ao exposto, esse trabalho tem como objetivo a construção de modelos embeddings orientados ao âmbito jurídico visando alimentar aplicações na área. Para isso, foram extraídos aproximadamente 5,3 milhões de documentos de instituições de justiça do Brasil das mais variadas esferas como civil, criminal e trabalhista. Os modelos foram avaliados por meio da classificação de petições iniciais e os resultados obtidos se mostraram promissores quando comparados a modelos generalistas da língua portuguesa. Tais achados de pesquisa demostram que modelos treinados com documentos jurídicos compreendem melhor as especificidades da linguagem do segmento e têm o potencial de fomentar novas aplicações para o setor
Resumo: The automatic processing of legal texts arranged in natural language makes it possible to build a range of applications based on artificial intelligence, such as classification and grouping of processes by subject, document summarization, and translation into citizen language. In this sense, the Brazilian judiciary launched the Justice 4.0 program, looking to encourage the development of solutions that offer speed in procedural activities. Notably, technical language is predominant in this application domain, requiring specialized models for the segment. Bearing in mind this context, this work aims to build models embeddings oriented to the legal sphere with a view to feeding applications in the area. In this sense, approximately 5.3 million documents were extracted from Brazilian justice institutions from the most varied spheres, such as civil, criminal, and labor. The models were evaluated by classifying initial petitions, and the results obtained were promising when compared to generalist models of the Portuguese language. Such research findings demonstrate that models trained with legal documents better understand the segment’s language’s specificities and can potentially promote new applications for the sector
Palavras-chave: Justiça 4.0
Processamento de Linguagem Natural
Word embeddings
Ciência de dados
Petições Iniciais
Modelos Word2Vec
Modelo FastText
BERT
Acordo de Cooperação Técnica
Justice 4.0
Natural Language Processing
Word embeddings
Data Science
Legal Domain
Word2Vec Models
FastText Model
BERT
Technical Cooperation Agreement
Aparece nas coleções:Mestrado Profissional em Engenharia da Computação e Sistemas - CCT - Dissertações

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
DISSERTAÇÃO - FABRÍCIO ALMEIDA DO CARMO - PECS CCT UEMA 2024.pdfPDF A1.8 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.