Use este identificador para citar ou linkar para este item: https://repositorio.uema.br/jspui/handle/123456789/2471
Título: Aplicação de técnicas de aprendizagem de máquina com seleção de variáveis na previsão de receitas públicas de capitais brasileiras: estudo de caso das receitas transferidas de São Luís.
Autor(es): Pimentel, Cláudia Patrícia Silva
Orientador: Jacob Junior, Antônio Fernando Lavareda
Membro da Banca: Cortes, Omar Andres Carmona
Membro da Banca: Lobato, Fábio Manoel França
Membro da Banca: Marcacini, Ricardo Marcondes
Data do documento: 2023-02-10
Editor: Universidade Estadual do Maranhão
Resumo: Considera-se a previsão de receitas de grande relevância para os tomadores de decisão, bem como para o planejamento. Quando se trata do campo de aplicação prática, voltado para o Setor Público, no que tange a esfera municipal, observam-se distorções entre os valores orçados e previsto, mesmo aplicando as regras previstas na legislação vigente. A questão tem sido investigada por pesquisadores com uma trajetória de avanços de métodos de regressão estatísticos e as aplicações de técnicas de aprendizagem de máquina, mas a problemática das divergências das previsões continua e a legislação exige justificativas. Neste contexto, faz-se necessário investigar se os efeitos preço e quantidade podem ser identificados por técnicas de aprendizagem de máquina e os erros de previsão das receitas poderiam ser mitigados se as variáveis fossem usadas pelo regime de competência do ingresso de recursos. Neste sentido, esta pesquisa tem o objetivo de realizar um estudo de caso, com os dados de São Luís, para escolher as variáveis que atendam as prerrogativas legais, adotando a metodologia CRISP-DM, por meio da comparação da lista de importância de algoritmos ensembles, Random Forests, Gradient Boosting e XGBoost, com um modelo combinado das abordagens de filtro com wrapper, submetendo-os aos mesmos algoritmos para escolher as variáveis com menores métricas de avaliação dentro de uma sequência de menores erros das receitas transferidas. No documento foram relatadas, como um comparativo de execução, as etapas e tarefas do CRISPDM em sua primeira iteração, utilizando os dados dos Portais da Transparência, no período de 2010 a 2021. Nos resultados, comparou-se dois conjuntos de dados, um com todos os repasses, incluindo os valores extraordinários e outro com apena as cotas oficiais. O Modelo Combinado obteve, na maioria dos resultados, as melhores métricas, especialmente, nos repasses extraordinários, corroborando com o estado da arte que já consagra esta abordagem, mas a aplicação do teste de Friedman não descartou a hipótese nula, pois as métricas dos dois conjuntos não apresentaram diferenças significativas. Na modelagem a RNN foi complexa obteve a melhor métrica, todavia, com exceção dos recursos da Mineração, a diferença dos valores foi melhor em outros algoritmos e o teste de Fridman também não teve diferenças significativas. Como resposta a questão de pesquisa foi possível identificar com clareza o efeito quantidade nos dois conjuntos de dados, mas o do preço não foi tão evidente nos resultados, aparecendo mais quando se testou apenas as cotas oficiais.
Resumo: Revenue forecasting is considered of great relevance for decision makers, as well as for planning. When it comes to the field of practical application, aimed at the Public Sector, regarding the municipal sphere, distortions are observed between the budgeted and predicted values, even applying the rules provided for in current legislation. The issue has been investigated by researchers with a history of advances in statistical regression methods and the application of machine learning techniques, but the problem of forecast divergences continues and legislation requires justification. In this context, it is necessary to investigate whether the price and quantity effects can be identified by machine learning techniques and whether revenue forecasting errors could be mitigated if the variables were used on an accrual basis for the inflow of resources. In this sense, this research aims to carry out a case study, with data from São Luís, to choose the variables that meet the legal prerogatives, adopting the CRISP- DM methodology, by comparing the list of importance of ensembles algorithms , Random Forests, Gradient Boosting and XGBoost, with a combined model of the wrapper filter approaches, submitting them to the same algorithms to choose the variables with the lowest evaluation metrics within a sequence of lowest errors of the transferred recipes. The document reports, as an execution comparison, the steps and tasks of the CRISP-DM in its first iteration, using data from the Transparency Portals, in the period from 2010 to 2021. In the results, two sets of data were compared, one with all transfers, including extraordinary amounts and another with only official quotas. The Combined Model obtained, in most of the results, the best metrics, especially in the extraordinary transfers, corroborating with the state of the art that already enshrines this approach, but the application of the Friedman test did not discard the null hypothesis, since the metrics of the two sets showed no significant differences. In the modeling, the RNN was complex and obtained the best metric, however, with the exception of the Mining resources, the difference in values was better in other algorithms and the Fridman test also did not have significant differences. As an answer to the research question, it was possible to clearly identify the quantity effect in both sets of data, but the price effect was not so evident in the results, appearing more when only the official quotas were tested.
Palavras-chave: Previsão de receitas públicas
Transferências constitucionais e legais
Aprendizagem de máquina
Seleção de variáveis
CRISP-DM
Receitas públicas
Estudo de caso
São Luís - MA - transferências de receitas
Métodos de previsão de receitas
Public revenue
Constitutional and legal transfers
Machine learning
Deep learning
Metodologia CRISP-DM
Lista de importância de algoritmos
Modelagem RNN
Algoritmo ensembles
Algoritmo Random Forests
Algoritmo Gradient Boosting
Algoritmo XGBoost
Case study – machine learning
Aparece nas coleções:Mestrado Profissional em Engenharia da Computação e Sistemas - CCT - Dissertações

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
DISSERTAÇÃO - CLÁUDIA PATRÍCIA SILVA PIMENTEL - PDF A _1.pdf13.28 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.