Use este identificador para citar ou linkar para este item:
https://repositorio.uema.br/jspui/handle/123456789/3753
Título: | Estratégias de aprendizado por esforço para controle ótimo online de manipuladores robóticos |
Título(s) alternativo(s): | Effortful learning strategies for optimal online control of robotic manipulators |
Autor(es): | Sousa, Joelson Miller Bezerra de |
Orientador: | Rêgo, Patrícia Helena Moraes |
Membro da Banca: | Amaral, Henrique Mariano Costa do |
Membro da Banca: | Silva, Vilemar Gomes da |
Data do documento: | 2022-10-27 |
Editor: | Universidade Estadual do Maranhão |
Resumo: | As imprecisões e incertezas nos parâmetros de um manipulador robótico, tais como variações na carga de trabalho, medidas imprecisas da massa e/ou inércia dos elos, folgas ou atritos desconhecidos nas engrenagens, entre outras, afetam, muitas vezes de forma significativa, o desempenho do manipulador, ocasionando erros de regime e de seguimento de trajetória. Controladores adaptativos apresentam-se como uma boa alternativa para esses sistemas, pois possuem como principal característica a capacidade de aprenderem online usando estimação de parâmetros em tempo real. No entanto, controladores adaptativos geralmente não são projetados com a qualidade de serem ótimos no sentido de minimizarem funções de custo, conforme definido no contexto de controle ótimo, e, desta forma, não são viáveis para aplicações onde o uso de estratégias ótimas de controle é requerido. Neste trabalho, propõe-se uma abordagem unificada de controle adaptativo e controle ótimo que tem por base conceitos e métodos de aprendizado por reforço, tendo em vista o desenvolvimento de algoritmos para o projeto de sistemas de controle ótimo online com aplicações em controle de manipuladores robóticos. Uma estrutura paramétrica é utilizada para aproximar a função valor a fim de contornar o problema da maldição da dimensionalidade. A estimação desses parâmetros será realizada através do estimador dos Mínimos Quadrados Recursivos (Recursive Least Squares - RLS) a cada passo de tempo. Já em relação a política de controle, duas abordagens serão implementadas na etapa de atualização: a melhoria de política aproximada, em que uma representação via aproximadores de funções é utilizada, e a melhoria de política exata, onde as ações de controle são calculadas exatamente através da função valor. A principal vantagem da metodologia de controle proposta é que, para sua implementação, não é necessária nenhuma informação prévia dos parâmetros do manipulador, somente as medições dos estados e do sinal de controle são usadas. A avaliação dos esquemas de controle é feita em um modelo robótico UR10 do simulador V-REP para as tarefas de regulação, rastreamento e variações na carga de trabalho |
Resumo: | The inaccuracies and uncertainties in the parameters of a robot manipulator, such as payload variations, inaccurate measurements of the mass and/or inertia of the links, unknown backlash or friction in gears, among others, can significantly affect the robot performance, causing steady-state and trajectory following errors. Adaptive controllers are a suitable alternative for these systems since their main feature is the capability to learn online using real-time parameter estimation. Nevertheless, adaptive controllers are not usually designed to be optimal in the sense of minimizing cost functions as defined in the optimal control context, and thus, are not suitable to applications in which the use of optimal control strategies is required. In this work, an unified approach of adaptive control and optimal control based on concepts and methods of reinforcement learning is proposed aiming at the development of algorithms for the design of online optimal control systems with applications in robotic manipulator control. A parametric structure is used to approximate the value function in order to avoid the curse of dimensionality problem. The estimation of these parameters will be performed through the Recursive Least Squares (RLS) estimator at each time step. With respect to the control policy, two approaches will be implemented in the updating step: approximate policy improvement, where a representation by function approximators is used, and exact policy improvement, where control actions are calculated exactly through the value function. The main advantage of the proposed control methodology is that no prior information of the manipulator parameters is needed for its implementation, only the measurements of the states and the control signal are used. The evaluation of the control schemes is carried out in a UR10 robotic model on V-REP simulator for the regulation and tracking tasks, and payload variations |
Palavras-chave: | Aprendizado por Reforço Manipuladores Robóticos Controle Ótimo Controle Adaptativo Reinforcement Learning Robot Manipulator Optimal Control Adaptive Control |
Aparece nas coleções: | Mestrado Profissional em Engenharia da Computação e Sistemas - CCT - Dissertações |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
DISSERTAÇÃO - JOELSON MILLER BEZERRA DE SOUSA - PECS CCT UEMA 2022.pdf | PDF A | 1.73 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.