A Integração de Técnicas de Aprendizado por Reforço e Simulação
Por: Vothan Salomão • 7/11/2023 • Ensaio • 1.853 Palavras (8 Páginas) • 54 Visualizações
[pic 1]
[pic 2]
UNIVERSIDADE ESTADUAL DE CAMPINAS
FACULDADE DE CIÊNCIAS APLICADAS
Vothan Salomão Dos Santos
Otimização da operação de abastecimento de linhas de produção |e Processos Industriais através da Integração de Técnicas de Aprendizado por Reforço e Simulação: Um Estudo com o Proximal Policy Optimization (PPO) no Ambiente FlexSim
Limeira 2023
Vothan Salomão Dos Santos
Otimização da operação de abastecimento de linhas de produção e Processos Industriais através da Integração de Técnicas de Aprendizado por Reforço e Simulação: Um Estudo com o Proximal Policy Optimization (PPO) no Ambiente FlexSim
Trabalho de Conclusão de Curso apresentado à Faculdade de Ciências Aplicadas da Univer- sidade Estadual de Campinas como parte dos requisitos exigidos para a obtenção do título de bacharel em Engenharia de Produção/En- genharia de Manufatura.
:
Este exemplar corresponde à versão final do Trabalho de Conclusão de Curso apresentado por Vothan Salomão Dos Santos, orientado por Profa. Dra. Anibal Tavares de Azevedo
Limeira 2023
Informações adicionais, complementares
Palavras-chave em inglês:
Machine Learning
ReinforcementLearg
Simulation
Titulação: Bacharel em Engenharia de Produção e Engenharia de Manufatura
Banca examinadora:
Anibal tavares de Azevedo
Data de entrega do trabalho definitivo: ----
Resumo
O presente projeto de Trabalho de Conclusão de Curso (TCC) tem como objetivo explorar a aplicação do algoritmo de Aprendizado por Reforço PPO (Proximal Policy Optimization) para otimizar o desempenho de Veículos Autônomos de Guiagem (AGVs, do inglês Automated Guided Vehicles) em ambientes de simulação utilizando o software Flexsim.
Os AGVs têm se tornado uma tecnologia fundamental em sistemas de produção automatizados, desempenhando um papel crucial no transporte de materiais e produtos dentro de instalações industriais, centros de distribuição e armazéns. A otimização das rotas e comportamentos dos AGVs pode resultar em melhorias significativas na eficiência operacional e na redução dos custos de produção.
O algoritmo PPO é uma técnica de aprendizado por reforço que permite treinar agentes (no caso, os AGVs) para tomar decisões autônomas com base em recompensas e penalizações obtidas durante a execução de tarefas. Neste projeto, utilizaremos o Flexsim, uma plataforma de simulação amplamente reconhecida, para criar um ambiente de simulação que represente um cenário realista de operações com AGVs.
Os principais passos deste projeto incluem:
Modelagem do ambiente no Flexsim: Desenvolveremos um ambiente de simulação que represente as características do sistema real onde os AGVs operam. Isso incluirá a criação de layouts, definição de tarefas, configuração de recursos e a introdução de parâmetros relevantes.
Implementação do algoritmo PPO: Adaptaremos o algoritmo PPO para o contexto de controle de AGVs. Isso envolve a definição de ações possíveis, observações de estado e a função de recompensa que orientará o aprendizado dos agentes.
Treinamento e Avaliação: Os AGVs serão submetidos a treinamento, onde aprenderão a tomar decisões autônomas para otimizar seu desempenho. Avaliaremos o desempenho dos agentes em termos de eficiência, tempo de resposta, utilização de recursos e outros indicadores relevantes.
Análise de Resultados: Os resultados obtidos serão analisados em profundidade para avaliar a eficácia do algoritmo PPO na otimização das operações dos AGVs. Compararemos o desempenho antes e depois da aplicação do aprendizado por reforço.
Conclusões e Recomendações: Com base nos resultados da pesquisa, concluiremos o projeto com uma análise crítica e forneceremos recomendações para melhorias futuras na utilização de AGVs em sistemas de produção.
Este projeto visa contribuir para o avanço da aplicação de técnicas de aprendizado por reforço em sistemas industriais, especificamente na otimização de AGVs. Esperamos que os resultados obtidos possam ser aplicados em cenários reais para melhorar a eficiência operacional e reduzir os custos logísticos das empresas que utilizam essa tecnologia.
Palavras-chave: Aprendizado por Reforço, Proximal Policy Optimization, AGVs, Flexsim, Otimização, Simulação, Automação Industrial.
Abstract
This undergraduate thesis project aims to explore the application of the Proximal Policy Optimization (PPO) reinforcement learning algorithm to optimize the performance of Automated Guided Vehicles (AGVs) in simulation environments using the Flexsim software.
AGVs have become a fundamental technology in automated production systems, playing a crucial role in material and product transportation within industrial facilities, distribution centers, and warehouses. Optimizing AGV routes and behaviors can result in significant improvements in operational efficiency and reduced production costs.
The PPO algorithm is a reinforcement learning technique that enables agents (in this case, AGVs) to make autonomous decisions based on rewards and penalties obtained during task execution. In this project, we will use Flexsim, a widely recognized simulation platform, to create a simulation environment representing a realistic scenario of AGV operations.
The key steps of this project include:
Modeling the Environment in Flexsim: We will develop a simulation environment that represents the characteristics of the real-world system where AGVs operate. This will include creating layouts, defining tasks, configuring resources, and introducing relevant parameters.
...