Autor Uirá Caiado | Orientador Alessandro Marques
fonte
Adapte Q-learning para estados contínuos. MDPs esperam estados e ações discretas.
Composto por 2 livros de ofertas e outras restrições
São apresentados a cada passo de tempo
Escolhe ações discretas entre:
Vai recebendo ao longo do episódio
Aprende usando Q-Learning com tile coding
Variável | Descrição |
---|---|
order flow imbalance escalado (10 seg) | |
queue imbalance do contrato | |
Posição do agente no tempo |
|
Tamanho escalado da fila da Compra | |
Volatilidade de curto prazo (10 min) | |
bid-ask spread no tempo |
|
Preço relativo médio (10 min) |
Treine diferentes configurações usando a mesma base, 50 vezes cada. Compare a estabilidade das curvas de recompensa
Treine a forma final do agente usando 10 pregões seguidos, 10 vezes cada, totalizando 100 episódios de treinamento
Teste política aprendida nos 4 pregões subsequentes e compare com os resultados de um agente aleatório
Repita o teste. Desloque o início da operação em até 30 minutos e o de atualização, em até 2
Componente do Modelo | |
---|---|
Representação de estado | |
Função de recompensa | OFI + P&L |
Taxa de aprendizado | 0.5 |
Decaimento de exploração | linear |
Taxa de desconto | 0.5 |
Superou benchmark estatísticamente
Não convergiu para políticas lucrativas com configuração atual
Restrições podem ter afetado resultado dos agentes