Autor Uirá Caiado | Orientador Alessandro Marques
fonte
Adapte Q-learning para estados contínuos. MDPs esperam estados e ações discretas.
Composto por 2 livros de ofertas e outras restrições
São apresentados a cada passo de tempo
Escolhe ações discretas entre:
Vai recebendo ao longo do episódio
Aprende usando Q-Learning com tile coding
| Variável | Descrição |
|---|---|
| order flow imbalance escalado (10 seg) | |
| queue imbalance do contrato | |
| Posição do agente no tempo |
|
| Tamanho escalado da fila da Compra | |
| Volatilidade de curto prazo (10 min) | |
| bid-ask spread no tempo |
|
| Preço relativo médio (10 min) |
Treine diferentes configurações usando a mesma base, 50 vezes cada. Compare a estabilidade das curvas de recompensa
Treine a forma final do agente usando 10 pregões seguidos, 10 vezes cada, totalizando 100 episódios de treinamento
Teste política aprendida nos 4 pregões subsequentes e compare com os resultados de um agente aleatório
Repita o teste. Desloque o início da operação em até 30 minutos e o de atualização, em até 2
| Componente do Modelo | |
|---|---|
| Representação de estado | |
| Função de recompensa | OFI + P&L |
| Taxa de aprendizado | 0.5 |
| Decaimento de exploração | linear |
| Taxa de desconto | 0.5 |
Superou benchmark estatísticamente
Não convergiu para políticas lucrativas com configuração atual
Restrições podem ter afetado resultado dos agentes