Derivação de modelos de HFT em juros

usando aprendizado por reforço

Autor Uirá Caiado | Orientador Alessandro Marques

Sumário

  1. Motivação
  2. Estudos relacionados
  3. Modelo
  4. Metodologia
  5. Resultados
  6. Conclusão

Como se constrói uma estratégia HFT?

  • Tática no gerenciamento das ofertas
  • Difícil de desenvolver e difícil de testar
  • Experiência em trading faz diferença

Sem experiência ? Reinforcement Learning

Image Description

subárea de Machine Learning

Image Description

Aprende por tentativa e erro

Image Description

framework

O que foi feito

Aplicações de RL ao mercado

  • Chan e Shelton derivam uma estratégia de market making usando books de ofertas artificiais
  • Kearns e Nevmyvaka criam uma estratégia de VWAP, utilizando dados reais.
  • Spooner reconstrói o book de ofertas para desenvolver uma estratégia de market making. Permite única oferta e faz para um ativo por vez.

Como RL se diferencia de outras técnicas

Não tem supervisor
Apenas um sinal escalar que indica se aquele passo de tempo foi bom ou ruim

O tempo importa
Resolve problemas de decisão em sequência, os dados não precisam ser i.i.d.

Feedback não é imediato
Ele pode acontecer muitos passos depois
Tem consequência de longo prazo
As ações do agente influenciam as informações que recebe no futuro

Dinâmica do Modelo

"agent-environment loop"
fonte OpenAi

Política: S \rightarrow A

Estime o futuroppppppppp

Estime quando vai ganhar se continuar agindo da mesma maneira

Estime o erro

Use o que recebeu agora e quanto estimou antes para calcular por quanto errou

Corrija hipótese e repita

Corrija seu entendimento sobre o ambiente. Vai usar isso da próxima vez

Generalize com Tile Coding

Adapte Q-learning para estados contínuos. MDPs esperam estados e ações discretas.

RL \leftarrow Mercado

Image Description

Ambiente

Composto por 2 livros de ofertas e
outras restrições

Image Description

Estados

São apresentados
a cada passo de tempo

Image Description

Agente

Escolhe ações discretas entre: None, best\_bid, best\_ask, best\_both

Image Description

Recompensa

Vai recebendo ao longo
do episódio

Image Description

Política

Aprende usando
Q-Learning com tile coding

Estados

Variável Descrição
OFI_t order flow imbalance escalado (10 seg)
I_t queue imbalance do contrato
\Pi_t Posição do agente no tempo t
BS_t Tamanho escalado da fila da Compra
HL_t Volatilidade de curto prazo (10 min)
\Delta_t bid-ask spread no tempo t
\bar{\delta}^{x}_t Preço relativo médio (10 min)

Recompensa

P&L
  • Outros papers já usaram com algum sucesso
  • Agente precisa estar posicionado
OFI + P&L
  • Premia "boa" gestão de ofertas
  • Premia por resultado financeiro desta gestão

Order flow Imbalance
Premia/pune por:
  1. apregoar do lado "certo"
  2. indecisão, dependendo do book
  3. por não apregoar, quando zerado
  4. por não apregoar, quando posicionado

Outras Restrições

  1. Agredir mercado repetidamente
    Solução: Excluir ordens a mercado e adotar stops compulsórios
  2. Mudança de ação antes de consequências
    Solução: Frequência de atualização

Para criar e testar a política

Especificação final

Componente do Modelo
Representação de estado \Pi_t, OFI_t, I^{c}_{t}, I^{l}_{t}, \Delta^{l}_{t}, \delta^{x}_t
Função de recompensa OFI + P&L
Taxa de aprendizado 0.5
Decaimento de exploração linear
Taxa de desconto 0.5

Recompensa no treinamento

P&L no teste

Conclusão

Resultado

Superou benchmark estatísticamente

Limitação

Não convergiu para políticas lucrativas com configuração atual

Consideração

Restrições podem ter afetado resultado dos agentes

Trabalhos futuros

  • Ordens a mercado poderiam ser permitidas
  • Função de reward com feedback humano
  • Utilizar RL em conjunto com modelos Quant

Obrigado !

Referências