Derivação de modelos de HFT em juros

usando aprendizado por reforço

Autor Uirá Caiado | Orientador Alessandro Marques

Sumário

Motivação
Estudos relacionados
Modelo
Metodologia
Resultados
Conclusão

Como se constrói uma estratégia HFT?

Tática no gerenciamento das ofertas
Difícil de desenvolver e difícil de testar
Experiência em trading faz diferença

Sem experiência ? Reinforcement Learning

subárea de Machine Learning

Aprende por tentativa e erro

framework

O que foi feito

Aplicações de RL ao mercado

Chan e Shelton derivam uma estratégia de market making usando books de ofertas artificiais
Kearns e Nevmyvaka criam uma estratégia de VWAP, utilizando dados reais.
Spooner reconstrói o book de ofertas para desenvolver uma estratégia de market making. Permite única oferta e faz para um ativo por vez.

Como RL se diferencia de outras técnicas

Não tem supervisor

Apenas um sinal escalar que indica se aquele passo de tempo foi bom ou ruim

O tempo importa

Resolve problemas de decisão em sequência, os dados não precisam ser i.i.d.

Feedback não é imediato

Ele pode acontecer muitos passos depois

Tem consequência de longo prazo

As ações do agente influenciam as informações que recebe no futuro

Dinâmica do Modelo

"agent-environment loop"
fonte OpenAi

Política: S \rightarrow A

Estime o futuroppppppppp

Estime quando vai ganhar se continuar agindo da mesma maneira

Estime o erro

Use o que recebeu agora e quanto estimou antes para calcular por quanto errou

Corrija hipótese e repita

Corrija seu entendimento sobre o ambiente. Vai usar isso da próxima vez

Generalize com Tile Coding

Adapte Q-learning para estados contínuos. MDPs esperam estados e ações discretas.

RL \leftarrow Mercado

Ambiente

Composto por 2 livros de ofertas e
outras restrições

Estados

São apresentados
a cada passo de tempo

Agente

Escolhe ações discretas entre: None, best\_bid, best\_ask, best\_both

Recompensa

Vai recebendo ao longo
do episódio

Política

Aprende usando
Q-Learning com tile coding

Estados

Variável	Descrição
OFI_t	order flow imbalance escalado (10 seg)
I_t	queue imbalance do contrato
\Pi_t	Posição do agente no tempo t
BS_t	Tamanho escalado da fila da Compra
HL_t	Volatilidade de curto prazo (10 min)
\Delta_t	bid-ask spread no tempo t
\bar{\delta}^{x}_t	Preço relativo médio (10 min)

Recompensa

P&L

Outros papers já usaram com algum sucesso
Agente precisa estar posicionado

OFI + P&L

Premia "boa" gestão de ofertas
Premia por resultado financeiro desta gestão

Order flow Imbalance

Premia/pune por:

apregoar do lado "certo"
indecisão, dependendo do book
por não apregoar, quando zerado
por não apregoar, quando posicionado

Outras Restrições

Agredir mercado repetidamente
Solução: Excluir ordens a mercado e adotar stops compulsórios
Mudança de ação antes de consequências
Solução: Frequência de atualização

Para criar e testar a política

Forma final

Treine diferentes configurações usando a mesma base, 50 vezes cada. Compare a estabilidade das curvas de recompensa

Treinamento

Treine a forma final do agente usando 10 pregões seguidos, 10 vezes cada, totalizando 100 episódios de treinamento

Teste

Teste política aprendida nos 4 pregões subsequentes e compare com os resultados de um agente aleatório

Comparação

Repita o teste. Desloque o início da operação em até 30 minutos e o de atualização, em até 2 \mus. Realize teste de hipótese com resultado

Especificação final

Componente do Modelo
Representação de estado	\Pi_t, OFI_t, I^{c}_{t}, I^{l}_{t}, \Delta^{l}_{t}, \delta^{x}_t
Função de recompensa	OFI + P&L
Taxa de aprendizado	0.5
Decaimento de exploração	linear
Taxa de desconto	0.5

Derivação de modelos de HFT em juros

usando aprendizado por reforço

Sumário

Como se constrói uma estratégia HFT?

Sem experiência ? Reinforcement Learning

subárea de Machine Learning

Aprende por tentativa e erro

framework

O que foi feito

Aplicações de RL ao mercado

Como RL se diferencia de outras técnicas

Dinâmica do Modelo

Política: S \rightarrow A

Estime o futuroppppppppp

Estime o erro

Corrija hipótese e repita

Generalize com Tile Coding

RL \leftarrow Mercado

Ambiente

Estados

Agente

Recompensa

Política

Estados

Recompensa

Outras Restrições

Para criar e testar a política

Especificação final

Recompensa no treinamento

P&L no teste

Conclusão

Resultado

Limitação

Consideração

Trabalhos futuros

Obrigado !

Referências