Previsão de séries temporais financeiras por meio de máquinas de suporte vetorial e ondaletas.

June 15, 2017 | Autor: P. Albuquerque | Categoria: Finance, Machine Learning, Support Vector Machines
Share Embed


Descrição do Produto

UNIVERSIDADE DE SÃO PAULO INSTITUTO DE MATEMÁTICA E ESTATÍSTICA PROGRAMA DE PÓS-DOUTORADO DA UNIVERSIDADE DE SÃO PAULO.

PEDRO HENRIQUE MELO ALBUQUERQUE

PREVISÃO DE SÉRIES TEMPORAIS FINANCEIRAS POR MEIO DE MÁQUINAS DE SUPORTE VETORIAL E ONDALETAS.

São Paulo 2014

PEDRO HENRIQUE MELO ALBUQUERQUE

PREVISÃO DE SÉRIES TEMPORAIS FINANCEIRAS POR MEIO DE MÁQUINAS DE SUPORTE VETORIAL E ONDALETAS.

Relatório final apresentado à Comissão de Pesquisa do Instituto de Matemática e Estatística da Universidade de São Paulo como requisito para obtenção do título de Pós-Doutor em Estatística.

São Paulo 2014

PEDRO HENRIQUE MELO ALBUQUERQUE

PREVISÃO DE SÉRIES TEMPORAIS FINANCEIRAS POR MEIO DE MÁQUINAS DE SUPORTE VETORIAL E ONDALETAS.

Relatório final apresentado à Comissão de Pesquisa do Instituto de Matemática e Estatística da Universidade de São Paulo como requisito para obtenção do título de Pós-Doutor em Estatística.

Área de concentração: Econometria Financeira Supervisor:

Prof. Dr. Pedro Alberto Morettin

São Paulo 2014

FICHA CATALOGRÁFICA

Albuquerque, Pedro Henrique Melo PREVISÃO DE SÉRIES TEMPORAIS FINANCEIRAS POR MEIO DE MÁQUINAS DE SUPORTE VETORIAL E ONDALETAS. / . – São Paulo, 2014. 56 p. Relatório (Pós-Doutorado) — Programa de Pós-Graduação em Estatística. 1. Máquinas de Suporte Vetorial. 2. Ondaletas. I. Albuquerque, Pedro Henrique Melo II. Universidade de São Paulo. Programa de Pós-Graduação em Estatística. II. Título.

RESUMO

O estudo e utilização de Séries Temporais Financeiras é considerada desafiadora, pois são séries permeadas de ruídos, não-estacionariedade e presença de um caos determinístico. Nesse sentido, o presente relatório de estágio pós-doutoral revisou, avaliou e implementou Máquinas de Suporte Vetorial para núcleos via ondaletas simétricas, a saber: Ondaleta de Morlet e Chapéu Mexicano, com o intuito de mensurar a acurácia na previsibilidade de retornos financeiros. A abordagem aqui apresentada, desenvolvida e implementada é inovadora e inédita por ter sido aplicada em um contexto nacional, por utilizar núcleos que até o momento da finalização desse relatório não estavam disponíveis aos usuários de softwares estatísticos, por construir uma revisão teórica completa e exaustiva do uso das Máquinas de Suporte Vetorial em finanças e por utilizar as Séries Temporais Financeiras no contexto da previsibilidade de retornos. Ademais, nesse trabalho o contexto de análise e avaliação dos núcleos via Ondaletas foi expandido, pois além de comparar esses núcleos com o núcleo Gaussiano, comparou-se ainda com outros núcleos popularmente utilizados, quais sejam: Núcleo Linear , Fourier, Tangente Hiperbólica, Quadrático Racional, Multi-Quadrático ,Circular e Esférico. Conclui-se após análise empírica que para todos os núcleos avaliados, exceto pelo núcleo Gaussiano, os núcleos via ondaletas de Morlet e Chapéu Mexicano apresentaram resultados estatisticamente significantes para a qualidade da previsibilidade dos retornos financeiros estudados no que tange ao Teste de Diebold e Mariano (2002) e medida de acurácia dada pelo Erro-Quadrático Médio, achado esse concordante com os textos de Zhang, Zhou e Jiao (2004), Yang e Wang (2008) e Wei (2012). O relatório é finalizado apresentado-se propostas de trabalhos futuros e as limitações da análise aqui desenvolvida.

LISTA DE FIGURAS

2.1 Separação por máxima margem linear. . . . . . . . . . . . . . . . . . . . . . .

14

2.2 Separação por máxima margem linear na presença de folgas. . . . . . . . . . .

18

4.1 Representação gráfica da função de perda Lε . . . . . . . . . . . . . . . . . . .

26

4.2 Representação gráfica da função de regressão linear.

. . . . . . . . . . . . . .

26

4.3 Representação gráfica da função de regressão não linear. . . . . . . . . . . . .

27

LISTA DE TABELAS

8.1 Resultados do teste de Diebold e Mariano (2002).

. . . . . . . . . . . . . . . .

48

8.2 Resultados do Erro-Quadrático Médio (EQM) para os valores preditos. . . . . . .

49

LISTA DE ABREVIATURAS

AG Algorítimo Genético. DJ Dow Jones Industrial Average Index. GARCH Generalized Autoregressive Conditional Heteroskedasticity. HSI Hang Sang Index. KOSPI Korea Stock Exchange Kospi Index. KKT Karush-Kuhn-Tucker. MSV Máquinas de Suporte Vetorial. NSE National Stock Exchange. NYSE New York Stock Exchange. SH Shanghai Composite Index. SVM Support Vector Machine. SVR Support Vector Regression. SSVR Smooth Support Vector Regression. WSVM Wavelet Support Vector Machine.

SUMÁRIO

1 Introdução.

11

1.1 Proposta de pesquisa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2 Máquinas de Suporte Vetorial.

12

14

2.1 Máquinas de Suporte Vetorial com folgas. . . . . . . . . . . . . . . . . . . . . .

3 Referencial Teórico para o SVM.

18

20

3.1 Máquinas de Suporte Vetorial em Finanças. . . . . . . . . . . . . . . . . . . . .

20

3.1.1 Formação de portfólios usando SVM. . . . . . . . . . . . . . . . . . . .

20

3.1.2 Previsão da direção do Mercado usando SVM. . . . . . . . . . . . . . .

22

4 Máquinas de Suporte para Regressão.

25

4.1 Support Vector Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5 Referencial Teórico para o SVR.

30

5.1 Referencial Teórico para o SVR em Finanças. . . . . . . . . . . . . . . . . . . . 5.1.1 Formação de portfólios usando SVR.

25

30

. . . . . . . . . . . . . . . . . . .

30

5.1.2 Previsão do Retorno de Ativos Usando SVR. . . . . . . . . . . . . . . .

31

5.1.3 Previsão da Volatilidade de Ativos usando SVR. . . . . . . . . . . . . . .

36

6 Fatos Estilizados em Séries Temporais Financeiras.

38

7 Núcleos nas Máquinas de Suporte Vetorial.

40

7.1 Ondaletas e SVM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.1 Referencial Teórico sobre Ondaletas e SVM.

. . . . . . . . . . . . . . .

42 43

8 Máquinas de Suporte Vetorial com base em Ondaletas.

46

9 Conclusão.

50

Referências Bibliográficas

53

11

1

INTRODUÇÃO.

A previsibilidade em Séries Temporais Financeiras é desafiadora como apontado por AbuMostafa e Atiya (1996), pois são séries permeadas de ruídos, não estacionariedade e presença de um caos determinístico. A presença de um alto grau de ruído na série refere-se à indisponibilidade de informações completas sobre o comportamento passado dos mercados financeiros, que poderiam auxiliar na modelagem da dependência entre os preços futuros e passados, assim, considera-se como ruído a informação que não está incluída no modelo, podendo ser determinística ou estocástica. Já a característica de não estacionariedade da série implica que a distribuição conjunta da série se altera ao longo do tempo, finalmente, o caos determinístico é entendido como a presença de aleatoriedade em um curto prazo mas um padrão determinístico a longo prazo. Desta forma, o presente relatório de estágio pós-doutoral tem como objetivo apresentar como esses desafios que permeiam a modelagem de Séries Temporais Financeiras podem ser, até certo ponto, superados por meio do uso das Máquinas de Suporte Vetorial e Ondaletas. A Teoria do Aprendizado Estatístico foi o campo no qual as Máquinas de Suporte Vetorial foram desenvolvidas, e a maioria dos métodos de Teoria do Aprendizado Estatístico (incluindo as Máquinas de Suporte Vetorial) seguem um princípio de Inferência Indutiva apresentado por Hume (2000) mas definido e formalizado por Wolpert (1996). Nessa abordagem, os dados são estudados a procura de um “padrão” que possa explicar determinado evento. Dessa forma, para que a abordagem seja considerada válida é necessário que a Hipótese da Aprendizagem Indutiva seja satisfeita. Essa hipótese é anunciada da seguinte forma (HAMEL, 2011): Hipótese da Aprendizagem Indutiva. Uma função estimada com o objetivo de aproximar uma determinada função alvo responsável pela geração dos dados obtidos no evento de interesse, para um conjunto suficientemente grande de dados, também irá estimar adequadamente exemplos não observados do evento. Nesse contexto, com o intuito de reconstruir o processo gerador dos dados por meio de uma amostra observada surgem as Máquinas de Suporte Vetorial. As Máquinas de Suporte

12

Vetorial (Support Vector Machine - SVM) foram desenvolvidas por Vapnik (2000) com o intuito de reconhecer padrões em um conjunto de dados. Por meio desse reconhecimento é possível realizar um processo de inferência indutiva, o qual seria capaz de realizar previsões para um conjunto de dados observados posteriormente a estimação dos parâmetros do modelo. Em Séries Temporais Financeiras há evidências de que os dados observados sejam oriundos de um Processo Dinâmico (SEWELL, 2011), o que explicaria a estrutura caótica frequentemente aparente nas Séries Temporais Financeiras. Dessa forma, segundo Takens (1981) para sistemas dinâmicos de um certo tipo, a reconstrução do espaço de fase e a estrutura interna não observada do sistema são topologicamente idênticas, caso a embedding dimension seja grande o suficiente. Em outras palavras, sobre condições de regularidade1 , caso as Séries Temporais Financeiras sejam oriundas de Processo Dinâmico então o processo gerador dos dados pode ser reconstruído. De fato, a abordagem proposta por Vapnik (2000) é centrada na minimização simultânea do erro de classificação empírico e na maximização da margem geométrica, também denominada de Estimadores de Máxima Margem (TASKAR et al., 2004). O SVM aplica então o Princípio da Minimização do Risco Estrutural, o qual procura minimizar o limite superior do erro de generalização, em vez de minimizar apenas o erro do processo de estimação.

1.1

Proposta de pesquisa.

Tay e Cao (2001) afirmam que a qualidade da previsão em Séries Temporais Financeiras está estritamente associada a escolha do núcleo utilizado nas Máquinas de Suporte Vetorial. Essa afirmativa fica clara quando observa-se que o núcleo utilizado é o responsável pela formação da dependência entre as variáveis independentes e variável dependente. Portanto, o presente relatório de estágio pós-doutoral tem como objetivo avaliar o grau de acurácia para o núcleo das Máquinas de Suporte Vetorial construído por meio de Ondaletas no contexto de previsão de Séries Temporais Financeiras. Mais especificamente, nesse relatório será apresentada uma derivação das Máquinas de Suporte Vetorial para o contexto de Regressão e Séries Temporais denominada Support Vector Regression - SVR. Essas Séries Temporais Financeiras podem ser modeladas por meio do SVR, e este é composto basicamente por uma função núcleo. As características dos núcleos que compõem o SVR 1 Ruping e Morik (2003) ressalta que o Teorema de Takens (1981) não é válido para Sistemas Dinâmicos descritos por equações diferenciais, assim, na prática não há como saber se o processo gerador dos dados pode ou não ser formado por um sistema de equações diferenciais.

13

no contexto de Séries Temporais Financeiras são estudadas bem como a utilização de Ondaletas na composição e construção do núcleo K, com o intuito de incorporar os principais fatos estilizados das Séries Temporais Financeiras e então avaliar a capacidade de previsibilidade dessas séries, objetivo principal desse trabalho. É importante ressaltar que o Princípio da Minimização do Risco Estrutural da Teoria do Aprendizado Estatístico, no qual as Máquina de Suporte Vetorial foram baseadas, foi formulado sobre a suposição de que os dados observados para o evento de interesse são independentes e identicamente distribuídos (RUPING; MORIK, 2003), suposição essa claramente não satisfeita no contexto de Séries Temporais Financeiras. Todavia, Fender (2004) demonstra que a maioria dos teoremas centrais envolvidos na minimização do risco estrutural permanecem válidos para dados dependentes desde que possuam uma estrutura de dependência fraca (RUPING; MORIK, 2003). Segundo Ferreira (2011), apesar dessa restrição na validade das Máquinas de Suporte Vetorial diversos trabalhos publicados utilizando as Máquinas de Suporte Vetorial em séries temporais apresentaram bons resultados, justificando assim a utilização dessa abordagem em Séries Temporais Financeiras. Nesse relatório o Capítulo 2 apresenta o desenvolvimento do SVM clássico seguido pelo Capítulo 3, o qual apresenta uma revisão na literatura de Econometria Financeira sobre as Máquinas de Suporte Vetorial com o intuito de contextualizar o leitor no ramo da aplicação dos métodos de Teoria do Aprendizado Estatístico em finanças, bem como demonstrar a aplicabilidade das Máquinas de Suporte Vetorial nesse campo de pesquisa. O Capítulo 4 apresentará o Support Vector Regression, sua construção e processo de estimação. Complementando esse capítulo, o Capítulo 5 demonstrará como o SVR pode ser utilizado no contexto de Séries Temporais Financeiras, por meio de uma revisão na literatura. A proposta de avaliação do núcleo por meio de Ondaletas é realizada posteriormente aos Capítulos 6, 7 concomitando na seção sobre Ondaletas, os quais discutem respectivamente: principais Fatos Estilizados das Séries Temporais Financeiras, condições necessárias e suficientes para que um núcleo seja considerado admissível. No capítulo 8 é apresentado a proposta de pesquisa a qual utiliza Máquinas de Suporte Vetorial com base em Ondaletas simétricas com o objetivo de incrementar a previsão de retornos financeiros quando comparados com os núcleos tradicionais, nesse mesmo capítulo é apresentada uma aplicação da avaliação aqui proposta e desenvolvida e o Capítulo 9 conclui esse relatório de pesquisa apresentando as limitações desse trabalho, recomendações e ainda propostas de estudos futuros.

14

2

MÁQUINAS DE SUPORTE VETORIAL.

O modelo mais simples das Máquinas de Suporte Vetorial é o modelo de classificação linear dicotômica1 , no qual, tem-se como objetivo encontrar uma função de decisão na forma:

 f (x) = sinal wT x − γ

(2.1)

onde x é um vetor de dimensão p × 1 representando o vetor de observações arbitrárias com p variáveis, w é o vetor de parâmetros também de dimensão p × 1 e γ é um parâmetro escalar denominado termo de viés. A estimação por máxima margem, consiste em determinar w e γ de modo que as observações “positivas” fiquem o mais separadas possível das observações “negativas”. Graficamente tem-se na Figura 2.1: Figura 2.1: Separação por máxima margem linear.

Fonte: Elaboração do autor. 1

Existem diversas modificações sugeridas pela literatura para o SVM, entretanto, Steinwart (2002) discute que a proposta do SVM clássico (apesentada nesse trabalho) é universalmente consistente segundo determinadas condições, justificando assim a omissão dos outros métodos de SVM desse capítulo.

15

na qual observa-se a separação linear para as observações de um conjunto de duas variáveis, uma vez que os dados são separados por meio dois segmentos de retas, e ς representa a máxima margem que separaria os dois conjuntos de dados. A formulação do problema de separação linear é iniciada considerando como insumos para estimação uma matriz X de dimensão n × p, onde cada linha dessa matriz representa uma observação coletada de uma população alvo, e cada coluna uma variável dessa população. Ademais, considera-se para fins de estimação uma vetor y de dimensão n×1 contendo somente dois tipos de valores: +1 ou −1 representando o grupo no qual a observação se encontra. Assim, no caso linear desejamos resolver o seguinte problema de programação matemática:

Maximize:

ς=

2 kwk

Sujeito a

(2.2)

D (Xw − γ1) ≥ 1 w ∈ R p , γ ∈ R.

para

onde 1 é um vetor unitário de dimensão n × 1 e D = diag(y). Sem perda de generalidade, o problema descrito em (2.2) pode ser escrito na forma:

Minimize:

ς∗ = 12 wT w

Sujeito a

D (Xw − γ1) ≥ 1

(2.3)

w ∈ R p , γ ∈ R,

para

o qual torna-se um problema de programação quadrática. Todavia, o caso de separação linear é apenas um caso particular e deseja-se no entanto uma formulação capaz de lidar com problemas que possuam não-linearidade. Considere então ao invés de um vetor x de dados, uma aplicação na forma:

x

→ φ(x)

Rp

7→ Rq

(2.4)

16

tal que q >> p. Dessa forma, o problema de separação não linear pode ser escrito como:

Minimize:

ς∗ = 12 wT w

Sujeito a

D (Φw − γ1) ≥ 1

(2.5)

w ∈ Rq , γ ∈ R,

para onde:



φ(x1 )T



  φ(x )T   2  Φ= .   ..    φ(xn )T

(2.6)

é uma matriz de dimensão n × q, nesse caso o vetor w possui como dimensão q × 1. Mais conveniente é resolver a forma dual de Wolfe (1961) do problema (2.6). O primeiro passo para se obter a forma dual de Wolfe (1961) é encontrar a função Lagrangeana do problema (2.5), em outras palavras:

L (w, γ) = 21 wT w − λT [D (Φw − γ1) − 1]

(2.7)

derivando em relação as variáveis de decisão w e γ obtêm-se:

 

∂ T ∂w L (w, γ) = w

− λT DΦ = 0 ⇒ wT = λT DΦ

(2.8)

 ∂ L (w, γ) = λT D1 = 0 ∂γ

Note ainda que λT D1 = 1T Dλ. Assim, substituindo os valores obtidos em (2.8) em (2.5) a forma dual de Wolfe (1961), é obtida:

Maximize:

L = − 21 λT DΦΦT DT λ + 1T λ

Sujeito a

1T Dλ = 0 para

(2.9)

λ ≥ 0.

onde λ é o vetor de multiplicadores de Lagrange de dimensão n × 1, 0 é um vetor de zeros com dimensão n × 1.

17

O vetor de parâmetros w oriundos do problema primal pode ser obtido utilizando-se a seguinte relação em função de λ: wT = λT DΦ, ademais, baseado nas condições de KarushKuhn-Tucker (KKT) nem todo λ será igual a zero. As observações cujo λ seja diferente de zero são denotadas como Suportes Vetoriais e são tangenciadas pela função de decisão

yi = φ(xi )T w − γ, consequentemente o valor de γ é obtido tomando-se alguma observação que seja um Suporte Vetorial e então substituir na expressão yi = φ(xi )T w − γ juntamente com os valores de w. Ademais, como a aplicação φ(xi ) pode ser desconhecida, pode-se utilizar a expressão

wT = λT DΦ em yi = φ(xi )T w − γ a qual resulta em uma forma equivalente da função de decisão, em outras palavras:

yi = φ(xi )T w − γ



yi = φ(xi )T ΦT Dλ − γ ⇒   yi = φ(xi )T φ(x1 ) φ(x2 ) · · · φ(xn ) Dλ − γ ⇒ 

(2.10)

n

yi =

∑ K(xi, x j )y j λ j − γ

j=1

onde, K(xi , x j ) = φ(xi )T φ(x j ) é denominado núcleo (kernel). É interessante ainda notar a forma que a multiplicação de matrizes ΦΦT toma, isso é:



φ(x1 )T φ(x1 )  φ(x )T φ(x ) 1  2

ΦΦT =   

.. .

φ(x1

)T φ(x

2)

···

φ(x2

)T φ(x

2)

···

.. .

···

φ(xn )T φ(x1 ) φ(xn )T φ(x2 ) · · ·

 φ(x1 n)  T φ(x2 ) φ(xn )   ..  .  T φ(xn ) φ(xn ) )T φ(x

(2.11)

. O produto interno φ(xi )T φ(x j ), para i = 1, . . . , n e j = 1, . . . , n pode ser escrito como uma função bivariada na forma de núcleo, tal que K(xi , x j ) = φ(xi )T φ(x j ). Esse núcleo no entanto, deve seguir as condições de Mercer (1909) para que seja considerado um núcleo admissível. O problema (2.9) pode ser escrito em uma forma mais compacta, a qual é também resolvida de maneira mais simples, uma vez que na prática a aplicação x → φ(x) que leva R p 7→ Rq é frequentemente desconhecido. Dessa forma, é mais interessante trabalhar com a matriz K formada pelos elementos

K(xi , x j ) já que a multiplicação de matrizes ΦΦT pode ser computacionalmente extensiva, pois o vetor φ(x) pode possuir, inclusive, possuir dimensão infinita. O problema na sua forma com-

18

pacta é então dado por:

Maximize:

L = − 12 λT DKDT λ + 1T λ

Sujeito a

1T Dλ = 0 λ ≥ 0.

para

2.1

(2.12)

Máquinas de Suporte Vetorial com folgas.

Apesar da formulação (2.12) contemplar boa parte dos casos práticos da utilização das Máquinas de Suporte Vetorial, há casos em que não deseja-se ser “tão estritos”, isto é, permite-se algum erro na classificação com o intuito de construir um modelo mais parcimonioso. Evidentemente, os erros obtidos devem ser penalizados no problema de Programação Matemática utilizado na estimação dos parâmetros. Graficamente, esse fato pode ser representado pela Figura 2.2, na qual os valores são separados por margens lineares, mas com alguns pontos mal classificados. Figura 2.2: Separação por máxima margem linear na presença de folgas.

Fonte: Elaboração do autor.

onde na Figura 2.2, os valores ξl e ξk representariam, respectivamente, as variáveis de folga para as observações l e k. Mais formalmente, pode-se alterar o problema (2.5) adicionando-se

19

variáveis de folga e penalizando-as na função objetivo:

Minimize:

ς∗ = 12 wT w +C1T ξ

Sujeito a

D (Φw − γ1) + ξ ≥ 1

(2.13)

ξ≥0 para

w ∈ Rq , γ ∈ R,

onde o vetor ξ de dimensão n × 1 representa as variáveis de folgas para cada uma das observações contidas nos dados, C é uma constante fixa conhecida que penaliza a soma dos erros, isso é, das classificações errôneas, por meio da quantia 1T ξ . Seguindo os mesmos passos apresentados anteriormente para a construção do dual de Wolfe (1961) tem-se:

L (w, γ, ξ) = 21 wT w +C1T ξ − λT [D (Φw − γ1) + ξ − 1] − µT ξ,

(2.14)

onde λ e ξ são os multiplicadores de Lagrange. Derivando com respeito as variáveis de decisão tem-se:

  ∂  L (w, γ, ξ) = wT − λT DΦ = 0 ⇒ wT = λT DΦ   ∂w  ∂ T ∂γ L (w, γ, ξ) = λ D1 = 0      ∂ L (w, γ, ξ) = C1T − λT − µT = 0. ∂ξ

(2.15)

Note que como, λ ≥ 0 e µ ≥ 0 e também C − λi − µi = 0, para todo i = 1, . . . , n, isso implica que λi = C − µi , e portanto, 0 ≤ λi ≤ C − µi . Usando essa informação e substituindo os valores encontrados em (2.15) no problema (2.13) obtêm-se a forma dual de Wolfe (1961):

Maximize:

L = − 21 λT DKDT λ + 1T λ

Sujeito a

yT λ = 0 para

0 ≤ λ ≤ C1.

(2.16)

20

3

REFERENCIAL TEÓRICO PARA O SVM.

Para compreender como as Máquinas de Suporte Vetorial podem ser utilizadas no contexto de Econometria Financeira, faz-se necessária uma revisão na literatura sobre as principais aplicações desse método em finanças, objetivo do presente capítulo.

3.1

Máquinas de Suporte Vetorial em Finanças.

As aplicações das Máquinas de Suporte Vetorial em Séries Temporais Financeiras podem ser, basicamente, agrupadas em dois segmentos: aplicações na formação de portfólio e previsão da direção do Mercado.

3.1.1

Formação de portfólios usando SVM.

A primeira aplicação direta de SVM em finanças refere-se ao estudo de Fan e Palaniswami (2001) os quais apresentaram uma proposta para a formação de portfólios por meio das Máquinas de Suporte Vetorial. Utilizando dados contábeis e informações sobre os preços das ações das corporações de interesse negociadas na Bolsa de Valores Australiana, os autores formularam uma proposta para a construção de portfólios por meio do SVM, proposta essa que apresentou retornos superiores ao modelo benchmark1 de Mercado, de fato, o portfólio formado utilizando SVM apresentou um retorno total de 208%, enquanto o retorno total do Mercado foi de 71%. Utilizando os relatórios contábeis anuais, Fan e Palaniswami (2001) agruparam as informações em oito categorias financeiras, a saber: retorno sobre o capital, rentabilidade, alavancagem, investimento, crescimento, liquidez de curto prazo, retorno sobre o investimento e risco. Para o conjunto de variáveis que compunham cada uma das categorias Fan e Palaniswami (2001) realizaram uma Análise de Componentes Principais e definiram o primeiro componente 1

O retorno de referência (benchmark) foi determinado pelos autores por meio de uma carteira de investimentos uniformemente ponderada composta por todas as ações disponíveis para a classificação.

21

principal como a variável representativa do grupo de categoria financeira, essa variável foi então armazenada para a formação do portfólio de interesse. A variável dependente foi definida pelos autores como sendo o desempenho das ações, a qual foi classificada como superior (Classe 1) se as ações estiverem acima do terceiro quartil empírico para o retorno dessas, e inferior (Classe 2) para as piores ações, isso é, aquelas que possuíram retorno inferior ao primeiro quartil empírico da distribuição de retornos das corporações da Bolsa de Valores Australiana. Como o número de observações pertencentes a Classe 1 e Classe 2 eram muito diferentes, os autores precederam com uma abordagem de SVM para dados não balanceados. Essa abordagem foi inicialmente proposta por Veropoulos, Campbell e Cristianini (1999) e tem como princípio a modificação do problema dual clássico de SVM apresentado em (2.12), no qual permite-se que “custos” diferenciados possam ser atribuídos as observações da Classe 1 e Classe 2. Matematicamente, tem-se:

Maximize:

L = − 21 λT DKDT λ + 1T λ

Sujeito a

yT λ = 0 para

(3.1)

0 ≤ λ ≤ C+ 1+ e 0 ≤ λ ≤ C− 1− .

onde 1+ é um vetor que recebe valor igual a 1 na i-ésima posição se a i-ésima observação for da Classe 1 (isto é, yi = +1) e zero caso contrário, já o vetor 1− assume valor igual a 1 na

i-ésima posição se a i-ésima observação for da Classe 2 (isto é, yi = −1) e zero caso contrário. As constantes C+ e C− representam, respectivamente os custos de uma classificação errônea para as Classes 1 e 2. Utilizando o Problema de Programação Matemática apresentado em (3.1), Fan e Palaniswami (2001) usaram as informações dos anos de 1992 e 1993 para realizar a estimação dos parâmetros do modelo SVM e o ano de 1994 foi utilizado para se validar o modelo, então enfim, realizar a previsão para o ano de interesse, isso é, o ano de 19952 . Finalmente, utilizando o valor predito da variável dependente estimada após a solução do problema (3.1) foram criados dois grupos: Classe 1, contendo os resultados contidos no terceiro quartil empírico, e Classe 2 com os resultados contidos no primeiro quartil e então um portfólio com ponderação uniforme é construído com base nesses ativos. Outros autores como Yu, Lu e Chang (2008) e Huerta, Corbacho e Elkan (2013) mostram que essa abordagem supera o 2

Os autores utilizaram esse processo para outros anos também. A análise completa de Fan e Palaniswami (2001) utilizou dados para a previsão para os anos de 1995 a 1999

22

Mercado consistentemente, abrindo assim espaço para mais pesquisa sobre esse tema. Ainda no campo de construção de portfólios, Gupta, Mehlawat e Mittal (2012) propõem uma abordagem para construção de carteiras de investimento usando, simultaneamente, SVM e Algoritmos Genéticos. Nessa abordagem, os autores selecionam alguns ativos classificados em três categorias segundo o desempenho destes ativos e o resultado do SVM, em seguida o Algoritmo Genético (AG) é utilizado para se solucionar um problema multi-critério específico para formar a carteira de investimento de interesse (GUPTA; MEHLAWAT; SAXENA, 2008). Quatro covariáveis foram utilizadas pelos autores para a análise, a saber: retorno de curto prazo; retorno de longo prazo; liquidez e risco para o período de 36 meses. As observações analisadas compunham o índice indiano de mercado denominado National Stock Exchange (NSE). A abordagem híbrida proposta apresentou um desempenho 91.66% na acurácia de classificação dos ativos para a formação de portfólios, o que consequentemente leva a um bom desempenho no retorno esperado pela carteira de investimentos construída. Mais recentemente, uma abordagem similar ao texto seminal de Fan e Palaniswami (2001) é a proposta de Huerta, Corbacho e Elkan (2013). Os autores propõem uma abordagem mensal diferentemente de Fan e Palaniswami (2001) os quais seguem uma abordagem anual para a construção das carteiras de investimento. Huerta, Corbacho e Elkan (2013) utilizam as ações classificadas com o maior posto para posições de longo prazo na carteira e as de ranking mais baixos para vendas a curto prazo. O período de análise utilizado pelos autores compreende os anos de 1981 a 2010 cujos indicadores de liquidez, volume e preço foram utilizados como covariáveis. Especificamente, os autores aplicam filtros específicos para dois desses indicadores com o intuito de aumentar o grau de acurácia do modelo. Essas transformações para os indicadores de liquidez e volume foram respectivamente os filtros de Khandani e Lo (2011) (baseado em Kyle (1985)), Média Móvel Exponencial para multiplicação do retorno pelo volume no mesmo período. Para esses três grupos de indicadores foram construídos indicadores fundamentalistas e técnicos para a construção da carteira de investimento. Os autores então concluem que a abordagem proposta (para o conjunto de dados estudados) forneceu um retorno anual de 15% com volatilidade de aproximadamente 8% para a carteira formada.

3.1.2

Previsão da direção do Mercado usando SVM.

Emir, Dinçer e Mehpare (2012) utilizaram indicadores técnicos e financeiros para formar portfólios por meio das 10 “melhores” empresas classificadas pelo SVM, no Mercado turco de ações. De fato, os autores definiram como população de estudo todas as ações que compunham o Índice Istanbul Stock Exchange (ISE) para o período de 2002 a 2010. A variável

23

dependente binária foi definida como assumindo +1 para os 10 ativos com maior retorno anual e −1 caso contrário. A inovação do trabalho de Emir, Dinçer e Mehpare (2012) sobre os demais trabalhos citados nesse texto está no fato de que os autores incorporaram em sua análise, simultaneamente, indicadores financeiros técnicos e fundamentalistas. Os autores comparam o SVM com as Redes Neuronais em quatro cenários: somente indicadores técnicos; indicadores fundamentalistas; indicadores técnicos e fundamentalistas e seleção específica de indicadores para a análise como o método proposto por Rodriguez-Lujan et al. (2010). O SVM apresentou superioridade na acurácia de previsão para a maioria das comparações realizadas, além do mais, o núcleo que apresentou o melhor desempenho foi o núcleo Gaussiano para o SVM. Emir, Dinçer e Mehpare (2012) reforçam o indicativo da potencialidade do SVM na previsão financeira, motivando assim a investigação mais aprofundada desse modelo no contexto financeiro. Outra possibilidade de abordagem envolve a previsão da “direção” dos preços de ativos. Kim (2003) compara a utilização das Redes Neuronais via back-propagation versus as Máquinas de Suporte Vetorial e relata a superioridade das SVM sobre as Redes Neuronais. Os dados utilizados por Kim (2003) eram 12 indicadores técnicos que foram utilizados como variáveis independentes na previsão da direção da mudança dos preços das ações que compunham o Índice de Mercado da Coreia (KOSPI). As classes utilizadas pelo autor foram Classe 1, as observações cujo preço do KOSPI no dia posterior era superior ao dia inferior, e a Classe 2 no qual a observação apresentava para o dia posterior uma queda no preço comparada com o dia anterior. Os dados utilizados foram observações diárias dos preços do KOSPI juntamente com os 12 indicadores técnicos para o período de Janeiro 1989 à Dezembro 1998. 80% das observações foram utilizadas para a estimação dos parâmetros, enquanto as 20% superiores foram utilizadas para a validação do modelo, ademais, para fins de estabilidades, o autor padronizou todos os dados em uma escala de (−1, 1). Para os dados de validação, o SVM apesentou um grau de acerto de aproximadamente 57.83%, enquanto a rede neuronal back-propagation apesentou um percentual de acerto de 54.73%. Similar ao estudo de Kim (2003), Zhang e Zhao (2010) também estudaram a “direção” dos preços, mas ao invés de utilizar o mercado de ações, os autores estudaram o mercado de câmbio. Especificamente, Zhang e Zhao (2010) trabalharam com os dados históricos dos preços do câmbio euro/dólar oriundos do sistema Bloomberg. O intervalo de dados utilizado foi de 10 de julho de 2007 a 9 de julho de 2009 incluindo um total de 523 dias. Em seguida, Zhang e Zhao (2010) escolheram nove variáveis para representar a direção dos preços no qual, tem-se Classe 1 (isto é, yi = +1), quando houve um aumento no preço e zero caso contrário e Classe 2, quando houve uma queda no preço (isto é, yi = −1) e zero caso contrário 3 . Todas as nove 3

Zhang e Zhao (2010) definiram que um retorno inferior a 0.5% deveria ser considerado como ausência de

24

variáveis foram defasadas em quatro períodos para permitir a previsão da direção do preço. Nesse caso, quando o valor da função de decisão obtida pelo SVM com núcleo gaussiano fosse absolutamente diferente de 0.1 então a previsão era realizada, caso contrário não deveria se utilizar o valor para realizar a previsão da direção do preço. Quando o critério de previsibilidade utilizado para a função de decisão foi de 0.1, o percentual de acerto para a direção do preço obtido pelos autores foi de 63.2%. Entretanto, quando aumentou-se o rigor e trabalhou-se com um patamar de 0.5, o percentual de acerto subiu para 69% na previsão de 50 dias a frente. É claro que quanto maior o nível escolhido para realizar a previsão, menor a capacidade do analista de realizar a previsão, pois menos pontos se enquadrariam nesse nível. Zhang e Zhao (2010) concluem que o SVM é uma ferramenta capaz de realizar previsões em séries antes consideradas “imprevisíveis”.

mudança, nesse caso, essas observações foram removidas da análise.

25

4

MÁQUINAS DE SUPORTE PARA REGRESSÃO.

4.1

Support Vector Regression.

Uma variação do SVM no contexto de regressão é o que é denominado por Support Vector Regression (SVR) desenvolvido por Drucker et al. (1997). Nesse contexto, o problema básico de regressão é encontrar uma função a qual aproxima determinado conjunto de dados. Nesse caso, deseja-se encontrar uma função f (x) que aproxima um determinado vetor y a menos de um erro de previsão ε especificado. Uma decisão fundamental nesse problema é determinar o grau de “perda”, isso é realizado por meio de uma função de perda, por exemplo, aceitar-se-ia uma diferença igual a

|yi − f (xi )| ≤ ε, mas a medida que esse valor se afasta do erro permissível ε, há a atribuição de uma penalização numérica para o modelo. Em outras palavras, a função perda clássica utilizada no SVR é dada por:

 0 ,se|yi − f (xi )| ≤ ε Lε [yi , f (xi )] = |y − f (x )| − ε ,caso contrário. i

i

Graficamente essa função pode ser esboçada pela Figura 4.1:

(4.1)

26

Figura 4.1: Representação gráfica da função de perda Lε .

Fonte: Elaboração do autor.

Além de considerar a função perda, o SVR minimiza simultaneamente o recíproco da margem, isso é, wT w. Assim como no caso do SVM, permitimos a inclusão de variáveis de folga como apresentado na Figura 4.2: Figura 4.2: Representação gráfica da função de regressão linear.

Fonte: Elaboração do autor.

No caso não linear a representação gráfica seria algo como a Figura 4.3:

27

Figura 4.3: Representação gráfica da função de regressão não linear.

Fonte: Elaboração do autor.

O problema primal para o SVR clássico com vetores de erros (ξ, ξ ∗ ) (variáveis de folga) é dado por:

Minimize:

L = 12 wT w +C1T ξ +C1T ξ∗

Sujeito a

φ(xi )T w − yi ≤ ε + ξi , para i = 1, . . . , n

(4.2)

yi − φ(xi )T w − yi ≤ ε + ξ∗i , para i = 1, . . . , n com

ξi ≥ 0, ξ∗i ≥ 0, para i = 1, . . . , n,

onde no problema de Programação Matemática, φ(xi ) é uma aplicação na forma:

x

→ φ(x)

R p 7→ Rq ,

(4.3)

tal que q >> p. O problema (4.2) ainda pode ser escrito como:

Minimize:

ς∗ = 21 wT w +C1T ξ +C1T ξ ∗

Sujeito a

φ(xi )T w − ξi ≤ ε + yi , para i = 1, . . . , n φ(xi )T w + ξ∗i ≥ yi − ε, para i = 1, . . . , n com

ξi ≥ 0, ξ∗i ≥ 0, para i = 1, . . . , n.

(4.4)

28

o qual, em sua forma matricial assume a forma apresentada em (4.5):

Minimize:

ς∗ = 12 wT w +C1T ξ +C1T ξ ∗

Sujeito a

−Φ(x)w + ξ ≥ −ε1 − y

(4.5)

+Φ(x)w + ξ ∗ ≥ −ε1 + y para

ξ ≥ 0, ξ ∗ ≥ 0.

Note que a matriz Φ de dimensão n × q possui a mesma representação apresentada em (2.6). Colocando na forma Lagrangeana, tem-se:

L (w, ξ, ξ∗ ) =

1 T T T ∗ T 2 w w +C 1 ξ + 1 ξ − λ [−Φ(x)w + ξ + ε1 + y] −λ∗T [+Φ(x)w + ξ ∗ + ε1 − y] − µT ξ − µ∗T ξ ∗





(4.6)

onde os vetores µ, µ∗ , λ e λ∗ são os Multiplicadores de Lagrange para cada um dos quatro grupos de restrições. Derivando com respeito as variáveis de decisão, tem-se:

   ∂ ∗ ) = wT − λT Φ − λ∗T Φ = 0 ⇒ wT = λ∗T − λT Φ  L (w, ξ, ξ    ∂w ∂ ∗ T T T ∂ξ L (w, ξ, ξ ) = C1 − λ − µ = 0      ∂ ∗ L (w, ξ, ξ ∗ ) = C1T − λ∗T − µ∗T = 0 ∂ξ

(4.7)

Substituindo os valores encontrados em (4.7) na equação (4.6), obtêm-se o seguinte problema de Programação Matemática:

Maximize:

L ∗ (λ, λ∗ ) = − 12 λ∗T − λT ΦΦT − ε λT 1 + λ∗T 1 + λ∗T − λT y 





(4.8)

Sujeito a

0 ≤ λ, λ∗ ≤ C1. onde ΦΦT possui a mesma representação apresentada em (2.11) a qual é igual a matriz de núcleo K composta pelos elementos K(xi , x j ) = φ(xi )T φ(x j ) para i = 1, . . . , n e j = 1, . . . , n. Note ainda que a restrição apresentada vem do fato que C1T − λT − µT = 0, C1T − λ∗T −

µ∗T = 0 e µ ≥ 0, µ∗ ≥ 0. A função de regressão estimada é dada então por f (xi ) = φ(xi )T w, como w = ΦT (λ − λ),

29

temos:

f (xi ) = φ(xi )T w ⇒ f (xi ) = φ(xi )T ΦT (λ∗ − λ) ⇒   f (xi ) = φ(xi )T φ(x1 ) φ(x2 ) · · · φ(xn ) (λ∗ − λ) ⇒ n  f (xi ) = ∑ φ(xi )T φ(x j ) λ∗j − λ j ⇒ j=1 n

f (xi ) =

∑ K(xi, x j )

λ∗j − λ j

(4.9)



j=1

Ademais, de maneira similar é possível ainda trabalhar com um termo de viés na função de regressão na forma f (xi ) = φ(xi )T w − γ, procedendo com os mesmos passos realizados anteriormente.

30

5

REFERENCIAL TEÓRICO PARA O SVR.

Nesse capítulo é apesentado o referencial teórico para o SVR no contexto de Séries Temporais Financeiras. A abordagem para estimação de volatilidades, bem como seu algoritmo de construção também são apresentados.

5.1

Referencial Teórico para o SVR em Finanças.

Similarmente ao SVM, as aplicações do SVR em Séries Temporais Financeiras podem ser agrupados em três segmentos: aplicações na formação de portfólio, previsão do retorno de ativos e previsão da volatilidade de ativos.

5.1.1

Formação de portfólios usando SVR.

Recentemente, Huang (2012) propôs um método híbrido envolvendo o SVR e Algoritmos Genéticos para a seleção ótima de ativos para formar uma carteira de investimentos (portfólio). O princípio é o mesmo apresentado por Huang e Wang (2006) mas possibilitando a variação das covariáveis inseridas no modelo via Algorítimo Genético (AG) e otimização dos parâmetros do SVR também via AG. A proposta de Huang (2012) pode ser inicialmente sumarizada pelos seguintes passos, para cada ativo disponível:

1. Faça t = 1. 2. Usando as covariáveis disponíveis e os parâmetros do modelo SVR estimados até o tempo t , encontre o valor predito para o retorno do ativo para o tempo t + 1. 3. Escolha m ações com o maior valor predito para o tempo t + 1, forme o portfólio e avalie o retorno obtido. 4. Faça t = t + 1 e repita os passos 2 e 3 até que a série temporal termine.

31

Huang (2012) no entanto, indica que a qualidade do modelo estimado via SVM (ou SVR) depende fortemente das covariáveis utilizadas e dos parâmetros estimados para o modelo SVR. Dessa forma, o autor propôs a utilização de um Algorítimo Genético para selecionar as covariáveis adequadas bem como o valor ótimo para os parâmetros. Assim, o modelo SVR com Algorítimo Genético proposto pelo autor pode ser representado pelos seguintes passos:

1. Faça t = 1. 2. Estime os parâmetros do modelo SVR e as covariáveis via AG usando os dados disponíveis até o tempo t , e então, encontre o valor predito para o retorno do ativo para o tempo

t + 1. 3. Escolha m ações com o maior valor predito para o tempo t + 1, forme o portfólio e avalie o retorno obtido. 4. Faça t = t + 1 e repita os passos 2 e 3 até que a série temporal termine.

Com base nessa estrutura e utilizando os dados padronizados entre o intervalo [-1,+1], realizou-se a comparação dos portfólios formados via SVR puro, SVR com escolha dos parâmetros e covariáveis via AG, bem como outras duas modificações do SVR com AG. Especificamente, o autor utilizou as 200 maiores empresas na Bolsa de Valores de Taiwan como o universo de investimento para o período de 1996 a 2010 e dados contábeis como insumos para estimação da previsão do retorno via SVR. Huang (2012) mostrou que quando se utilizou o SVR puro obteve-se um retorno acumulado de aproximadamente 275% (para carteira com 20 ativos) e aproximadamente 350% combinando SVR e Algorítimo Genético (para uma carteira com 10 ativos), já o benchmark teve seu maior retorno acumulado igual a 175%.

5.1.2

Previsão do Retorno de Ativos Usando SVR.

Tay e Cao (2001) são os precursores do uso do Support Vector Regression (SVR) em finanças. Especificamente, os autores comparam a acurácia do SVR em relação ao modelo nãoparamétrico de Redes Neuronais, utilizando para isso um conjunto de dados, a saber: título do governo americano com vencimento em 30 anos (CBOT-US), título da dívida pública americana com vencimento em 10 anos (CBOT-BO), título público alemão com vencimento em 10 anos (EUREX-Bund) e índices de ações futuras do governo francês (MATIF-CAC40). Os autores utilizaram para as 5 variáveis (em seus respectivos preços de fechamento) a transformação para a diferença relativa de cinco dias em percentagem do preço sugerida por Thomason (1999).

32

Essa transformação, segundo Tay e Cao (2001) é capaz de corrigir a cauda pesada dos dados e o alto grau de curtose frequentemente presente nas Séries Temporais Financeiras, aproximando os dados então de uma distribuição Normal. Os autores, antes da aplicação, fazem mais duas transformações nos dados: substituem os valores faltantes, definido pelos autores como valores superiores (inferiores) a 2 desvios-padrão. A última alteração nos dados realizada pelos autores foi alterar a escala dos dados de modo que estes fiquem restritos ao intervalo [−0.9, 0.9]. Para cada variável associada ao indicador financeiro de interesse, utilizou-se como covariáveis para previsão o próprio indicador defasado 1, 2, . . . , 4 períodos e uma variável representando a média móvel exponencial para os preços de fechamento. Tay e Cao (2001) comparam então a acurácia do SVR em relação ao modelo de Redes Neurais (Back-Propagation) com cinco nós de entradas (um para cada defasagem mais a média móvel exponencial) e um nó de saída (representando o valor presente), o número de camadas ocultas variou entre 4 e 10 e os autores escolheram o modelo que apresentou melhor acurácia segundo os seguinte critérios: erro quadrático médio normalizado, erro médio absoluto, simetria direcional e simetria direcional ponderada. Os autores concluem que para a maioria das métricas de acurácia, o SVR supera a utilização das Redes Neurais e concluem o texto informando que o Support Vector Regression é promissor na previsão de Séries Temporais Financeiras devido aos seguintes fatos: o SVR minimiza não somente o erro empírico mais também a Minimização do Risco Estrutural; o SVR apresenta menos parâmetros livres do que as Redes Neuronais; o SVR converge sempre para um máximo global, o que pode não ocorrer nas Redes Neurais; o processo de estimação nas Redes Neuronais requerem experiência e um alto grau de subjetividade, diferentemente do SVR. Entretanto, os autores apontam como dificuldade do SVR a escolha das constantes fixas do modelo, as quais são obtidas usualmente, via validação cruzada. Ainda no contexto de Séries Temporais, Stefan (2001) apresenta uma discussão sobre o uso das Máquinas de Suporte Vetorial para dados temporais. O autor sugere o uso das observações defasadas para a modelagem de dados temporais, em outras palavras, considerando o vetor xT = (x1 , . . . , xT −1 , xT ), a variável dependente para o SVR seria justamente o vetor x, mas as variáveis independentes seriam construídas com base no vetor x, tal que a matriz de

33

delineamento seja representada, por exemplo, na forma:

 xT −1 xT −2  xT −2 xT −3   .. ..  . .  X=  x3 x2   x x1  2 x1 −

···

xT −l



 · · · xT −l−1   ..  ··· .    ··· −   ··· −   ··· −

(5.1)

Note entretanto, que algumas observações são perdidas, de fato, para l defasagens, perdemse l observações na análise. Stefan (2001) comenta as propriedades dos núcleos (kernels) para dados temporais. Especificamente, no caso do núcleo linear, obtêm-se um modelo idêntico ao modelo Autoregressivo de ordem l . O autor argumenta que a transformada de Fourier é frequentemente usada em análise de dados oriundos de séries de tempo. Segundo Stefan (2001) esta representação é útil se as informações das séries temporais não residem exclusivamente nos valores individuais de cada observação temporal, mas também na frequência de algumas dessas observações. Com base nessa argumentação e utilizando o trabalho de Vapnik (1998, pg. 470), observa-se que o produto interno de expansão de Fourier de duas séries de tempo pode ser diretamente calculado utilizando a seguinte função núcleo:

1 − θ2  K(xi , x j ) =  1 − 2θ cos xi − x j + θ2

(5.2)

onde θ é o parâmetro do núcleo. Stefan (2001) em seu trabalho sugere ainda a possibilidade da utilização das Máquinas de Suporte Vetorial para Análise Multivariada de Séries Temporais, apresentando inclusive uma proposta de abordagem. A análise de Fundos Mútuos foi realizada por Lu, Yu e Lin (2008) os quais comparam a performance do Smooth Support Vector Regression (SSVR) proposta por Lee, Hsieh e Huang (2005) contra as Redes Neuronais. O SSVR superou as Redes Neurais segundo Índice de Sharpe, o qual assumiu aproximadamente os valores 3.09 e 2.74 para o SSVR e Redes Neuronais, respectivamente. Lu, Yu e Lin (2008) utilizaram os dados do mercado de Taiwan para o período composto de Janeiro de 2004 a Dezembro de 2004. Após a estimação do SSVR e das Redes Neuronais, os 10 melhores fundos com melhor valor predito foram então utilizados para a composição de uma carteira, fornecendo assim os valores dos Índices de Sharpe de 3.09 e 2.74. Ademais, os autores realçam que no período em que o Mercado se comporta como um Bear Market ambos os modelos apresentam um baixo retorno, mas ainda assim, superior

34

ao mercado, e nos períodos de Bull Market ambos os modelos apesentam um grau elevado de retorno comparado com o Mercado e destacando a utilização do SSVR sobre as Redes Neuronais. Tay e Cao (2001) iniciam seu texto argumentando que a previsão de séries temporais financeiras é considerada como uma das aplicações mais desafiadoras no moderno campo de previsão em séries temporais. De fato, citando Abu-Mostafa e Atiya (1996) e Hall (1994) afirmam que as Séries Temporais Financeiras são inerentemente permeadas de “ruído”, são nãoestacionárias e consideradas deterministicamente caóticas. Comparando o poder de previsibilidade do SVR contra o modelo de Redes Neuronais multi-camadas via back-Propagation, os autores demonstraram a superioridade do primeiro para os critérios de Erro Quadrático Médio Normalizado, Erro Médio Absoluto, Simetria Direcional e Simetria Direcional Ponderada, para isso, os autores utilizaram os dados de cinco contratos futuros obtidos a partir do mercado Chicago Mercantile. Esses contratos referiam-se aos índices das 500 ações da Standard & Poor, títulos públicos americanos de 30 anos, títulos públicos americanos de 10 anos, títulos públicos germânicos de 10 anos e o índice de ações do governo francês. Os períodos de tempo utilizados por Tay e Cao (2001) variaram de 1992 a 1999 e os valores de fechamento foram utilizados como informação inicial. Entretanto, Tay e Cao (2001) não trabalharam com os valores originais dos dados. De fato, os autores realizaram a transformação sugerida por Thomason (1999) para o preço de fechamento, criando assim a diferença percentual relativa para 5 dias de transação para cada uma das cinco séries utilizadas. As séries transformadas foram então defasadas 4 vezes, e essas defasagens juntamente com a transformação da diferença do preço de fechamento com o valor das Médias Móveis Exponenciais para 15 períodos foram utilizadas como covariáveis na previsão futura dos ativos. Já a variável dependente foi construída por meio de Médias Móveis Exponenciais para 3 períodos do preço de fechamento transformado. Outras duas operações foram realizadas por Tay e Cao (2001): os valores discrepantes (considerados pelos autores aqueles valores acima ou abaixo de 2 desvios-padrão) foram imputados pelo valor mais próximo dessa observação; os dados foram ainda padronizados para o intervalo [−0.9, 0.9]. Em seguida os dados foram particionados em três grupos: base de estimação, base de validação e base para a previsão. Somente um núcleo foi explorado pelos autores, a saber: kernel Gaussiano. Os autores concluem afirmando a superioridade do SVR sobre as Redes Neuronais quanto a previsão das séries financeiras estudadas. Entretanto, alguns pontos são destacados pelos autores como a sensibilidade das constantes de refinamento do SVR na previsão de valores, determinação dessas quantias e a escolha do núcleo são problemas

35

não triviais a serem ainda explorados. Huang et al. (2010) trabalham com a abordagem de SVR no mercado de câmbio. Os autores ressaltam no início do texto, com base nos trabalhos de Cao (2003) e Huang e Wu (2010), a dificuldade de previsão em Séries Temporais Financeiras, dificuldade essa devida a presença de não-linearidade e não-estacionariedade, principalmente para as taxas de câmbio. Huang et al. (2010) relatam que o SVR tem se tornado o “estado da arte” no que se diz respeito a problemas de classificação e regressão, devido principalmente ao fato de que essa técnica supera, na maioria dos casos, outros métodos como as Redes Neuronais. A abordagem dos autores é realizada por meio da teoria do caos determinístico em finanças como indicado por Scheinkman e LeBaron (1989) e Frank e Stengos (1988). Essa abordagem corrobora para a utilização do SVR, pois considera-se que a representação caótica observada pode ser modelada por alguma função não-linear permeada de ruído, essa função poderia ser estimada via SVR no caso das Séries Temporais Financeiras. A ideia da abordagem de Huang et al. (2010) é reconstruir o atrator do sistema dinâmico responsável pela criação da série de dados cambial por meio do que é conhecido por delay coordinate embedding (TAKENS, 1981), o qual resulta em um espaço de estado reconstruído, que contém um atrator caótico reconstruído, preservando assim as propriedades tanto geométricas quanto dinâmicas do atrator caótico original. Usando essas informações reconstruídas, os autores utilizaram o Support Vector Regression para realizar a previsão de algumas taxas de câmbio, a saber: Euro/Dólar (EUR/USD), Libras/Dólar (GBP/USD), NZD/Dólar (NZD/USD), AUD/Dólar (AUD/USD), Yen/Dólar (JPY/USD) e RUB/Dólar (RUB/USD) para o período de 3 de Janeiro de 2005 a 31 de Dezembro de 2007, segmentando os dados em uma base utilizada para estimação (80% dos dados) e outra para validação (20% das observações restantes). Em seguida, os autores comparam o desempenho das previsões do SVR, SVR utilizando a abordagem de caos determinístico, Redes Neuronais e Redes Neuronais com a abordagem de caos determinístico, usando para isso o Erro Quadrático Médio, Raiz do Erro Quadrático Médio e Erro Médio Absoluto como medidas de desempenho. Huang et al. (2010) demonstram a superioridade do SVR com a abordagem de caos determinístico sobre os demais métodos. De fato, o segundo método que apresentou o melhor desempenho, consistentemente para todas as medidas de desempenho foi o SVR. Ratificando mais uma vez para o potencial do SVR na previsão de Séries Temporais Financeiras. No caso do SVR aplicado em finanças, Lai, Liu e Hu (2013) demonstram que o núcleo construído por meio da distribuição de Lévy para os dados de três índices financeiros (Hang Sang Index (HSI), Dow Jones Industrial Average Index (DJ) e Shanghai Composite Index (SH) apresentou resultado superior ao kernel mais popular, a saber, o núcleo Gaussiano. Segundo os autores, a distribuição e Lévy apesentada satisfaz as condições de Mercer (1909). Desta

36

forma, o kernel é admissível para o modelo SVR. Os autores concluem que o aumento na acurácia ocorreu em três mercados, com enfase especial no mercado de Changai representado pelo índice HSI. Esse aumento na robustez do método é justificado pelos autores devido ao fato da distribuição de Lévy ser capaz de incorporar assimetrias, bem como a presença de caudas pesadas frequentemente presentes nas Séries Temporais Financeiras. Finalmente, os autores sugerem como estudos futuros o uso de outras distribuições de probabilidade para a construção de kernels tais como Secante Hiperbólica, T de Student e distribuição de Laplace.

5.1.3

Previsão da Volatilidade de Ativos usando SVR.

Chen, Härdle e Jeong (2010) apesentam como o SVR pode ser utilizado na estimação, e consequentemente, na previsão da volatilidade de Séries Temporais Financeiras via modelo Generalized Autoregressive Conditional Heteroskedasticity (GARCH). Os autores demonstram que o SVR baseado na estrutura GARCH supera os GARCH paramétrico clássico, as Redes Neuronais para estimação da volatilidade e o modelo de Médias Móveis para voltailidade segundo os critérios de Erro Médio Absoluto e Acurácia Direcional para a previsão um período a frente e múltiplos períodos a frente. Os dados utilizados pelos autores foram compostos por duas séries, a saber: a taxa de câmbio diária entre a Libra Esterlina e o Dólar entre 02 de julho de 2003 a 30 junho de 2005 e o índice New York Stock Exchange (NYSE) para o período de 3 de julho de 2003 a 30 junho de 2005. Os dados utilizados foram transformados em log-retornos percentuais, considerando uma estrutura AR(1)-GARCH(1,1) para os dados, Chen, Härdle e Jeong (2010) definem o seguinte processo gerador de dados:

 yt = f (yt−1 ) + εt ε2 = g(ε2 , u ) + u t−1 t t t−1

(5.3)

onde os termos εt e ut são os termos de erro para os retornos e volatilidade dos dados, respectivamente. A estimação é então realizada em três passos:

1. Inicialmente, modela-se o SVR com estrutura yt = f (yt−1 ) e então os resíduos εt são obtidos. 2. Em seguida, recursivamente, modela-se um SVR para os quadrados dos resíduos tal que

ε21 , ε22 , . . . , ε2T1 para T1 < T atualizando a cada etapa na forma εt2 = g(εt2 , ut−1 ) + ut−1 . 3. Finalmente, modela-se SVR para o quadrado dos resíduos obtidos no Passo 2 sem a atualização para que se obtenha as estimativas futuras das volatilidades.

37

O trabalho de Chen, Härdle e Jeong (2010) é baseado no texto de Chen e Jeong (2005) os quais especificam um modelo ARIMA não-linear via SVR. Ademais há outros autores que trabalharam com a previsão de volatilidade por meio de SVM, são eles Pérez-Cruz, AfonsoRodriguez e Giner (2003). Entretanto, a proposta desses autores é baseada somente para a estrutura GARCH(1,1) e o modelo apresentado peca por falta de robustez como relatado por Chen, Härdle e Jeong (2010). Nacionalmente a realização de previsão para volatilidade usando SVR foi estudada por Ferreira (2011). Usando o teste de Diebold e Mariano (2002) para comparar a qualidade da previsão realizada pelo que o autor denominou SVM-GARCH (baseado no texto de Chen, Härdle e Jeong (2010)) comprovaram a superioridade do SVR na realização de previsão da volatilidade de Séries Temporais Financeiras.

38

6

FATOS ESTILIZADOS EM SÉRIES TEMPORAIS FINANCEIRAS.

Um “fato estilizado” é um conjunto de propriedades comuns observadas empiricamente para amostras obtidas em algum ramo de conhecimento, mais especificamente, em econometria financeira. As séries temporais observadas apresentam determinadas características comuns aos dados. Essas características são denominadas fatos estilizados. A utilização desses fatos como um mecanismo de pesquisa empírica vem sendo empregada ao longo do tempo, em diversos ramos da ciência. Uma vez identificadas essas características e, após a consistente averiguação das mesmas, modelos teóricos são propostos. No campo de finanças, Ane e Geman (2000) demonstram que os dados usuais associados às séries financeiras não possuem distribuição normal, sendo a distribuição lognormal a que mais se aproxima do padrão dos dados financeiros. Assim, os autores aconselham o uso de métodos não paramétricos para o tratamento e análise de dados financeiros, uma vez que essa abordagem é livre de estruturas paramétricas e uma proposição para a distribuição do processo gerador dos dados torna-se desnecessária. Nesse contexto, as Máquinas de Suporte Vetorial podem ser utilizadas já que o método é por natureza, não paramétrico. Cont (2001) apresenta um conjunto de fatos estilizados emergentes em finanças para a análise das variações dos preços em vários tipos de mercados financeiros. Primeiramente, Cont (2001) discute questões gerais comuns a todos os estudos quantitativos associados às Séries Temporais Financeiras. Várias propriedades estatísticas dos retornos dos ativos são, então, descritas no artigo, como: propriedades distribucionais, propriedades da cauda e observações extremas, dependência linear e não linear dos retornos no tempo. O autor também argumenta quanto à importância da incorporação desses fatos estilizados na composição e construção de modelos teóricos e estatísticos com o intuito de acurar a análise dos dados e a formulação teórica de modelos. Similarmente a Cont (2001), Sewell (2011) faz um apanhando das principais características das Séries Temporais Financeiras no campo da Teoria Estatística do Aprendizado.

39

De maneira sumarizada, os principais fatos estilizados relatados para as Séries Temporais Financeiras são:

1. Ausência de autocorrelação linear: a autocorrelação linear dos retornos financeiros são frequentemente não significantes, exceto para dados observados no período intraday com escala inferior a 20 minutos, para os quais o efeito da microestrutura econômica se apresenta fortemente. 2. Caudas pesadas: a distribuição incondicional dos retornos segue uma lei de potências ou Pareto nas caudas da distribuição. 3. Assimetria para ganhos ou perdas:

os dados financeiros possuem frequentemente

mais valores negativos do que valores positivos induzindo a uma assimetria. 4. Aglomeração de volatilidades: diferentes medidas de volatilidade apresentam autocorrelação positiva durante vários períodos de tempo, dessa forma, altas volatilidades tendem a estar agrupadas no tempo, assim como baixas volatilidades. Fornecendo assim uma indicação natural da presença de dois regimes: um regime com alta volatilidade e um regime com baixa volatilidade. 5. Efeito de alavancagem: a maioria das medidas de volatilidade está correlacionada negativamente com os retornos do ativo estudado. 6. Memória Longa: há evidências empíricas de que as Séries Temporais Financeiras possuam memória longa. 7. Reversão a Média: os retornos tendem a seguir um padrão médio para as Séries Temporais Financeiras, em outras palavras, valores de retornos extremos tendem a não persistir. Após algum período, esses retornos se aproximam novamente do valor médio da série.

Com base no exposto, a proposta é construir um núcleo para o SVR por meio de Ondaletas que, na medida do possível, adeque o modelo a esses fatos estilizados. Isso é importante, pois como apresentado nos Capítulos 3 e 5 a maioria das aplicações se utilizam de transformações nos dados para aumentar a acurácia do método, essa necessidade de transformar os dados pode ser justificada pela utilização de núcleos “pobres”, os quais não incorporariam as peculiaridades exigidas pelas Séries Temporais Financeiras. Nesse contexto, o campo de Ondaletas pode ser útil pois além de tratar parte desses fatos estilizados, a abordagem de Ondaletas também é capaz de atuar em séries temporais não-estacionárias como as séries financeiras.

40

7

NÚCLEOS NAS MÁQUINAS DE SUPORTE VETORIAL.

Segundo, Tay e Cao (2001) a escolha do núcleo utilizado em uma Máquina de Suporte vetorial é crucial para o bom desempenho do modelo no que tange a previsibilidade de valores em Séries Temporais Financeiras. Um núcleo (ou kernel) define a similaridade entre duas observações e permite ao analista a inserção de um conhecimento prévio sobre o domínio do problema. Além do mais, o núcleo contém toda a informação relativa que liga as observações ao algoritmo de aprendizagem, e pode portanto, ser utilizado sem a apresentação explícita do conjunto de dados originais, em outras palavras, os dados coletados entram como insumos das posições da matriz núcleo representada por (2.11). Outra vantagem da utilização do núcleo é que o número de operações computacionais para a estimação dos parâmetros da Máquina de Suporte Vetorial é reduzido quando se utiliza a matriz núcleo fornecida diretamente por (2.11) (matriz de Gram) ao invés de computar a operação ΦΦT , pois uma das dimensões da matriz ΦT pode ser muito grande ou até mesmo infinita. Matematicamente, define-se o núcleo como: Definição 7.1. Seja X um conjunto não vazio. A função K :

X × X → R é denominada núcleo (kernel) se existe um espaço vetorial com produto interno H , e uma aplicação φ : X → H tal que para todos xi , x j ∈ X tem-se: K(xi , x j ) = φ(xi )T φ(x j )

para todo i, j. É interessante que se possa construir núcleos diretamente da aplicação φ e também desconstruir a função núcleo a ponto de recuperar a aplicação φ, principalmente no caso de Séries Temporais Financeiras, pois a estrutura de dependência dos dados é representada exatamente pela forma de φ. Quando pode-se utilizar φ para construir o kernel e também se for possível encontrar φ para uma função núcleo dada, dizemos que o núcleo é admissível. A condição necessária e suficiente para que as etapas anteriores sejam possíveis é que o núcleo seja positivo

41

definido (SCHÖLKOPF; SMOLA, 2002). Assim:

X um conjunto não vazio, então, define-se um núcleo K como um núcleo positivo definido se para todo n ∈ N e todos x1 , . . . , xn ∈ X a matriz de núcleos K cujos elemen-

Definição 7.2. Seja

tos são compostos por K(xi , x j ), para todos i, j é positiva definida, em outras palavras, vale: n

n

∑ ∑ cic j K(xi, x j ) ≥ 0

i=1 j=1

para todos ci , c j ∈ R Esse tipo de núcleo pode ser utilizado livremente na construção das Máquinas de Suporte Vetorial. Uma definição mais completa de um kernel admissível é apresentada por Schölkopf e Smola (2002). Segundo Schölkopf e Smola (2002), um núcleo é considerado admissível se esse satisfaz as condições de Mercer (1909), as quais podem ser sumarizadas da seguinte forma (SCHÖLKOPF; SMOLA, 2002): Teorema 7.1. Seja X o domínio de uma função, considere uma função real bivariada, simétrica e contínua K(., .) definida em X × X . Então, K é dito satisfazer as condições de Mercer se: Z

K(x, y)g(x)g(y)dxdy ≥ 0

para todo (x, y) ∈ X × X e para todo g(.) ∈ L2 (X ) (função quadrado-integrável). Schölkopf e Smola (2002) apresentam algumas propriedades dos núcleos admissíveis, quais sejam: Propriedade 7.1. Sejam K1 e K2 núcleos admissíveis, então as seguintes propriedades valem: p

1. K1 , para p ∈ N é um núcleo admissível. 2. λK1 + γK2 , para λ, γ > 0 é um núcleo admissível. 3. K1 K2 é um núcleo admissível.

Com base no exposto, pode-se definir estratégias para a construção de núcleos que sejam considerados admissíveis, em última estância, o proposito é construir um núcleo admissível por meio de Ondaletas que seja capaz de modelar (ao máximo) os principais fatos estilizados em finanças com o intuito de melhorar a previsão de valores em Séries Temporais Financeiras via Support Vector Machine.

42

7.1

Ondaletas e SVM.

Na Teoria de Ondaletas, o método de Análise de Multiresolução usa como base fatores para dilatação (a) e translação (c) em diferentes espaços de dimensão para obter uma família de funções Ondaletas (Wavelets). Dado Ψ ∈ L2 (R) com a > 1 e c > 0, admita {Ψm,n }m,n∈Z =

{Dam Tnc Ψm,n }m,n∈Z ,então , essa família de funções gera uma estrutura de Ondaleta em L2 (R), onde Ψ é denominando ondaleta “mãe” e a, c são parâmetros dessa ondaleta. Pode-se ainda expressar a ondaleta da seguinte forma:

  1 y−c Ψa,c (y) = p Ψ a |a|

(7.1)

onde y ∈ R, tal que a > 0 é o fator de dilatação e c ∈ R o fator de translação. Assim, a transformada em Ondaleta de uma f (y) ∈ L2 (R) pode ser escrita como o produto interno entre f (y) e

Ψa,c (y), em outras palavras, Wa,c ( f ) = h f (y), Ψa,c (y)i o qual indica a decomposição da função f (.) por meio de ondaletas. Para que Ψ(y) seja considera uma ondaleta mãe é necessário e suficiente que (MORETTIN, 2014):

WΨ =

Z ∞ |H(ω)|2 0

|ω|

(7.2)

dω Z ∞

onde H(ω) é a transformada de Fourier de Ψ(y). Ademais, necessita-se ainda que Ψ(t)dt = −∞ Z ∞ 0e |Ψ(t)|dt < ∞ −∞

Segundo Yang e Wang (2008), algumas funções ondaletas mãe para algumas funções base podem ser utilizadas para se gerar uma estrutura adequada para a decomposição por Ondaletas, e ao satisfazer as condições de Mercer (1909) podem ser utilizadas para a construção de núcleos admissíveis no contexto de Máquinas de Suporte Vetorial. A condição de Mercer (1909) nesse caso, segue uma estrutura similar ao que foi apresentado anteriormente, em outras palavras se

RR

0

0

0

K(x, x )g(x)g(x )dxdx ≥ 0

(7.3)

L2 ⊗L2

0

é satisfeito para todo g(x) ∈ L2 (R p ) então dizemos que o núcleo é admissível, logo, K(x, x ) 0

0

0

pode ser escrito como um produto interno, tal que K(x, x ) = K(hx, x i) = φ(x)T φ(x ). Ademais, 0

no espaço L2 (R p ) se g = {Ψi } é uma estrutura de ondaleta e K(x, x ) =

0

∑ λiΨi(x)Ψi(x ), i

para λi > 0 e λi < λi+1 o núcleo apresentado pode ser considerado como uma função ondaleta

43

multidimensional (YANG; WANG, 2008). Li, Zhou e Licheng (2001) apresentam o seguinte teorema utilizado por Strauss e Steidl (2002) em seu trabalho: Teorema 7.2. Seja Ψ(.) uma determinada função ondaleta mãe com a e c fatores de dilatação e translação respectivamente, então a função núcleo via ondaletas pode ser escrita como: p



 xi − ci 0 K(x, x ) = ∏ Ψ Ψ ai i=1

0

0

xi − ci 0 ai

! (7.4)

se

F (k)(ω) = 0

Z Rp

exp [−ihω, xi] k(x)dx ≥ 0

(7.5)

0

para x, x ∈ Rd e k(x) = K(hx, x i). Caso (7.5) seja satisfeito e o núcleo utilizado seja invariante 0

0

a translação, i.e., K(x, x ) = k(x − x ) então o núcleo construído via ondaletas pode ser escrito como (ZHANG; ZHOU; JIAO, 2004):

0

0

p

K(x, x ) = k(x − x ) = ∏ Ψ i=1

0

xi − xi ai

! (7.6)

Corroborando para os achados de Yang e Wang (2008), Neumann, Schnörr e Steidl (2003) afirmam que a união entre a abordagem de Máquinas de Suporte Vetorial usando como núcleos funções ondaletas fornece resultados mais acurados do que a utilização única das Máquinas de Suporte Vetorial com núcleos tradicionais. Especificamente, os autores apresentam ferramentas para a resolução eficiente desse tipo de problema híbrido, uma vez que a otimização desse tipo de problema, conforme os autores, é robusta e necessita de outras abordagens de otimização além dos algoritmos clássicos.

7.1.1

Referencial Teórico sobre Ondaletas e SVM.

Após uma vasta busca na literatura, o primeiro texto encontrado utilizando simultaneamente SVM e Ondaletas foi produzido por Strauss e Steidl (2002). Os autores propuseram as bases teóricas para o que denominaram de Wavelet Support Vector Machine - WSVM. Nesse sentido, Zhang, Zhou e Jiao (2004) desenvolvem ainda mais a ideia de Wavelet Support Vector Machine. Os autores afirmam que um suporte vetorial admissível construído por meio de ondaletas é nada mais do que uma espécie de função ondaleta multidimensional capaz de aproximar funções não lineares arbitrárias, de fato, uma vez que a técnica de ondaletas tem apresentado

44

bons resultados na literatura quanto a aproximação de sinais não estacionários e também para classificação de elementos, seria interessante incorporar essa técnica às Máquinas de Suporte 0

Vetorial. Zhang, Zhou e Jiao (2004) declaram que se a inequação (7.3) vale, então, K(x, x ) 0

0

pode ser escrito como um produto interno K(hx, x i) = hφ(x), φ(x )i em algum espaço de característica. Um caso especial citado pelos autores são os núcleos invariantes a translação, 0

0

i.e., K(x, x ) = k(x − x ), os quais são admissíveis se satisfazem a inequação (7.3) (condição de Mercer (1909)). Uma forma de testar se um núcleo invariante a translação é admissível ou não é por meio do Teorema (7.2) também reproduzido no texto de Zhang, Zhou e Jiao (2004). Utilizando a ondaleta mãe de Morlet, os autores demonstraram via simulação a superioridade do núcleo construído via ondaleta sobre o núcleo Gaussiano utilizando uma função univariada arbitrária, uma função bivariada arbitrária e um conjunto de dados reais para a classificação de imagens. Como medida de erro, os autores utilizaram:

v u n u u ∏(yi − fˆi )2 u i=1 δ=u u n t (y − y )2 ∏ i i

(7.7)

i=1

onde yi é a variável resposta para a i-ésima observação e fˆi o valor estimado para a função f por meio das Máquinas de Suporte Vetorial. Para os três experimentos gerados, o núcleo construído via ondaletas supera o núcleo Gaussiano. Zhang, Zhou e Jiao (2004) afirmam que como o núcleo via ondaleta é aproximadamente ortonormal e como o núcleo Gaussiano não o é, isso implicaria em uma redundância na informação produzida pelo núcleo Gaussiano, justificando em parte, a ineficiência desse núcleo quando comparado com o núcleo construído por meio da ondaleta mãe de Morlet. Yang e Wang (2008) aplica o WSVM na detecção de ataques de negação de serviço (Denial of Service (DoS Attack)) o qual é basicamente uma tentativa de tornar os recursos de um sistema indisponíveis para seus utilizadores. Yang e Wang (2008) averiguaram por meio de simulação que sob as mesmas condições, a capacidade de previsão do WSVM supera o clássico SVM em cerca de 4%, além do mais, a taxa de falsos positivos produzidas pelo WSVM é menor do que a taxa produzida pelo clássico SVM na aplicação estudada. Os autores utilizaram como funções mãe ondaletas a função de Morlet, Ψ(y) = cos(5y) exp(−y2 /2) a qual produz a seguinte função núcleo:

0

p

K(x, x ) = ∏ cos i=1

0

5(xi − xi ) ai

!

"

0

−(xi − xi )2 exp 2a2i

# (7.8)

45

e o Chapéu Mexicano, Ψ(y) = (1 − y2 ) exp(−y2 /2) o qual produz a seguinte função núcleo:

0

p

K(x, x ) = ∏ i=1

0

(xi − xi )2 1− a2i

!

"

0

−(xi − xi )2 exp 2a2i

# (7.9)

Os resultados apresentados pelos autores indicam que o desempenho da classificação via SVM usando núcleos baseados em ondaletas, como a ondaleta de Morlet e o chapéu Mexicano produz resultados melhores do que o SVM utilizando o núcleo Gaussiano, motivando assim a construção de núcleos por meio de ondaletas para a previsão de Séries Temporais Financeiras. Wu (2010) aplica o SVM juntamente com a abordagem de Ondaletas no contexto de previsão de demanda futura para o abastecimento na cadeia de suprimentos de organizações. Segundo o autor, o SVM não é adequado para modelar séries temporais com poucas observações, não linearidade, ruídos e imprecisão de medida. Utilizando WSVM e Otimização por Enxame de Partículas (Particle Swarm Optimization - PSO) o autor constrói uma abordagem mista a qual denominada PSOW ν − SV M a qual superou os métodos tradicionais de previsão via Máquinas de Suporte Vetorial para uma determinada aplicação apresentada pelo autor no caso de uma série temporal representando a venda de carros. Mais especificamente, usando um conjunto de covariáveis normalizadas a previsão do número de carros vendidos em um determinado período foi estimada usando as ondaletas de Morlet, Gaussiana complexa, chapéu Mexicano e núcleo Gaussiano. Para cada um dos modelos utilizados as medidas de Erro Médio Absoluto, Erro Médio Absoluto Percentual e Erro Quadrático Médio foram computadas para se avaliar a qualidade na previsão dos resultados. Wu (2010) afirma ainda que além de apresentar bons resultados, o método PSOW ν − SV M supera a “maldição da dimensionalidade” e apresenta outras propriedades interessantes como a forte capacidade de aprendizagem em pequenas amostras, o bom desempenho de generalização, insensibilidade ao ruído ou valores extremos e a seleção automática dos parâmetros ideais. Wei (2012) apresenta como o modelo WSVM pode ser utilizado para prever os níveis de água, por hora, nas estações hidrométricas na China. O autor, também utilizando o núcleo baseado na ondaleta mãe de Morlet, mostrou via simulação que os resultados obtidos superavam os resultados do núcleo Gaussiano para a medida de Erro Quadrático Médio Relativo. Assim como outros autores, Wei (2012) normalizou os dados com o intuito de melhorar a previsibilidade das Máquinas de Suporte Vetorial, ademais, o autor fixou o parâmetro de penalização do SVM, C = 1000, parâmetro ε = 0.01 e o fator de dilatação para a ondaleta mãe foi fixado em 1. O autor conclui seu texto, declarando que o WSVM tem se apresentado promissor no que se diz respeito sobre previsão de séries temporais em comparação com o SVM tradicional.

46

8

MÁQUINAS DE SUPORTE VETORIAL COM BASE EM ONDALETAS.

Como exposto anteriormente, a previsão em Séries Temporais Financeiras é desafiadora, uma vez que esse tipo de série apresenta particularidades não incorporadas na maioria dos métodos de Econometria Financeira, tais como: não estacionariedade, caudas pesadas, correlação não linear, etc.. Nesse sentido, o presente capítulo apresenta a proposta de pesquisa a qual se objetiva na construção de Máquinas de Suporte Vetorial com base em Ondaletas simétricas e sua avaliação em respeito aos principais núcleos utilizados na construção dos Support Vector Regression para séries temporais. A simetria requerida para os núcleos de Ondaletas é uma a propriedade desejável e requisito suficiente e necessário para que o núcleo desenvolvido seja considerado permissível. Para isso, as bases teóricas apresentadas no Capítulo 7 são utilizadas e as famílias de ondaletas simétricas são estudadas e então utilizadas na construção das Máquinas de Suporte Vetorial na previsão de Séries Temporais Financeiras. Com o intuito de avaliar a capacidade de previsibilidade do WSVM na previsibilidade de retornos financeiros utilizou-se os dados do Índice Bovespa (valor no fechamento) entre Janeiro de 2000 e Dezembro de 2013 padronizados, isso é, subtraiu-se o valor do índice pela sua média amostral e o resultado foi então dividido pelo desvio-padrão amostral, como sugerido por Tang, Tang e Sheng (2009) 1 com o seguinte conjunto de ondaletas mãe simétricas:

1. Ondaleta de Morlet. 2. Chapéu Mexicano.

Essas ondaletas foram então comparadas com os seguintes núcleos (SOUZA, 2010): 1

Os dados foram todos padronizados, exceto para o núcleo de Fourier o qual os dados foram normalizados entre 0 e 2π.

47

1. Núcleo Linear. 2. Núcleo Gaussiano. 3. Núcleo de Fourier. 4. Núcleo Tangente Hiperbólica. 5. Núcleo Quadrático Racional. 6. Núcleo Multi-Quadrático. 7. Núcleo Circular. 8. Núcleo Esférico.

Com base nas ondaletas descritas anteriormente, utilizou-se o período de 2000 a 2012 para a construção da Máquina de Suporte Vetorial a qual minimizava o Erro-Quadrático Médio dos valores preditos para o ano de 2013 usando 9 observações passadas como covariáveis. Especificamente, para todos os núcleos utilizou-se a busca em grelha (Grid Search), no caso dos núcleos via ondaletas utilizou-se para o fator de dilatação variando de 0 a 5. Com o intuito de comparar os resultados, utilizou-se ainda os núcleos Gaussiano, Exponencial, Quadrático Racional, Circular e Esférico com parâmetro σ variando de 0 a 5, e núcleo de Fourier com parâmetro q variando de 0 a 1 e finalmente para os núcleos Linear, Tangente Hiperbólica e Multi-Quadrático utilizou-se para a busca o intervalo do parâmetro c entre -1 e 1. Especificamente, as Máquinas de Suporte Vetorial foram todas construídas por meio do software R, usando bibliotecas específicas para otimização quadrática, já os núcleos utilizados foram todos construídos como funções de dois argumentos e cujo resultado fornecido era o valor do núcleo para os dois pontos apresentados. Os dados utilizados foram obtidos por meio do Yahoo Finance com o suporte do software R para download da série temporal no servidor do Yahoo. Utilizando a abordagem descrita, observou-se que o valor ótimo para os fatores de dilatação para a ondaleta de Morlet e Chapéu Mexicano foram equivalentes, ambos iguais a

2.55. Para comparar os valores preditos entre todos os núcleos estudados utilizou-se o teste de Diebold e Mariano (2002) em relação as Máquinas de Suporte Vetorial construídas por meio dos núcleos de ondaletas, cujos resultados são apresentados na tabela 8.1:

48

Núcleo 1 Mexicano Mexicano Mexicano Mexicano Mexicano Mexicano Mexicano Mexicano Mexicano Mexicano Morlet Morlet Morlet Morlet Morlet Morlet Morlet Morlet Morlet

Núcleo 2 Gaussiano Morlet Fourier Linear Circular Esférico Multi-Quadrático Quadrático Racional Tangente Hiperbólica Exponencial Gaussiano Fourier Linear Circular Esférico Multi-Quadrático Quadrático Racional Tangente Hiperbólica Exponencial

Estatística DM 0.2754 -0.3113 -12.6423 -11.601 -8.5337 -11.9131 -51.5208 -10.9301 -46.0118 -11.5013 0.5868 -12.6147 -11.4918 -8.5329 -11.822 -51.5208 -10.8517 -46.0115 -45.9671

Nível crítico 0.7832 0.7558

≤ 10−10 ≤ 10−10 ≤ 10−10 ≤ 10−10 ≤ 10−10 ≤ 10−10 ≤ 10−10 ≤ 10−10 0.5578

≤ 10−10 ≤ 10−10 ≤ 10−10 ≤ 10−10 ≤ 10−10 ≤ 10−10 ≤ 10−10 ≤ 10−10

Tabela 8.1: Resultados do teste de Diebold e Mariano (2002). Os resultados do teste de Diebold e Mariano (2002) indicam que para quase todos os núcleos a hipótese nula de equivalência na precisão da previsão é rejeitada. Especificamente, a medida de precisão definida como L = |ε1 |2 − |ε2 |2 onde ε1 e ε2 são a diferença entre o valor predito e observado para os modelos 1 e 2, respectivamente. Entretanto, quando comparados os núcleos via ondaletas e o núcleo Gaussiano, não há evidências de rejeição da hipótese nula, sugerindo assim uma possível equivalência na qualidade das previsões geradas por meio das Máquinas de Suporte Vetorial com núcleos Gaussiano, Morlet e Chapéu Mexicano. Para as combinações de núcleos apresentados anteriormente, avaliou-se o Erro-Quadrático Médio (EQM) dos valores preditos para estes, resultado apresentado na Tabela 8.2:

49

Núcleo 1 Mexicano Mexicano Mexicano Mexicano Mexicano Mexicano Mexicano Mexicano Mexicano Mexicano Morlet Morlet Morlet Morlet Morlet Morlet Morlet Morlet Morlet

Núcleo 2 Gaussiano Morlet Fourier Linear Circular Esférico Multi-Quadrático Quadrático Racional Tangente Hiperbólica Exponencial Gaussiano Fourier Linear Circular Esférico Multi-Quadrático Quadrático Racional Tangente Hiperbólica Exponencial

EQM1

EQM2

EQM1 /EQM2

0.0012 0.0012 0.0012 0.0012 0.0012 0.0012 0.0012 0.0012 0.0012 0.0012 0.0012 0.0012 0.0012 0.0012 0.0012 0.0012 0.0012 0.0012 0.0012

0.0012 0.0012 0.0103 0.0043 0.2264 0.0048 1.45E+08 0.0045 5.3123 0.0047 0.0012 0.0103 0.0043 0.2264 0.0048 1.45E+08 0.0045 5.3123 0.0047

1.0234 0.9748 0.1167 0.279 0.0053 0.2491 8.33E-12 0.2666 0.0002 0.2562 1.0498 0.1198 0.2862 0.0055 0.2555 8.33E-12 0.2734 0.0002 0.2628

Tabela 8.2: Resultados do Erro-Quadrático Médio (EQM) para os valores preditos. Um resultado interessante obtido com base na Tabela 8.2 é de apesar de não haver evidências para a rejeição da hipótese nula de equivalência na precisão da previsão entre os núcleos via Ondaletas e o Gaussiano, os primeiros apresentaram pontualmente um Erro-Quadrático Médio menor. Ademais entre os núcleos via ondaleta de Morlet e Chapéu Mexicano, o Chapéu Mexicano apresentou, pontualmente, um Erro-Quadrático Médio menor apesar de não ser uma ondaleta ortogonal. Outro cometário importante a ser feito é que em geral, os núcleos apresentaram uma razão entre os Erro-Quadráticos Médios em intervalos razóaveis, exceto pelo núcleo Multi-Quadrático que apresentou um erro de previsão muito superior aos demais núcleos.

50

9

CONCLUSÃO.

O presente relatório de estágio pós-doutoral avaliou a capacidade de previsibilidade dos núcleos via ondaletas simétricas, a saber: Ondaleta de Morlet e Chapéu Mexicano. Especificamente, essa análise foi desenvolvida para o contexto de Séries Temporais Financeiras por se tratar de um campo desafiador uma vez que são séries permeadas de ruídos, não estacionariedade e presença de um caos determinístico. A abordagem aqui apresentada, desenvolvida e implementada é inovadora e inédita por ter sido aplicada em um contexto nacional, por utilizar núcleos que até o momento da finalização desse relatório não foram implementados em softwares estatísticos, por construir uma revisão teórica completa e exaustiva do uso das Máquinas de Suporte Vetorial em finanças e por utilizar as Séries Temporais Financeiras. Além do mais, como constata-se do referencial apresentado nos Capítulos 5 e 7 a abordagem da análise via Máquinas de Suporte Vetorial é recente, permitindo assim a possibilidade da contribuição acadêmica dos mais diversos pesquisadores. De fato, a qualidade da previsibilidade dos retornos financeiros via Máquina de Suporte Vetorial está diretamente relacionada com o núcleo utilizado na análise, especificamente nesse trabalho, os núcleos via ondaletas como o núcleo de Morlet e Chapéu Mexicano apresentaram resultados superiores ao núcleo Gaussiano na previsibilidade os retornos do Índice Bovespa, essa superioridade pontual apesar de não ser estatisticamente significante, corrobora para os achados de Zhang, Zhou e Jiao (2004), Yang e Wang (2008) e Wei (2012) os quais averiguaram que os núcleos construídos via Ondaletas são superiores ao núcleo Gaussiano. Esse trabalho no entanto, expandiu o contexto de análise e avaliação dos núcleos via Ondaletas pois além de comparar esses núcleos com o núcleo Gaussiano, comparou ainda com outros núcleos popularmente utilizados, quais sejam: Núcleo Linear , Fourier, Tangente Hiperbólica, Quadrático Racional, Multi-Quadrático ,Circular e Esférico. Para todos os núcleos avaliados, exceto pelo núcleo Gaussiano, os núcleos via ondaletas de Morlet e Chapéu Mexicano apresentaram resultados estatisticamente significantes para a qualidade da previsibilidade dos retornos financeiros estuados no que tange ao Teste de Diebold e Mariano (2002).

51

Corroborando ainda para os achados de Yang e Wang (2008), Neumann, Schnörr e Steidl (2003) os quais afirmam que a união entre a abordagem de Máquinas de Suporte Vetorial usando como núcleos funções ondaletas fornece resultados mais acurados do que a utilização única das Máquinas de Suporte Vetorial com núcleos tradicionais, esse trabalho demonstrou que para o principal Índice do Bovespa essa acurácia se mantêm quando o objetivo é a previsibilidade dos retornos financeiros. Entretanto, há algumas limitações para esse trabalho, quais sejam: impossibilidade da implementação de outras Ondaletas mães não simétricas e a utilização de ondaletas não ortogonais. No caso de Ondaletas mães não simétricas, as condições de Mercer (1909) não são satisfeitas como apresentado no Capítulo 7, entretanto, alguns autores utilizaram esses núcleos não admissíveis em suas análises e obtiveram bons resultados, mesmo que teoricamente a construção das Máquinas de Suporte Vetorial esteja comprometida. Especificamente, no caso de ondaletas não simétricas, He e Yan (2007) utilizaram o WSVM na detecção de danos estruturais no campo de engenharia civil. Para isso, os autores utilizaram os seguintes núcleos: polinomial cúbico, função de base radial e a ondaleta de Daubechies. O percentual de acertos usando a ondaleta de Daubechies superou o percentual de acerto dos outros dois núcleos para o problema estudado, corroborando assim para a superioridade dos núcleos construídos via ondaletas em comparação com os demais núcleos frequentemente aplicados. Similarmente, Chen e Dudek (2009) afirmam que pode-se escolher qualquer função ondaleta de suporte compacto para a construção do núcleo, entretanto, segundo os experimentos realizados pelos autores a ondaleta de Daubechies-4 (D4) forneceu a melhor acurácia na representação dos sinais simulados pelos autores. Cabe ressaltar que essas abordagens apesar de apresentarem resultados empíricos razoáveis, carecem de embasamento teórico para possibilitar a unificação entre as Máquinas de Suporte Vetorial e Ondaletas não simétricas pois essas não fornecem núcleos admissíveis. Quanto a utilização de uma ondaleta não ortogonal como é o caso do Chapéu Mexicano, os resultados não demonstraram qualquer indicativo de ineficácia na previsibilidade dos retornos por meio desse núcleo, de fato, núcleos via ondaletas aproximadamente ortogonais não haveria redundância na informação produzida por estes, mas como apresentado nas Tabelas 8.1 e 8.2 não há evidências significativas da superioridade entre os núcleos via ondaletas e o núcleo Gaussiano, sugerindo assim que a ausência de ortogonalidade, para esse exercício, pode não ser um problema. Finalmente, algumas sugestões de trabalhos futuros são apresentadas, quais sejam: avaliação da acurácia da previsibilidade das Máquinas de Suporte Vetorial construídas por meio

52

de misturas finitas de núcleos, possibilitando assim o ajuste de outros fatos estilizados relativos à Séries temporais Financeiras como a presença de caudas pesadas e assimetria distribucional. A utilização, avaliação e o estudo de outras ondaletas como Coiflets e especialmente as Symmlets. Essa proposta apesar de não possuir fundamentação teórica válida, poderia levar a uma heurística na qual os resultados produzidos por essas ondaletas podem ser adequados e portanto, justificados na prática. Ademais, há ainda outras ondaletas simétricas que poderiam ser consideradas em trabalhos futuros tais como: Shannon, Battle-Lemarié, Meyer e B-splines. Muito ainda há o que se estudar em previsão de Séries Temporais Financeiras por meio de Máquinas de Suporte Vetorial e Ondaletas, principalmente devido a tenridade desses temas quando observados os artigos publicados, os quais em sua grande maioria não possuem mais do que 5 anos. Motivando assim, cada vez mais o estudo desse campo do conhecimento multidisciplinar o qual une Finanças, Computação, Matemática e Estatística.

53

REFERÊNCIAS BIBLIOGRÁFICAS

ABU-MOSTAFA, Y. S.; ATIYA, A. F. Introduction to financial forecasting. Applied Intelligence, Springer, v. 6, n. 3, p. 205–213, 1996. ANE, T.; GEMAN, H. Order flow, transaction clock, and normality of asset returns. Journal of Finance, v. 55, n. 5, p. 2259–2284, October 2000. Disponível em: . CAO, L. Support vector machines experts for time series forecasting. Neurocomputing, Elsevier, v. 51, p. 321–339, 2003. CHEN, G.; DUDEK, G. Auto-correlation wavelet support vector machine. Image and Vision Computing, Elsevier, v. 27, n. 8, p. 1040–1046, 2009. CHEN, S.; HÄRDLE, W. K.; JEONG, K. Forecasting volatility with support vector machine-based garch model. Journal of Forecasting, Wiley Online Library, v. 29, n. 4, p. 406–433, 2010. CHEN, S.; JEONG, K. Forecasting exchange rates using feedback support vector regression: Nonlinear arima model. Em revisão., 2005. CONT, R. Empirical properties of asset returns: stylized facts and statistical issues. Quantitative Finance, v. 1, p. 223–236, 2001. DIEBOLD, F. X.; MARIANO, R. S. Comparing predictive accuracy. Journal of Business & economic statistics, v. 20, n. 1, 2002. DRUCKER, H.; BURGES, C. J.; KAUFMAN, L.; SMOLA, A.; VAPNIK, V. Support vector regression machines. Advances in neural information processing systems, Morgan Kaufmann Publishers, p. 155–161, 1997. EMIR, S.; ¸ DINÇER, H.; MEHPARE, T. A stock selection model based on fundamental and technical analysis variables by using artificial neural networks and support vector machines. Review of Economics & Finance, p. 106–122, 2012. FAN, A.; PALANISWAMI, M. Stock selection using support vector machines. Neural Networks, 2001. Proceedings. IJCNN’01. International Joint Conference on. [S.l.], 2001. v. 3, p. 1793–1798. FENDER, T. Empirische risiko-minimierung für dynamische datenstrukturen. Universität Dortmund, 2004. FERREIRA, T. A. Previsão da volatilidade de séries financeiras via máquina de suporte vetorial. Dissertação de Mestrado, Universidade de São Paulo, 2011. FRANK, M. Z.; STENGOS, T. Some evidence concerning macroeconomic chaos. Journal of Monetary Economics, Elsevier, v. 22, n. 3, p. 423–438, 1988.

54

GUPTA, P.; MEHLAWAT, M. K.; MITTAL, G. Asset portfolio optimization using support vector machines and real-coded genetic algorithm. Journal of Global Optimization, Springer, v. 53, n. 2, p. 297–315, 2012. GUPTA, P.; MEHLAWAT, M. K.; SAXENA, A. Asset portfolio optimization using fuzzy mathematical programming. Information Sciences, Elsevier, v. 178, n. 6, p. 1734–1755, 2008. HALL, J. W. Adaptive selection of us stocks with neural nets. Trading on the edge: neural, genetic, and fuzzy systems for chaotic financial markets. New York: Wiley, p. 45–65, 1994. HAMEL, L. H. Knowledge discovery with support vector machines. [S.l.]: John Wiley & Sons, 2011. HE, H.-X.; YAN, W.-m. Structural damage detection with wavelet support vector machine: introduction and applications. Structural Control and Health Monitoring, Wiley Online Library, v. 14, n. 1, p. 162–176, 2007. HUANG, C.-F. A hybrid stock selection model using genetic algorithms and support vector regression. Applied Soft Computing, Elsevier, v. 12, n. 2, p. 807–818, 2012. HUANG, C.-L.; WANG, C.-J. A ga-based feature selection and parameters optimization for support vector machines. Expert Systems with applications, Elsevier, v. 31, n. 2, p. 231–240, 2006. HUANG, S.-C.; CHUANG, P.-J.; WU, C.-F.; LAI, H.-J. Chaos-based support vector regressions for exchange rate forecasting. Expert Systems with Applications, Elsevier, v. 37, n. 12, p. 8590–8598, 2010. HUANG, S.-C.; WU, T.-K. Integrating recurrent som with wavelet-based kernel partial least square regressions for financial forecasting. Expert Systems with Applications, Elsevier, v. 37, n. 8, p. 5698–5705, 2010. HUERTA, R.; CORBACHO, F.; ELKAN, C. Nonlinear support vector machines can systematically identify stocks with high and low future returns. Algorithmic Finance, IOS Press, v. 2, n. 1, p. 45–58, 2013. HUME, D. An enquiry concerning human understanding: A critical edition. [S.l.]: Oxford University Press, 2000. KHANDANI, A. E.; LO, A. W. What happened to the quants in august 2007? evidence from factors and transactions data. Journal of Financial Markets, Elsevier, v. 14, n. 1, p. 1–46, 2011. KIM, K.-j. Financial time series forecasting using support vector machines. Neurocomputing, Elsevier, v. 55, n. 1, p. 307–319, 2003. KYLE, A. S. Continuous auctions and insider trading. Econometrica: Journal of the Econometric Society, JSTOR, p. 1315–1335, 1985. LAI, L. K.; LIU, J. N.; HU, Y. Support Vector Regression with Levy Distribution Kernel for Stock Forecasting. [S.l.]: In Proceedings of the International Conference on Intelligent Information Processing and Knowledge Management (ICIIPKM 2013), 2013. 1315-1335 p.

55

LEE, Y.-J.; HSIEH, W.-F.; HUANG, C.-M. ε-ssvr: a smooth support vector machine for ε-insensitive regression. Knowledge and Data Engineering, IEEE Transactions on, IEEE, v. 17, n. 5, p. 678–685, 2005. LI, Z.; ZHOU; LICHENG, J. Wavelet kernel function network. Journal of Infrared and Millimeter Waves, v. 20, n. 3, p. 223–227, 2001. LU, R.-S.; YU, S.-W.; LIN, Y.-H. The prediction of applying smooth support vector regression and back propagation network in mutual fund performance. Neural Networks, 2008. IJCNN 2008.(IEEE World Congress on Computational Intelligence). IEEE International Joint Conference on. [S.l.], 2008. p. 3192–3196. MERCER, J. Functions of positive and negative type, and their connection with the theory of integral equations. Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathematical or Physical Character, The Royal Society, v. 209, p. 415–446, 1909. ISSN 02643952. Disponível em: . MORETTIN, P. A. Ondas e ondaletas: da análise de Fourier à análise de ondaletas de séries temporais. [S.l.]: Edusp, Segunda Ed., 2014. NEUMANN, J.; SCHNÖRR, C.; STEIDL, G. Effectively finding the optimal wavelet for hybrid wavelet–large margin signal classification. [S.l.], 2003. PÉREZ-CRUZ, F.; AFONSO-RODRIGUEZ, J. A.; GINER, J. Estimating garch models using support vector machines. Quantitative Finance, Taylor & Francis, v. 3, n. 3, p. 163–172, 2003. RODRIGUEZ-LUJAN, I.; HUERTA, R.; ELKAN, C.; CRUZ, C. S. Quadratic programming feature selection. The Journal of Machine Learning Research, MIT Press, v. 99, p. 1491–1516, 2010. RUPING, S.; MORIK, K. Support vector machines and learning about time. Acoustics, Speech, and Signal Processing, 2003. Proceedings.(ICASSP’03). 2003 IEEE International Conference on. [S.l.], 2003. v. 4, p. IV–864. SCHEINKMAN, J. A.; LEBARON, B. Nonlinear dynamics and stock returns. Journal of Business, JSTOR, p. 311–337, 1989. SCHÖLKOPF, B.; SMOLA, A. J. Learning with kernels. [S.l.]: MIT Press, 2002. SEWELL, M. Characterization of financial time series. Research Note, v. 11, n. 01, p. 01, 2011. SOUZA, C. R. Kernel functions for machine learning applications. Acesso em 27.06.2014. http://crsouza.blogspot.com/2010/03/kernel-functions-for-machine-learning.html, 2010. STEFAN, R. Svm kernels for time series analysis. Proc. of Tagungsband der GI Workshop-Woche. [S.l.: s.n.], 2001. p. 43–50. STEINWART, I. Support vector machines are universally consistent. Journal of Complexity, Elsevier, v. 18, n. 3, p. 768–791, 2002. STRAUSS, D. J.; STEIDL, G. Hybrid wavelet-support vector classification of waveforms. Journal of Computational and Applied Mathematics, Elsevier, v. 148, n. 2, p. 375–400, 2002. TAKENS, F. Detecting strange attractors in turbulence. In: Dynamical systems and turbulence, Warwick 1980. [S.l.]: Springer, 1981. p. 366–381.

56

TANG, L.-B.; TANG, L.-X.; SHENG, H.-Y. Forecasting volatility based on wavelet support vector machine. Expert Systems with Applications, Elsevier, v. 36, n. 2, p. 2901–2909, 2009. TASKAR, B.; KLEIN, D.; COLLINS, M.; KOLLER, D.; MANNING, C. D. Max-margin parsing. EMNLP. [S.l.: s.n.], 2004. v. 1, n. 1.1, p. 3. TAY, F. E.; CAO, L. Application of support vector machines in financial time series forecasting. Omega, Elsevier, v. 29, n. 4, p. 309–317, 2001. THOMASON, M. The practitioner methods and tool. Journal of Computational Intelligence in Finance, v. 7, n. 3, p. 36–45, 1999. VAPNIK, V. The nature of statistical learning theory. [S.l.]: Springer, 2000. VAPNIK, V. N. Statistical learning theory. Wiley, 1998. VEROPOULOS, K.; CAMPBELL, C.; CRISTIANINI, N. Controlling the sensitivity of support vector machines. Proceedings of the international joint conference on artificial intelligence. [S.l.], 1999. v. 1999, p. 55–60. WEI, C.-C. Wavelet kernel support vector machines forecasting techniques: Case study on water-level predictions during typhoons. Expert Systems with Applications, Elsevier, v. 39, n. 5, p. 5189–5199, 2012. WOLFE, P. A duality theorem for non-linear programming. Quarterly of Applied Mathematics, n. 19, p. 239–244, 1961. WOLPERT, D. H. The lack of a priori distinctions between learning algorithms. Neural computation, MIT Press, v. 8, n. 7, p. 1341–1390, 1996. WU, Q. Product demand forecasts using wavelet kernel support vector machine and particle swarm optimization in manufacture system. Journal of Computational and Applied Mathematics, Elsevier, v. 233, n. 10, p. 2481–2491, 2010. YANG, M.-h.; WANG, R.-c. DDoS detection based on wavelet kernel support vector machine. The Journal of China Universities of Posts and Telecommunications, Elsevier, v. 15, n. 3, p. 59–94, 2008. YU, S.-W.; LU, R.-S.; CHANG, C.-H. A study on application of smooth support vector classification to stock selection in taiwan’s stock market. 2008. ZHANG, L.; ZHOU, W.; JIAO, L. Wavelet support vector machine. Systems, Man, and Cybernetics, Part B: Cybernetics, IEEE Transactions on, IEEE, v. 34, n. 1, p. 34–39, 2004. ZHANG, Z.; ZHAO, Q. The application of svms method on exchange rates fluctuation. Discrete Dynamics in Nature and Society, Hindawi Publishing Corporation, v. 2009, 2010.

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.