Mineração de dados.
O que é 'Data Mining'?
A mineração de dados é um processo usado pelas empresas para transformar dados brutos em informações úteis. Ao usar o software para procurar padrões em grandes lotes de dados, as empresas podem aprender mais sobre seus clientes e desenvolver estratégias de marketing mais eficazes, além de aumentar as vendas e diminuir os custos. A mineração de dados depende da coleta de dados e armazenamento efetivos, bem como do processamento de computadores.
BREAKING Down 'Data Mining'
Armazenamento de dados.
Quando as empresas centralizam seus dados em um banco de dados ou programa, isso é chamado de data warehousing. Com um data warehouse, uma organização pode desmembrar segmentos de dados para usuários específicos analisarem e utilizarem. No entanto, em outros casos, os analistas podem começar com o tipo de dados que desejam e criar um data warehouse com base nessas especificações. Independentemente de como as empresas e outras entidades organizam seus dados, elas são usadas para apoiar os processos de tomada de decisões da administração.
Software de Mineração de Dados.
Os programas de mineração de dados analisa relacionamentos e padrões em dados com base no que os usuários solicitam. Por exemplo, o software de mineração de dados pode ser usado para criar classes de informação. Para ilustrar, imagine que um restaurante deseja usar a mineração de dados para determinar quando eles devem oferecer certas promoções. Ele analisa as informações coletadas e cria classes com base em quando os clientes visitam e o que ordenam.
Em outros casos, os mineradores de dados encontram grupos de informações baseados em relacionamentos lógicos, ou olham para associações e padrões sequenciais para tirar conclusões sobre as tendências do comportamento do consumidor.
Processo de mineração de dados.
O processo de mineração de dados é dividido em cinco etapas. Primeiro, as organizações coletam dados e as carregam em seus data warehouses. Em seguida, eles armazenam e gerenciam os dados, seja em servidores internos ou na nuvem. Analistas de negócios, equipes de gerenciamento e profissionais de tecnologia da informação acessam os dados e determinam como eles querem organizá-lo. Em seguida, o software aplicativo classifica os dados com base nos resultados do usuário e, por fim, o usuário final apresenta os dados em um formato fácil de compartilhar, como um gráfico ou tabela.

Mineração de dados de uma estratégia Forex Majors.
Devido às características únicas de diferentes pares de moedas, muitas estratégias quantitativas de Forex são projetadas com um par de moedas específico em mente. Embora isso possa produzir muitas estratégias de negociação rentáveis, também há vantagens em desenvolver estratégias que podem ser negociadas em vários pares de moedas. Isso introduz um elemento de diversificação que pode fornecer um nível adicional de proteção de downside.
Daniel Fernandez publicou recentemente um sistema que ele projetou para negociar em cada uma das quatro principais firmas de Forex. Seu objetivo era encontrar um sistema que produzisse um histórico de 20 anos de negociações lucrativas em EUR / USD, GBP / USD, USD / JPY e USD / CHF.
Daniel usa uma abordagem de mineração de dados para desenvolver uma estratégia para negociar os quatro maiores de Forex.
Para construir seu sistema, Daniel usou seu software de mineração de dados para definir sinais de entrada e saída que teriam produzido uma estratégia de negociação lucrativa em cada um dos quatro pares de moedas nos últimos 20 anos. O que ele apresenta é uma combinação de três regras baseadas em preços que formam a base de sua estratégia Forex Majors.
Estratégia de Forex de Forex de Daniel.
A estratégia Forex Majors da Daniel é muito simples, pois sempre tem uma posição, longa ou curta, em cada um dos quatro pares de moeda que negocia. Ele baseia todos os seus negócios em gráficos diários.
A estratégia é longa quando as três condições a seguir são atendidas:
A estratégia é curta quando as três condições a seguir são atendidas:
Como você pode ver, a estratégia é basicamente uma estratégia otimizada seguindo a estratégia. Isso faz sentido, porque Daniel afirma no início de seu artigo que a tendência de longo prazo seguindo as estratégias são geralmente as melhores estratégias para negociar mercados múltiplos.
Uma regra adicional que a estratégia de Daniel usa é uma parada-perda baseada em ATR. A perda de parada fixa é definida em 180% da ATR de 20 dias. Se a parada de perda for desencadeada, a estratégia permanece fora do mercado até que um sinal seja gerado na direção oposta. Testes indicam que reentrar em um sinal na mesma direção afetou negativamente o desempenho.
Desempenho Backtesting.
Os resultados de backtesting que Daniel incluiu em seu post mostram que a estratégia foi bem lucrativa. Produziu um índice de ganhos de 45%, um fator de lucro de 1,38, e um índice de recompensa para risco de 1,68. A maior preocupação de Daniel com a estratégia foi que o período de retirada máxima representava um tempo muito longo.
De acordo com os números de Daniel, o retorno médio anual foi de 9,67%. Isso consistiu em 16 anos rentáveis, 4 anos perdidos e um ano que basicamente se rompeu. O melhor ano foi um retorno de 37,76%, e o pior ano foi uma perda de 20,2%.
Daniel observa que este sistema não representaria uma boa estratégia autônoma por causa de seus retornos em relação às cobranças máximas. No entanto, ele sugere que poderia ser uma peça interessante de uma estratégia maior e multi-sistema.
Sim, a mineração de dados é um sistema muito útil na estratégia Forex, ajuda a obter mais e mais informações no produto.

Estratégias de negociação de mineração de dados
Obter através da App Store Leia esta publicação em nosso aplicativo!
Como codificar matematicamente as estratégias de negociação.
Se você tiver vários dados econométricos diferentes (por exemplo, índices, FX, commodities, taxas de juros), poderá tentar encontrar uma fórmula para ver se há algum relacionamento nos dados. para prever isso por esse padrão descoberto.
O que eu estou perguntando aqui é um pouco diferente: existe uma outra maneira, no sentido de que você pode procurar uma fórmula f (), de modo que o formulário fornecido represente uma estratégia de negociação em que certos indicadores sejam encontrados quando devem ser longos ou curtos (ou quaisquer combinações derivadas)? A ideia é que a própria fórmula vive num espaço n-dimensional de indicadores / estratégias de negociação e tenta sobreviver da melhor maneira possível.
Este deve ser um procedimento padrão para sistemas multi-agentes que simulam mercados de ações artificiais. Infelizmente, não consigo encontrar uma abordagem simples para fazer isso.
Sim, você usa uma implementação de cada sinal e, em seguida, use um pacote estatístico como sas para gerar um modelo de fator para você. Ele gera uma fórmula matemática, com coeficientes e sinais (variáveis) e até informa a eficácia (R ^ 2)
No entanto, você se encontra rapidamente exposto ao viés de bisbilhotagem de dados ao escolher essa abordagem. Semelhante aos resultados descritos neste artigo: eco. sdu. edu. cn/jrtzx/uploadfile/pdf/empiricalfinance/10.pdf.
O viés de bisbilhotagem de dados é a razão pela qual as pessoas enfatizam o raciocínio econômico de suas estratégias em detrimento da eficácia estatística histórica, que muitas vezes não se reproduz no futuro.
Talvez eu tenha entendido completamente a questão, mas parece-me que você está procurando encontrar uma estrutura modelo ao invés de se ajustar a um modelo especificado / conhecido. No seu contexto, a especificação do modelo (as regras de negociação) é desconhecida. Estou certo?
Se for esse o caso, talvez a programação genética:
É o que você precisa?
Em suma, é uma subclasse de GA que aplica abordagem evolutiva para encontrar uma estrutura de modelo (um programa) que seja mais adequada. Ao longo de gerações de melhorias evolutivas.
O meu palpite é que um dicionário de idioma neste caso é um conjunto de construções (variáveis) que você tem à sua disposição e a gramática de linguagem são as regras.
Btw. Boa pergunta!
Aqui está um exemplo da regra de negociação de 75% codificada em R: Pode-se vencer a caminhada aleatória.
É assim que o autor descreve a regra:
O script a seguir gerará uma série aleatória de dados e seguirá a chamada regra de 75% que diz, Pr [Preço> Preço (n-1) e amp; Pr & lt; (n-1) & lt; Price_median] Ou [Preço & lt; Preço (n-1) e amp; Preço (n-1)> Price_median] = 75%.
Há um novo artigo "Um processo evolutivo meta-gramatical para seleção e negociação de portfólio", que evolui estratégias de negociação com algoritmos genéticos (infelizmente por trás de um paywall):
Contreras, I., Hidalgo, J. I., Nuñez-Letamendía, L. et al. Genet Program Evolvable Mach (2017) 18: 411. doi / 10.1007 / s10710-017-9304-1.
Este estudo apresenta a implementação de um sistema de negociação automatizado que utiliza três análises críticas para determinar decisões de tempo e carteiras de investimento. A abordagem é baseada em uma metodologia de evolução meta-gramatical que combina análise técnica, fundamental e macroeconômica em um paradigma top-down híbrido. Primeiro, o método fornece uma carteira de baixo risco, analisando países e indústrias. Em seguida, com o objetivo de focar nas empresas mais robustas, o sistema filtra o portfólio analisando suas variáveis econômicas. Por fim, o sistema analisa preços e volumes para otimizar as decisões de investimento durante um determinado período. A validação do sistema envolve uma série de experimentos nos mercados financeiros europeus, que se refletem com um conjunto de dados de mais de novecentas empresas. As soluções finais foram comparadas com estratégias estáticas e outras implementações evolutivas e os resultados mostram a eficácia da proposta.
No artigo, duas gramáticas estão sendo usadas para codificar estratégias de negociação (em BNF):
Um para codificar um portfólio de empresas:
O outro para codificar sinais de investimento durante um período específico:

Estratégias de negociação de mineração de dados
A mineração de dados é uma ferramenta poderosa que está se tornando mais popular e acessível nos mercados financeiros.
A mineração de dados é um subconjunto de informática. Junta-se a ramos de informática, aprendizagem de máquinas, uma subcategoria de inteligência artificial e sistemas de bancos de dados, com estatísticas. É o processo de descobrir informações em grandes conjuntos de dados. O objetivo da mineração de dados é transformar um conjunto de dados em informações compreensíveis e utilizáveis. Existem 6 subclasses dentro da mineração de dados; detecção de anomalia, aprendizagem de regras de associação, agrupamento, resumo, classificação e regressão.
Como a mineração de dados é usada na negociação.
Dentro do mundo das negociações, existem muitas maneiras pelas quais as técnicas de mineração de dados são utilizadas para descobrir informações acionáveis. Cada técnica de mineração de dados tem limitações inerentes e pressupostos subjacentes, tornando diferentes técnicas mais adequadas para determinadas aplicações. Algumas das aplicações mais comuns de mineração de dados no mundo do comércio estão detectando insider trading e fraude, gerenciamento de portfólio e criação de estratégias de negociação.
Informações privilegiadas e mineração de dados.
A SEC exige que cada diretor, funcionário ou proprietário de mais de 10% das ações da empresa, que compre ou venda ações em sua empresa, arquive um Formulário 4. O Formulário 4 é então armazenado e acessível no banco de dados EDGAR. Os arquivamentos históricos do Formulário 4 oferecem um enorme conjunto de dados pronto para a mineração de dados; milhões de transações, dezenas de milhares de empresas e centenas de milhares de proprietários.
A maioria dos negócios por parte dos proprietários não são ilegais. Por exemplo, um proprietário pode ajustar sua carteira para se adaptar às condições econômicas atuais ou para fins de liquidez. Um comércio interno só é considerado ilegal quando o comércio envolve informações que não foram tornadas públicas. Assim, o objetivo da mineração de dados, neste caso, é distinguir os negócios legais cotidianos dos negócios irregulares que implicam que o proprietário possuía informações não públicas antes de comprar ou vender suas ações.
Um exemplo de uma aplicação de mineração de dados configurada para fazer exatamente isso é o sistema de Observação de Títulos, Notícias, Análise e Regulamentação (SONAR). O SONAR marca trocas irregulares para uma investigação mais aprofundada. Ele agrega, processa e analisa dezenas de milhares de notícias e arquivos da SEC todos os dias, disponibilizando centenas de alertas para os analistas investigarem mais. O SONAR utiliza mineração de texto de processamento de linguagem natural (PNL), regressões estatísticas, inferência baseada em regras, incerteza e correspondência difusa para procurar valores abertos em padrões comuns.
Outras pesquisas interessantes incluem Kirkos et al. (2007), que usaram técnicas de classificação, árvores de decisão, redes bayesianas e redes neurais para classificar empresas que emitiram demonstrações financeiras fraudulentas.
Donoho (2004) encontrou resultados promissores na utilização de técnicas de mineração de dados (árvores de decisão, regressões logísticas e redes neurais) na detecção de negociação de opções privilegiadas.
Outras descobertas interessantes incluem Cheng e Lo (2006), que descobriram que os proprietários que pretendem comprar ações também tendem a divulgar notícias anormalmente negativas antes de suas próprias compras. Brockmen et al. (2010) descobriram que os proprietários vão divulgar notícias anormalmente positivas antes dos exercícios de opções de ações.
Uma interessante pesquisa feita por Lakonishok e Lee (2001) descobriu que o mercado tende a reagir aos sinais dos proprietários que compram e vendem as ações de suas próprias empresas.
A mineração de dados nos permite descobrir padrões consistentes nos proprietários e como eles negociam as ações de suas próprias empresas. Acessar e analisar essas informações para você poderia dar-lhe uma vantagem de informação em sua própria negociação.
Gerenciamento de portfólio.
Como você decide quais os valores mobiliários a serem detidos e quanto alocar para cada ativo individual e para cada classe de ativos como um todo? Embora seu objetivo seja criar um portfólio que vá minimizar o risco de um retorno específico, muitas vezes é uma tarefa muito difícil, especialmente porque seus ativos crescem em tamanho e número.
O modelo de preços de ativos de capital (CAPM) e Arbitrage Pricing Theory (APT) são ferramentas comuns no gerenciamento de riscos e otimização de portfólio. As redes de neurônios foram integradas com a APT para que a APT seja usada para determinar os preços enquanto a rede neural classifica cada fator de risco no futuro.
Diferentes técnicas de mineração de dados podem ser aplicadas em várias tarefas no gerenciamento de seu portfólio. Por exemplo, um algoritmo genético poderia ser usado para selecionar os ativos, uma rede neural para prever os retornos de cada ativo e um algoritmo genético para alocar fundos para cada ativo.
Day Trading e Data Mining.
A abordagem mais comum para prever estoques individuais é considerar fatores fundamentais como lucro por ação, índices P / L e PEG, receitas, dívida, participação de mercado, limite de mercado, volume, etc. Regressões, vários tipos de redes neurais, decisão árvores ou máquinas de vetores de suporte analisam esses fatores em um grande conjunto de dados históricos e classificam a direção do preço das ações de amanhã. O desempenho é tipicamente medido pela precisão do modelo em novos dados. Isso é comumente referido como uma abordagem de "caixa negra".
Uma técnica de mineração de dados mais transparente é chamada de aprendizado de regra de associação. Com o aprendizado de regras de associação, analisamos os mesmos fatores e ações, mas, em vez de o algoritmo agir em nosso nome, criamos nossas próprias regras com base no que o algoritmo descobriu. O benefício é duplo; Sabemos exatamente que informação foi descoberta em nossos dados e, no final do dia, somos os que compram e vendem as ações. Ambos são muito importantes. É importante saber exatamente quais informações foram descobertas em nossos dados para que você possa validá-las. Se uma regra não faz sentido para você, então seu modelo provavelmente está incorreto e você precisa ajustá-lo. A mineração de dados pode descobrir correlações e padrões falsos e a aprendizagem das regras de associação ajuda a evitar isso.
Para ver e entender quais informações foram descobertas, você precisa de uma boa ferramenta de visualização. É por isso que construímos TRAIDE. Você pode selecionar os fatores que você deseja analisar, o meu por padrões e informações em um determinado recurso, e depois visualizar esses padrões em um painel de controle interativo. Você pode então ajustar e otimizar suas regras, testando-as sobre seus dados em tempo real.
A mineração de dados tem muitos usos nos mercados financeiros. Há uma infinidade de pesquisas na academia e uma quantidade crescente de aplicativos do mundo real para você explorar e aplicar aos seus próprios sistemas.

Estratégia de negociação de mineração de dados.
Como de costume, o webmaster postou corretamente!
Saiba mais antes de comprar para não desperdiçar seu dinheiro!
A principal coisa quando você parece que o hotstsa não dorme!
Existe um site relacionado à sua pergunta.
Como codificar estratégias de negociação matematicamente.
Se você tem um monte de dados econométricos diferentes (por exemplo, índices, FX, commodities, taxas de juros). Você pode tentar encontrar uma fórmula para ver se há algum relacionamento nos dados - e. g. para prever isso por esse padrão descoberto.
O que eu estou perguntando aqui é um pouco diferente: existe uma outra maneira, no sentido de que você pode procurar uma fórmula f (), de modo que o formulário fornecido represente uma estratégia de negociação em que certos indicadores sejam encontrados quando devem ser longos ou curtos (ou quaisquer combinações derivadas)? A ideia é que a própria fórmula vive num espaço n-dimensional de indicadores / estratégias de negociação e tenta sobreviver da melhor maneira possível.
Este deve ser um procedimento padrão para sistemas multiagentes que simulam mercados de ações artificiais. Infelizmente, não consigo encontrar uma abordagem simples para fazer exatamente isso.
A rápida evolução da tecnologia informática nas últimas décadas proporcionou profissionais de investimentos (e amadores) com a capacidade de acessar e analisar enormes quantidades de dados financeiros. Além disso, a rede mundial, os e-mails e os boletins informativos tornam possível que pessoas do mundo inteiro acessem essas informações rapidamente, além de fornecer um meio para que os indivíduos façam suas opiniões e interajam. Como resultado, alguns dos tópicos mais intrigantes do debate nos últimos anos giraram em torno da prática e das consequências da "mineração de dados".
A mineração de dados envolve a pesquisa em bancos de dados por correlações e padrões que diferem dos resultados que seriam previstos por acaso ou em condições aleatórias. A prática da mineração de dados por si só não é boa nem ruim e o uso da mineração de dados tornou-se comum em muitas indústrias. Por exemplo, na tentativa de melhorar a expectativa de vida, os pesquisadores podem usar mineração de dados para analisar causas e correlações com as taxas de mortalidade. A mineração de dados também é usada por anunciantes e empresas de marketing para atingir os consumidores. Mas, possivelmente, o grupo mais notório de mineros de dados são pesquisadores do mercado de ações que procuram prever o movimento futuro dos preços das ações. A maioria, se não todas as anomalias do mercado de ações, foram descobertas (ou pelo menos documentadas) via data mining de preços passados e variáveis relacionadas (ou às vezes não relacionadas).
Quando as estratégias de marketing de mercado são descobertas por meio da mineração de dados, há uma série de problemas potenciais em dar o salto de uma estratégia de back-test para investir com sucesso em condições futuras do mundo real. O primeiro problema é determinar a probabilidade de que os relacionamentos ocorreram aleatoriamente ou se a anomalia pode ser exclusiva da amostra específica que foi testada. Os estatísticos gostam de dizer que, se você torturar os dados por tempo suficiente, confessará qualquer coisa.
No que está se tornando um exemplo infame, David Leinweber procurou por correlações aleatórias com o S & P 500. Peter Coy descreveu as descobertas de Leinweber em um artigo da Business Week intitulado "Aquele que explora dados pode causar o ouro de bobo" (16/06/97). O artigo discutiu a mineração de dados, o livro de Michael Drosnin The Bible Code. e o fato de que os padrões ocorrerão em dados por pura chance, especialmente se você considerar muitos fatores. Muitos casos de mineração de dados são imunes à verificação estatística ou à refutação. Ao descrever as armadilhas da mineração de dados, o Leinweber "peneirou um CD-ROM das Nações Unidas e descobriu que historicamente, o melhor preditor do índice de 500 ações do Standard Poor era a produção de manteiga no Bangladesh". A lição a aprender de acordo com Coy é uma "fórmula que se adapta aos dados do passado não terá necessariamente qualquer valor preditivo".
O teste de retorno sempre foi uma classe suspeita de informações. Quando você olha para trás, só mostra o que é bom.
As anomalias descobertas através da mineração de dados são consideradas mais significativas à medida que o período de tempo aumenta e se a anomalia pode ser confirmada em testes fora da amostra em diferentes períodos de tempo e mercados comparáveis (por exemplo, em bolsas estrangeiras). Se uma anomalia for descoberta nos testes de retorno, também é importante determinar como os custos (custos de transação, o spread bid-ask, custos de impacto para os traders institucionais) reduziriam os retornos. Algumas anomalias simplesmente não são realizáveis. Veja a anomalia da linha de valor e o déficit de implementação para saber mais sobre esse tópico. Além disso, estratégias que funcionaram no passado podem simplesmente parar de funcionar à medida que mais investidores começarem a investir de acordo com a estratégia. Veja a Hipótese do Mercado Eficiente para obter mais informações sobre esse assunto.
O Motley Fool tem sido elogiado por muitos por oferecer conselhos educacionais para investidores individuais (por exemplo, o Motley Fool oferece boas recomendações em aconselhar investidores a comprar e manter ações, desconfiar de corretores de bolsa e analistas de conflitos de interesse e ser cauteloso. de reivindicações de desempenho irrealistas). Mas a estratégia de ações do "Foolish Four" de Motley Fool e sua fundamentação subjacente criaram críticas.
Em 1997, os professores da BYU Grant McQueen e Steven Thorley coathored um artigo no Financial Analysts Journal (FAJ) que questionou os imensamente populares cães da Estratégia Dow (Abstract). Tendo já recolhido os dados para analisar os Dow Dogs, os Professores seguiram fazendo um estudo de caso na mineração de dados dos Foolish Four de Motley Fool. McQueen e Thorley analisaram os Foolish Four como descrito no The Motley Fool Investment Guide (MFIG), mas os Fools realmente têm múltiplas variações dos Foolish Four (Veja também os Foolish Four explicados e Foolish Four History). Essa pesquisa resultou em outro artigo publicado na edição de março / abril de 1999 do Financial Analysts Journal intitulado "Mining Fool's Gold". No espírito do estilo de escrita divertida e criativa do Fool, os professores publicaram uma versão "lighthearted" do artigo (no Wordperfect) no servidor da BYU. Os dados utilizados no estudo podem ser baixados aqui.
McQueen e Thorley incluem uma explicação completa sobre as potenciais armadilhas da mineração de dados e eles realizaram testes com amostras do Foolish Four. Os professores argumentam que a mineração de dados pode ser detectada pela complexidade da regra de negociação, a falta de uma história ou teoria coerente, o desempenho de testes fora da amostra eo ajuste de retornos para riscos, custos de transação e impostos. Além disso, eles argumentam que as regras de negociação Foolish Four e Dow Ten se tornaram populares o suficiente para impactar os preços das ações na virada do ano.
O Motley Fool postou uma resposta animada ao documento FAJ em seus relatórios de portfólio Foolish Four, que são acessíveis em seus arquivos de 1999. Veja os relatórios de 5/10. 5/11. 5/12. 5/13. 5/14. 5/17. 5/18. 5/19. 5/20 e 5/21. Incluídas nessas respostas são vários argumentos contábeis para o documento FAJ e também reconhecimentos de questões válidas discutidas no documento.
Embora muitas das questões sejam discutíveis, o teste de ácido real e a descoberta crítica do artigo da FAJ foi um teste fora da amostra para os retornos Foolish Four de 1949 a 1972. Durante esse período, o Foolish Four bateu o Dow 30 em média. 0,32% ao ano com substancialmente mais risco. Não só a estratégia teve um desempenho inferior ao da Dow Dogs no período, mas depois dos custos das transações e da contabilização do risco, claramente teria atrasado o DJIA no período. Esta questão crítica foi discutida brevemente no relatório datado de 5/14.
Para colocar esta questão em perspectiva, considere um investidor no início de 1973 olhando para o desempenho do DJIA nos últimos 24 anos. É difícil racionalizar a forma como um investidor poderia ter sabido naquela época que o Foolish Four produziria o mercado batendo os ganhos no futuro.
Em outro teste fora da amostra, McQueen e Thorley usaram o período base de 1973-1996 discutido no MFIG, mas usaram julho para reequilibrar em vez de janeiro. Nessas condições, o Foolish Four retorna o DJIA em apenas 2,95% ao ano, em média, substancialmente inferior à vantagem de 12,23% em relação ao DJIA com o reequilíbrio de janeiro.
Em defesa dos Fools, várias divulgações foram feitas pelo menos em MFIG e no site. No relatório Foolish Four, datado de 7/7/98. eles revelam que os retornos foram menores quando o rebalanceamento ocorreu em meses diferentes de janeiro. Além disso, em MFIG, um valor de retorno de 25,5% de um período de vinte anos é usado muitas vezes, mas eles pelo menos mencionam que eles pesquisaram os números de volta para 1961 e, durante o período de tempo mais longo, os retornos caíram para 18,35%. Por outro lado, uma vez que é divulgado que um período de tempo mais longo foi estudado, continuar a citar os números mais fortes de curto prazo e basar argumentos sobre esses dados certamente pode ser visto como suspeito. Divulgar e focar em resultados a longo prazo tende a aumentar a credibilidade do argumento de um mineiro de dados.
Jason Zweig expressou sua opinião sobre o Foolish Four e compartilha seus próprios dados extraídos de carteiras "Muito estúpidas" e "Extra Dumb" em lucros falsos da revista Money (agosto de 1999). No site da Morningstar, você também pode ler a opinião de John Rekenthaler em Just foolin, bem como as opiniões de William Bernstein em um artigo intitulado Mined: All Mined (veja também a resposta de James O'Shaughnessy e o debate subsequente) .
Em dezembro de 2000, The Motley Fool anunciou que eles não defendem mais a estratégia de estoque "Foolish Four", que eles criaram. Veja Re-thinking the Foolish Four para o raciocínio por trás do Fool's já não recomendando uma estratégia que eles haviam promovido durante anos através de seu site e livros.
Passando para outro debate de mineração de dados, William Brock. Josef Lakonishok. e Blake LeBaron (BLL) publicaram um artigo intitulado "Regras de negociação técnicas simples e as propriedades estocásticas dos retornos de estoque", na edição de dezembro de 1992 do Journal of Finance. O estudo é um dos poucos documentos acadêmicos para documentar uma estratégia de negociação bem-sucedida com base em análise técnica (veja Anomalias técnicas para uma discussão completa do artigo). Os Professores demonstraram que as médias móveis e as ferramentas de suporte e resistência tinham valor preditivo relativo à Dow Jones Industrial Average para o período de 1897-1986.
Data-Snooping, Technical Trading Rule Performance, eo Bootstrap é um artigo que revisita o artigo BLL e aparecerá na edição de outubro de 1999 do Journal of Finance. No artigo, Ryan Sullivan, Allan Timmermann e Halbert White (STW) tentam determinar o efeito do Data-Snooping nos resultados BLL. Eles também usam dados coletados do período seguinte ao estudo original (os dados da BLL foram publicados em 1986) para fornecer um teste fora da amostra. Adicionando os últimos anos forneceu um total de 100 anos de dados. A STW calculou um nível de custo de transação de até 0,27% por negociação para a regra de negociação de melhor desempenho para o período completo.
Uma vez que os dados BLL originais cobriram um período extremamente longo de quase 90 anos, pode-se esperar que as estratégias funcionem bem nos testes fora da amostra. Mas as conclusões do estudo podem acabar sendo usadas como outro exemplo potencial da Hipótese do Mercado Eficiente. A STW descobriu que "os resultados do BLL parecem ser robustos para o snooping de dados. No entanto, também descobrimos que o desempenho superior da melhor regra comercial não é repetido no experimento fora da amostra, abrangendo o período 1987-1996" e "há escassa evidência de que as regras técnicas de negociação tiveram algum valor econômico durante o período 1987-1996." Isso pode oferecer outra ressalva para mineradores de dados do mercado de ações e investidores ativos. Mesmo que uma anomalia funcionasse no passado em longos períodos de tempo, e mesmo que os resultados não pareçam sofrer as armadilhas do snooping de dados, uma vez que a anomalia é descoberta pode deixar de funcionar em frente.
As pessoas razoáveis podem ter uma diferença razoável de opinião sem que ela se torne uma questão de ética ou fé.
A Eficiência Alarmante (RR) do Dow Jones Asset Management (5-6 / 99) é um artigo interessante que discute a mineração de dados e o problema do "overfitting". Incluídos estão os comentários dos veteranos da indústria de investimentos David Shaw. Ted Aronson. e Robert Arnott. O artigo argumenta que, dada uma quantidade finita de dados históricos e um número infinito de modelos complexos, os investidores desinformados podem ser atraídos para um "overfitting" dos dados. Os padrões que são assumidos como sistemáticos podem realmente ser específicos da amostra e, portanto, sem valor.
As pessoas estão chegando a nós o tempo todo com estratégias de negociação que, de repente, produzam retornos excessivos muito elevados. Mas a grande maioria das coisas que as pessoas descobrem usando ferramentas matemáticas padrão e peneirando uma grande quantidade de dados são artefatos estatísticos.
Aronson argumenta que o mercado é "quase totalmente eficiente" e que "você está se enganando se acha que vai superar o outro por mais de 51% ou 52% do tempo". A Aronson acredita que os investidores que buscam ineficiências no mercado reduziram o potencial de lucrar com essas anomalias para o equivalente de custos de transação. Se for esse o caso, minimizar os custos das transações é fundamental na tentativa de vencer o mercado.
Então, há anomalias que foram confirmadas em testes de amostra? Em outro artigo do Journal of Finance, James L. Davis, Eugene F. Fama. e Kenneth R. French argumentam que a resposta é um sim definitivo. As empresas com baixos índices de preço a valor de livro superaram e o padrão foi documentado em mercados americanos e estrangeiros. Em Características, Covariças e Retornos Médios: de 1929 a 1997, os autores dão um grande passo em documentar retornos de baixo preço para ações de valor contábil de 1929 a 1963. Para o período anterior, o prêmio de valor era ainda maior (0,50% por mês) do que o período mais recente de julho de 1963 a junho de 1997 (0,43% ao mês).
No final, nós realmente sabemos com certeza quais as estratégias que vão superar no futuro? As opiniões sobre essa questão definitivamente variam, mas o aviso padrão se aplica como sempre. O desempenho passado não é garantia de desempenho futuro.
Discussões matemáticas adicionais estão incluídas no Cherry Picking. Scam do mercado de ações. e páginas de lançamento de moedas.
Por favor envie sugestões e comentários ao Investor Home.
Última atualização em 12/12/2001. 2001 Investor Home. Todos os direitos reservados. Aviso Legal.
Sou profissional oferecendo serviços nas áreas de consultoria estatística e financeira. Tenho um diploma de doutorado em estatística e um menor de doutorado em finanças pela Universidade de Stanford. Trabalho na indústria há quatro anos, com foco em projetos relacionados à mineração de dados, análise fatorial, análise de cluster, análise de séries temporais, modelagem de volatilidade estocástica / precificação de ativos, arbitragem estatística / desenvolvimento de estratégias de negociação proprietárias e assim por diante.
Igualmente importante, tenho seis anos de experiência em consultoria financeira e estatística. Tenho consultado empresas, profissionais de negócios, pesquisadores e estudantes nas áreas de Marketing, Medicina, Biologia, Psicologia, Sociologia, Ciência Política, Educação, Ciência da Computação e Finanças. Em termos de localização, meus clientes têm sede em Nova York, Boston, Filadélfia, Washington, Los Angeles, São Francisco, São José, Stanford, Seattle, Chicago, Toronto, Montreal, Londres, Edimburgo, Bergen, Frankfurt, Kuwait City, Hong Kong, Adelaide, Melbourne, Sydney e assim por diante.
Normalmente, encontro-me em Manhattan ou consulte via Skype, e-mail e telefone, se os clientes estiverem longe de Nova York. Além disso, eu completo projetos para meus clientes, que podem ou não exigir uma reunião. Exemplos de serviços: análise de dados em qualquer dos principais pacotes estatísticos (R, Matlab, SAS, SPSS, Stata), design de experimentos, desenvolvimento de preços e sistemas de negociação, assistência de dissertação, sessões de consultoria para melhorar o conhecimento geral. Please read the detailed description of the types of service. experiência. case studies and payment options.
Unless urgency is involved, the rate is $60 per hour for standard projects ( regression, ANOVA, survey design, non-parametric tests ) and more for high tech material ( data mining, cluster analysis, panel data, multivariate time series, hidden Markov models, Markov Chain Monte Carlo, Bayesian modeling, GWAS, SAS functionality, statistical arbitrage / trading strategies, exotic asset pricing, market risk management ). Please e-mail me for more detailed pricing information or any other clarification.

Trading strategies data mining

The rapid evolution of computer technology in the last few decades has provided investment professionals (and amateurs) with the capability to access and analyze tremendous amounts of financial data. Additionally, the world wide web, email, and bulletin boards make it possible for people around the globe to access this information quickly, as well as providing a means for individuals to voice their opinions and interact. As a result, some of the more intriguing topics of debate in recent years have revolved around the practice and consequences of "data mining."
Data mining involves searching through databases for correlations and patterns that differ from results that would be anticipated to occur by chance or in random conditions. The practice of data mining in and of itself is neither good nor bad and the use of data mining has become common in many industries. Por exemplo, na tentativa de melhorar a expectativa de vida, os pesquisadores podem usar mineração de dados para analisar causas e correlações com as taxas de mortalidade. Data Mining is also used by advertisers and marketing firms to target consumers. But possibly the most notorious group of data miners are stock market researchers that seek to predict future stock price movement. Most if not all Stock Market Anomalies have been discovered (or at least documented) via data mining of past prices and related (or sometimes unrelated) variables.
When market beating strategies are discovered via data mining, there are a number of potential problems in making the leap from a back-tested strategy to successfully investing in future real world conditions. The first problem is determining the probability that the relationships occurred at random or whether the anomaly may be unique to the specific sample that was tested. Statisticians are fond of pointing out that if you torture the data long enough, it will confess to anything.
Back testing has always been a suspect class of information . . . When you look backwards, you're only going to show what's good.
Anomalies discovered through data mining are considered to be more significant as the period of time increases and if the anomaly can be confirmed in out of sample tests over different time periods and comparable markets (for instance on foreign exchanges). If an anomaly is discovered in back tests, its also important to determine how costs (transactions costs, the bid-ask spread, & impact costs for institutional traders) would reduce the returns. Some anomalies are simply not realizable. See the value line anomaly and implementation shortfall for more on this topic. Additionally, strategies that have worked in the past may simply stop working as more investors begin investing according to the strategy. See the Efficient Market Hypothesis for more on this topic.
The Motley Fool has been praised by many for offering educational advice to individual investors (for instance, the Motley Fool offers sound recommendations in advising investors to buy and hold stocks, to be wary of stock brokers and analysts conflicts of interest, and to be wary of unrealistic performance claims). But the Motley Fool’s "Foolish Four" stock strategy and its underlying rationale have drawn criticism.
In 1997, BYU Professors Grant McQueen and Steven Thorley coathored a paper in the Financial Analysts Journal (FAJ) that questioned the immensely popular Dogs of the Dow Strategy (Abstract). Having already gathered the data to analyze the Dow Dogs, the Professors followed up by making a case study in data mining out of the Motley Fool’s Foolish Four. McQueen and Thorley analyzed the Foolish Four as described in The Motley Fool Investment Guide (MFIG), but the Fools actually have multiple variations of the Foolish Four (See also the Foolish Four explained and Foolish Four History). That research resulted in another article published in the March/April 1999 issue of the Financial Analysts Journal titled "Mining Fool's Gold." In the spirit of the Fool's entertaining and creative writing style, the professors have posted a "lighthearted" version of the paper (in Wordperfect) on the BYU server. The data used in the study can be downloaded here.
McQueen and Thorley include a full explanation of the potential pitfalls of data mining and they conducted out of sample tests on the Foolish Four. The Professors reason that data mining can be detected by the complexity of the trading rule, the lack of a coherent story or theory, the performance of out-of-sample tests, and the adjustment of returns for risk, transaction costs, and taxes. Additionally, they argue that the Foolish Four and Dow Ten trading rules have become popular enough to impact stock prices at the turn of the year.
The Motley Fool has posted a spirited response to the FAJ paper in their Foolish Four portfolio reports which are accessible in their 1999 archives. See reports dated 5/10, 5/11, 5/12, 5/13, 5/14, 5/17, 5/18, 5/19, 5/20, and 5/21. Included in these responses are several counter arguments to the FAJ paper and as well acknowledgements of valid issues discussed in the paper.
While many of the issues are debatable, the real acid test and critical finding of the FAJ paper was an out of sample test for the Foolish Four returns from 1949 to 1972. For that period the Foolish Four barely beat the Dow 30 by an average of 0.32% per year with substantially more risk. Not only did the strategy underperform the Dow Dogs for the period, but after transactions costs and accounting for risk it clearly would have lagged the DJIA for the period. This critical issue was discussed briefly in the report dated 5/14.
To put this issue in perspective, consider an investor at the start of 1973 looking back at the DJIA performance over the preceding 24 years. It's difficult to rationalize how an investor could have known at that time that the Foolish Four would produce market beating returns going forward.
In another out of sample test, McQueen and Thorley used the base 1973 -1996 period discussed in MFIG, but used July for rebalancing rather than January. Under those conditions the Foolish Four returns beat the DJIA by only 2.95% per year on average, substantially lower than the 12.23% advantage over the DJIA with January rebalancing.
In defense of the Fools, several disclosures were at least made in MFIG and on the web site. In the Foolish Four report dated 8/7/98, they disclose that returns were lower when rebalancing occurred in months other than January. Additionally, in MFIG a 25.5% return figure from a twenty year period is used many times, but they do at least mention that they researched the numbers back to 1961 and for the longer time period, the returns dropped to 18.35%. On the other hand, once it is disclosed that a longer period of time was studied, continuing to cite the stronger shorter term numbers and basing arguments on that data certainly can be viewed as suspect. Disclosing and focusing on longer term results tends to increase the credibility of a data miner's argument.
Jason Zweig voiced his opinion of the Foolish Four and shares his own data mined "Very Stupid" and "Extra Dumb" portfolios in False Profits from Money magazine (August, 1999). On the Morningstar web site you can also read John Rekenthaler's opinion in Just foolin’ around as well as Investment Advisor William Bernstein's opinions in an article titled Mined: All Mined (see also James O'Shaughnessy's response and the ensuing debate).
In December 2000, The Motley Fool announced that they no longer advocate the "Foolish Four" stock strategy, which they had created. See Re-thinking the Foolish Four for the rationale behind the Fool's no longer recommending a strategy they had touted for years via their web site and books.
Moving on to another data mining debate, William Brock, Josef Lakonishok, and Blake LeBaron (BLL) published an article titled "Simple Technical Trading Rules and the Stochastic Properties of Stock Returns," in the December 1992 edition of the Journal of Finance. The study is one of the few academic papers to document a successful trading strategy based on technical analysis (See Technical Anomalies for a complete discussion of the article). The Professors demonstrated that both moving averages and support and resistance tools had predictive value relative to the Dow Jones Industrial Average for the period from 1897-1986.
Data-Snooping, Technical Trading Rule Performance, and the Bootstrap is an article that revisits the BLL paper and will appear in the October 1999 Edition of Journal of Finance. In the article, Ryan Sullivan, Allan Timmermann, and Halbert White (STW) attempt to determine the effect of Data-Snooping on the BLL results. They also use data collected from the period following the original study (BLL data ran through 1986) in order to provide an out of sample test. Adding the recent years provided a full 100 years of data. STW calculated a break even transaction cost level of 0.27% percent per trade for the best performing trading rule for the full period.
Since the original BLL data covered an extremely long period of almost 90 years, one might expect the strategies to perform well in the out of sample tests. Mas as conclusões do estudo podem acabar sendo usadas como outro exemplo potencial da Hipótese do Mercado Eficiente. STW found "that the results of BLL appear to be robust to data-snooping . . . However, we also find that the superior performance of the best trading rule is not repeated in the out-of-sample experiment covering the period 1987-1996" and "there is scant evidence that technical trading rules were of any economic value during the period 1987-1996." This may offer another caveat for stock market data miners and active investors. Even if an anomaly worked in the past over very long periods of time, and even if results do not appear to suffer from the pitfalls of data snooping, once the anomaly is discovered it may cease to work going forward.
Reasonable people can have a reasonable difference of opinion without it becoming an issue of ethics or faith.
Alarming Efficiency ( RR ) from Dow Jones Asset Management (5-6/99) is an interesting article that discusses data mining and the problem of "overfitting." Included are comments from investment industry veterans David Shaw, Ted Aronson, and Robert Arnott. The article argues that given a finite amount of historical data and an infinite number of complex models, uninformed investors might be lured into "overfitting" the data. Patterns that are assumed to be systematic may actually be sample-specific and therefore of no value.
People are coming to us all the time with trading strategies that reportedly make very large excess returns . . . But the vast majority of the things that people discover by taking standard mathematical tools and sifting through a vast amount of data are statistical artifacts.
Aronson argues that the market is "nearly totally efficient" and that "You're fooling yourself if you think you'll outguess the other guy by more than about 51% or 52% of the time." Aronson believes that investors searching for market inefficiencies have reduced the potential to profit from those anomalies to the equivalent of transactions costs. If that is the case, minimizing transactions costs is critical in attempting to beat the market.
So are there any anomalies that have been confirmed in out of sample tests? In another forthcoming Journal of Finance article, James L. Davis, Eugene F. Fama, and Kenneth R. French argue that the answer is a definite yes. Companies with low price to book value ratios outperform and the pattern has been documented in both US and foreign markets. In Characteristics, Covariances, and Average Returns: 1929 to 1997 the authors go a big step further in documenting returns of low price to book value stocks from 1929 to 1963. For the earlier period, the value premium was even larger (.50% per month) than the more recent July 1963 to June 1997 period (.43% per month).
In the end, do we ever really know for sure what strategies will outperform in the future? Opinions on that question definitely vary, but the standard disclaimer applies as always. O desempenho passado não é garantia de desempenho futuro.
Additional mathematical discussions are included in the Cherry Picking, Stock Market Scam, and Coin-Flipping pages.
Por favor envie sugestões e comentários ao Investor Home.
Last update 2/12/2001. Copyright © 2001 Investor Home. Todos os direitos reservados. Aviso Legal.

Banco forex on-line Parnamirim

Wednesday, 28 March 2018

Estratégias de negociação exploração de dados

Trading strategies data mining

No comments:

Post a Comment