Wednesday 13 September 2017

Hadoop Sistema De Negociação


Estou me divertindo aprendendo sobre o Hadoop e os vários projetos em torno dele e atualmente tenho 2 diferentes estratégias que eu estou pensando sobre a construção de um sistema para armazenar uma grande coleção de dados de carrapatos do mercado, estou apenas começando com Hadoop HDSF e HBase mas esperando Alguém pode me ajudar a plantar uma semente de sistema que eu não terei que lixo mais tarde usando essas tecnologias Abaixo está um esboço do meu sistema e requisitos com alguns casos de uso de consulta e uso de dados e, por fim, meu pensamento atual sobre a melhor abordagem a partir da pequena documentação I Ter lido É uma pergunta aberta e eu vou alegremente como qualquer resposta que é perspicaz e aceitar o melhor, não hesite em comentar sobre qualquer ou todos os pontos abaixo - Requisitos de Duncan Krebs. System - Ser capaz de alavancar o armazenamento de dados Para o back-back histórico de sistemas, gráficos de dados históricos e futuros dados de mineração Uma vez armazenados, os dados serão sempre de leitura, acesso de dados rápido é desejado, mas não um must-have quando back testing. Static Schema - Muito simples, eu quero capturar 3 tipos de mensagens do feed. Timestamp incluindo data, dia, tempo. Quote incluindo símbolo, timestamp, perguntar, askSize, bid, bidSize, volume cerca de 40 colunas de data. Trade incluindo símbolo, timestamp , Preço, tamanho, troca Cerca de 20 colunas de data. Data Inserir Casos de Uso - Ou de um fluxo de mercado ao vivo de dados ou pesquisa através de API. Data Query Use Cases - Abaixo demonstra como eu gostaria de consultar logicamente meus dados. Get me Todas as Cotações, Negociações, Timestamps para GOOG em 9 22 2014.Get me todas as profissões para GOOG, FB ANTES 9 1 2014 E APÓS 5 1 2014.Get me o número de comércios para estes 50 símbolos para cada dia nos últimos 90 dias. O Santo Graal - Pode MapReduce ser usado para casos de uso como estes abaixo. Gerar meta-dados a partir dos dados do mercado bruto através de agentes distribuídos Por exemplo, Escreva um trabalho que irá calcular o volume médio de negociação em um intervalo de 1 minuto para todos os estoques e todos Sessões armazenadas no banco de dados Crie o trabalho para ter um agente para cada sessão de estoque tha T Eu digo que estoque e sessão deve calcular este valor para É isso que MapReduce pode fazer. No classpath dos agentes posso adicionar meu próprio código util para que o caso de uso acima, por exemplo, poderia publicar seu valor em um repositório central ou Messaging server Posso implantar um agente como um bundle. Create OSGI diferentes tipos de agentes para diferentes tipos de métricas e pontuações que são executadas todas as manhãs antes da negociação pre-market. High Frequency Trading Eu também estou interessado se alguém pode compartilhar alguma experiência usando Hadoop No contexto de sistemas de negociação de alta freqüência Apenas entrando nesta tecnologia meu sentido inicial é Hadoop pode ser grande para armazenar e processar grandes volumes de dados históricos tick, se alguém está usando isso para o comércio em tempo real eu d estar interessado em aprender mais - Duncan Krebs. Based da minha compreensão de suas necessidades, Hadoop seria realmente boa solução para armazenar seus dados e executar suas consultas sobre ele usando Hive. Storage Você pode armazenar os dados no Hadoop em um diretor Y estrutura like. Inside a pasta horas, os dados específicos para essa hora do dia pode reside. One vantagem de usar essa estrutura é que você pode criar tabelas externas em Hive sobre esses dados com suas partições em anos, meses, dias e horas Algo como thising à parte das perguntas, uma vez que você tem os dados armazenados no formato mencionado acima você pode fàcilmente funcionar consultas simples. Começ me todas as citações, negócios, carimbos de hora para GOOG em 9 22 2014.Get me todas as profissões para GOOG, FB ANTES 9 1 2014 AND APÓS 5 1 2014.You pode executar tais consultas de agregação uma vez em um dia e usar a saída para vir acima com as métricas antes da negociação pré-mercado Desde Hive internamente executa mapreduce essas consultas não será muito rápido. Para obter resultados mais rápidos, você pode usar alguns dos projetos em memória como Impala ou Spark Eu tenho usado Impala para executar consultas em minhas tabelas de colmeia e eu vi uma grande melhoria no tempo de execução para minhas consultas em torno de 40x Também você wouldn t Necessidade de fazer alterações na estrutura Dos dados. Inserção de Dados Casos de Uso Você pode usar ferramentas como Flume ou Kafka para inserir dados em tempo real para o Hadoop e, assim, para as mesas de colmeia Flume é linearmente escalável e também pode ajudar no processamento de eventos durante a transferência. Combinação de múltiplas tecnologias de dados grandes pode fornecer uma solução realmente decente para o problema que você propôs e essas soluções iria escalar para enormes quantidades de data. Apache Rivet é um sistema para criar conteúdo web dinâmico através da linguagem de programação Tcl integrado com Apache Web Server É Projetado para ser rápido, poderoso e extensível, consumir poucos recursos do sistema, ser fácil de aprender, e fornecer ao usuário uma plataforma que também pode ser usada-IO contém classes de utilitário, implementações de fluxo, filtros de arquivo, comparadores de arquivos e classes endian. A comunidade Apache Flex tem o prazer de anunciar o lançamento do Apache Flex SDK 4 16 0.O Apache Flex SDK é um framework altamente produtivo de aplicativos open source. Anuncia a disponibilidade imediata do Apache Tomcat 8 5 12.Tomcat 8 x usuários devem normalmente usar 8 5 x releases em preferência a 8 0 x releases. A equipe Apache Tomcat anuncia a disponibilidade imediata do Apache Tomcat 9 0 0 M18.Apache Tomcat 9 É uma implementação de software de código aberto do Java Servlet, JavaServer Pages, Java Unified. Latest Atividade. TheASF Na ApacheCon encontrar fornecedores de produtos de pessoas atrás de comunidades de projeto Apache em um ambiente amigável, não-vendas. A Comunidade Apache Flex tem o prazer de anunciar o lançamento do Apache Flex SDK 4 16 0.O Apache Flex SDK é um aplicativo altamente produtivo, de código aberto Estrutura para a construção e. Apache Ignite comunidade convida você a participar Big Data Bootcamp em 27, 28 e 29 de março de 2017 em Santa Clara, EUA. A conferência reúne especialistas e fornecedores de Big Data. And é sexta-feira já Aqui é o que a comunidade Apache Têm trabalhado nesta semana. ASF Conselho de administração e supervisão dos negócios e assuntos da corporação em concordância. Outubro 10, 2009.MapReduce está definitivamente ganhando a tração, especialmente, mas não significa apenas na forma de Hadoop No rescaldo de Hadoop Mundo Jeff Hammerbacher de Cloudera me andou rapidamente através de 25 clientes que ele puxou de arquivos de Cloudera Fatos e métricas variaram amplamente, é claro. Alguns estão em produção pesada com Hadoop e Estreitamente engajados com Cloudera Outros são usuários ativos Hadoop, mas são muito secretos Ainda outros se inscreveram para treinamento inicial Hadoop na semana passada. Alguns têm clusters Hadoop nos milhares de nós Muitos têm clusters Hadoop na faixa de nó 50-100 Outros são apenas prototipagem Hadoop uso E um parece ser OEMing um pequeno cluster Hadoop em cada peça de equipamento vendido. Muitos dados de exportação de Hadoop para um DBMS relacional muitos outros apenas deixá-lo em HDFS Hadoop Distributed File System, por exemplo, com Hive como a linguagem de consulta, ou em exatamente um Caso Jaql. Some são nomes de casa, em empresas da web ou de outra forma Outros parecem ser bastante obscure. Industries incluem serviços financeiros, telecom Ásia apenas, e muito novo, bioinformática e outras pesquisas, inteligência e lotes de web e ou publicidade media. Application Áreas mencionadas e essas sobreposições em alguns casos incluem. Log e análise ou clique de vários kinds. Marketing analytics. Machine aprendizagem e ou dados sofisticados mining. Image pr O processamento. Processamento de mensagens XML. Web rastreamento e ou processamento de texto. Arquivamento geral, incluindo de dados tabulares relacional, por exemplo, para compliance. We passou por esta lista tão rapidamente que não entrou em muitos detalhes sobre qualquer um usuário Mas um exemplo que Destacou-se foi de uma empresa de serviços de anúncios que tinha um pipeline de agregação que consiste de 70-80 MapReduce jobs. I também falou ontem novamente Omer Trajman da Vertica, que me surpreendeu, indicando um elevado número de um dígito de Vertica s clientes estavam em produção Com a Hadoop, ou seja, mais de 10 dos clientes de produção da Vertica, a Vertica recentemente fez a sua 100ª venda e, claro, nem todos esses compradores estão em produção. Vertica Hadoop parece ter começado na vertente de serviços financeiros da Vertica, especificamente na negociação financeira com web analytics. Como chegar em seguida Baseado em esforços de prototipagem atuais, a Omer espera que a bioinformática seja o terceiro mercado de produção da Vertica Hadoop, com as telecomunicações chegando em quatro H. No surpreendentemente, o modelo de uso geral Vertica Hadoop parece ser. Do algo para os dados em Hadoop. Dump-lo em Vertica para ser consultado. O que eu achei surpreendente é que os dados muitas vezes isn t reduzida por esta análise, mas sim explodiu Em tamanho E ga loja completa de dados de negociação de hipoteca pode ter alguns terabytes em tamanho, mas pós-processamento baseado em Hadoop pode aumentar isso por 1 ou 2 ordens de magnitude Analogias com a importância e magnitude de dados cozidos em processamento de dados científicos vêm à mente . E finalmente, eu conversei com o Aster há alguns dias sobre o uso de seu conector nCluster Hadoop Aster caracterizou os usuários Hadoop Aster Hadoop como sendo da variedade ETL de lote, que é o caso de uso clássico um concede ao Hadoop, mesmo se acredita que MapReduce normalmente deve ser feito direito no DBMS. Subscribe ao nosso feed.9 respostas to How 30 empresas estão usando Hadoop. Vlad em 11 de outubro de 2009 3 34 am. I fizeram alguns cálculos com base nos dados ava publicamente Ilable na Internet O famoso Yahoo Terasort gravar 1 TB de dados realmente 10 bilhões 100 bytes gravar em um cluster de servidor Hadoop.3400 em 60 segundos Eu vou omitir os detalhes de cálculo, mas a média de disco de CPU IO e utilização de IO de rede durante a execução foram .1, 5-6 e 30 respectivamente. Estes não são números exatos, é claro, mas as estimativas baseadas no algoritmo de ordenação utilizado, a configuração do cluster s, CPUs de servidor, máx. De 1 Gb de capacidade de NIC e 4 SATA. Gargalo definitivamente é rede Eu acho que não é só para a classificação, mas para muitos outros problemas Mas parece que qualquer cluster do Yahoo é suboptimal do ponto de vista da taxa de transferência máxima sustentada ou Hadoop não pode saturar 1Gb link OK, vamos imaginar que não usamos Commodity, mas servidores mais otimizados e configurações de rede. Como cerca de 2 NIC porta 10Gb por servidor e 128 porta 10GB switch Apenas um Aumentando a taxa de transferência de rede de 30MB s para 2GB s 2 10Gb porta NIC por servidor Sec podemos reduzir o número de servidores em um cluster por fator de 70.50 servidores e ainda manter o mesmo 60 segundos de execução É possível classificar 2 GB por segundo 20 milhões de registros de 100 bytes em um servidor Claro que é. Yahoo cluster custa cerca de 7 milhões Eu posso construir o meu cluster por menos de 1 milhão e não estamos falando sobre o consumo de energia e outros custos associados. MapReduce e commodity hardware won t economizar dinheiro Não compre cheap. Curt, você sabe quantos destes V clientes estão em A nuvem, ou seja, eles re correndo em V AMIs em EC2 e quantos deles estão em que 10 ou assim você mencionar. Vlad em 11 de outubro de 2009 10 40 pm. MapReduce é fortemente promovido, por algum motivo, pelo Yahoo e Facebook, mas não Pelo Google Google e Microsoft desenvolveram já a próxima geração Hadoops Pregel e Dryad, mas eles ainda não estão disponíveis para o público em geral e não open-sourced Mesmo as informações sobre Pregel é limitada. Para mim a situação lembra União Soviética em meados dos anos 80 Não sendo capaz Para criar sua Você pode reproduzir o que já foi feito, mas você sempre está por trás. UPD Dryad pode ser baixado do site da MS, mas apenas para a pesquisa acadêmica. RC em 12 de outubro de 2009 3 46 am. É Dryad muito melhor do que Hadoop Se sim, quais são as melhorias. Vlad em 12 de outubro de 2009 3 53 pm. RC From Dryad white paper A diferença fundamental entre os dois sistemas Dryad e MapReduce é que uma aplicação Dryad pode especificar uma comunicação arbitrária DAG ao invés de exigir uma seqüência de mapa distribuir classificar reduzir operações Em particular, vértices gráfico pode consumir várias entradas e gerar várias saídas , De tipos diferentes Para muitas aplicações isso simplifica o mapeamento do algoritmo para a implementação, nos permite construir uma maior biblioteca de sub-rotinas básicas e, juntamente com a capacidade de explorar pipes TCP e memória compartilhada para bordas de dados, pode trazer substanciais ganhos de desempenho Ao mesmo tempo, nossa implementação é geral o suficiente para suportar todos os recursos descritos no papel MapReduce. Andrew S em 19 de outubro de 2009 7 54 pm. Vlad, a diferença é que os soviéticos didn t ter fonte aberta por trás deles um mais comum Padrão na história recente tem sido.1 Solução de software proprietário sai 2 Uma boa solução de código aberto com capacidades semelhantes vêm S out later 3 A solução de código aberto ganha grandes apoios, desenvolvedores de topo, empresas de tecnologia de ponta, acadêmicos líderes 4 A solução de código aberto eclipsa a solução proprietária no uso por causa da fácil disponibilidade e documentação 5 A solução proprietária desaparece porque torna-se rentável mudar para abrir. Hadoop está em algum lugar em 3 e parcialmente em 4. Nada disto é inconsistente com pesquisas anteriores de casos de uso Hadoop. Ser o diretor do Bank of America para grandes dados e analítica Um ano atrás, já, Vertica indicou que cerca de 10 por cento de seus clientes estavam em produção com Hadoop uma tendência liderada por seus clientes de serviços financeiros Na pesquisa nossos blogs e white papers. Monash Research blogs. DBMS 2 cobre o gerenciamento de banco de dados, análise e tecnologias relacionadas. Text Technologies abrange mineração de texto, pesquisa e software social. Strategic Messaging analisa marketing e mensagens strategy. The Monash relatório examina a tecnologia e questões de política pública. Software Memories relata a História do software industry. User consultoria. Building uma lista curta Refinando o seu plano estratégico Podemos help. Vendor advisory. We dizer aos vendedores o que está acontecendo - e, mais importante, o que eles devem fazer sobre it. Monash Research destaques.

No comments:

Post a Comment