Monday 28 August 2017

Detecção De Anomalia Média Móvel


Gostaria de detectar anomalia usando média móvel ponderada exponencial. Por uma instância de tempo t, terei o valor do ponto de dados (DP). A constante EWMA será de 0,85 (assumindo). Por exemplo, não quero tirar uma série de pontos de dados em cálculos. Em qualquer momento, diga 10, quero saber se o ponto de dados 300 (neste caso) é uma anomalia ou não. Eu também tenho o EMA (9) 150 e EMA (10) 277.5 para o cálculo (se necessário) Existe alguma lógica para calcular isso Obrigado antecipadamente pensei na lógica abaixo, mas não tenho certeza se funcionaria com certeza DP - Data Point EMA - Média de Movimento Ponderada Exponencial Seria difícil dizer que a DP é ou não é uma anomalia porque você não sabe como o EMA é desenvolvido (t-1). Ou seja, se houver muitos pontos de dados que o tornaram, será um marcador melhor do que se houver apenas um outro ponto de dados. Uma abordagem que você poderia tomar é ter um limiar de mudança. Basicamente, se a EMA mudar mais de uma porcentagem, você a considera uma anomalia. Isso no entanto sofre se seus números são realmente muito altos e as diferenças são realmente pequenas. O que você realmente precisa é um desvio padrão para detectar anomalias. Você poderia examinar potencialmente o rastreamento disso e usar isso para determinar melhor se você tem uma anomalia. Se você tiver algum conhecimento sobre os dados com os quais você estará trabalhando, atualize sua pergunta para obter ajuda mais direcionada. Em resposta aos dados que você adicionou, eu suponho que você deseja que 300 seja uma anomalia (seus outros valores foram 120 e 150). O método que eu sugeri acima funcionará, no entanto, se o número após 300 for mais normal, diga 170 que provavelmente também seria marcado como uma anomalia. IMHO o peso que você está colocando em novos valores é excessivo. Eu faria o contrário: novo .85 antigo .15 newDP em vez do que você tem do novo .15 antigo .85 newDP Se você mudar para o que eu sugiro, você obterá resultados justos. Dependendo do seu objetivo geral, resultados justos podem ser suficientes. Razões pelas quais eu não mantenho registro 1. Eu tenho que levar em consideração os valores antigos desde o início da série temporal, 2. Eu não quero um modelo baseado em janela. 3.Também, eu não quero buscar toda a série de dados para cada instância de cálculo. Eu queria saber se a lógica a seguir funcionaria, mas não é certo, a Anomalia é verdadeira se: ABS (DP-EMA (novo)) gt 3 SD ( Ou) ABS (DP-EMA (novo)) gt 3 EMWSD DP - Ponto de Dados EMA - Ponderação Ponderada Exponencial Média Ndash Aravind Jul 11 ​​14 em 5: 06A Método de Martingale Médio Geométrico Médio para detectar mudanças nos fluxos de dados Bondu, M. Boull: Uma abordagem supervisionada para a detecção de mudanças em fluxos de dados. A Conferência Conjunta Internacional de 2011 sobre Redes Neurais (IJCNN), pp. 519 526 (2011). Daniel Kifer, Shai Ben-David, Johannes Gehrke: Detectando Mudança em Streams de Dados. Procedimentos da 30ª Conferência VLDB, Toronto, Canadá, pp. 180-191 (2004). Leszek Czerwonka: mudanças nos preços das ações como resposta às previsões de ganhos em relação aos lucros reais futuros. Alexandru Ioan Cuza Universidade de Iasi, Vol. 56, pp. 81-90 (2009). Q. Siqing, W. Sijing: um modelo homomórfico para identificar anormalidades abruptas de precursores de deslizamento de terra. Engineering Geology, Vol. 57, pp. 163168 (2000). CrossRef Wei Xiong, NaixueXiong, Laurence T. Yang, etc. Detecção de anomalia de tráfego de rede com base na teoria da catástrofe. Workshop IEEE Globecom 2010 sobre Avanços em Comunicações e Redes, pp. 2070-2074 (2010). Thomas Hilker. Michael A. Wulder. Nicholas C. Coops, etc. Um novo modelo de fusão de dados para mapeamento de alta resolução espacial e temporal do distúrbio da floresta baseado em Landsat e MODIS. Remote Sensing of Environment, Vol. 113, pp. 16131627 (2009). Ashraf M. Dewan. Yasushi Yamaguchi: Usando controle remoto e SIG para detectar e monitorar o uso do solo e a mudança de cobertura da terra no Dhaka Metropolitan de Bangladesh durante 1960 2005. Environ Monit Assess, Vol. 150, pp. 237-249 (2009). CrossRef Jin S. Deng, KeWang, Yang Hong, Jia G. Qi. Dinâmica espaço-temporal e evolução da mudança de uso da terra e padrão de paisagem em resposta à rápida urbanização. Paisagem e Planejamento Urbano, Vol. 92, pp. 187-198 (2009). CrossRef Asampbu Kitamoto: mineração de dados espaciais temporais para Typhoon Image Collection. Journal of Intelligent Information Systems, Vol. 19 (1), pp. 25-41 (2002). Tao Cheng, Jiaqiu Wang: Mineração Integrada de Dados Spatio-Temporais para Previsão de Incêndio Florestal. Transações em SIG. Vol. 12 (5), pp. 591-611 (2008). A. Dries e U. Ruckert: Detecção de Drift de Conceito Adaptativo. No SIAM Conference on Data Mining, pp. 233244 (2009). J. H. Friedman e L. C Rafsky: generalizações multivariadas dos testes de duas amostras Wald-Wolfowitz e Smirnov. Annals of Statistic, Vol. 4, pp. 697717 (2006). F. Nemec, O. Santolik, M. Parrot e J. J. Berthelier: observações espaciais de perturbações eletromagnéticas ligadas à atividade sísmica. Letras de pesquisa geofísica, vol. 35 (L05109), pp. 1-5 (2008). Sheskin, D. J. Manual de procedimentos estatísticos paramétricos e não paramétricos. 2ª ed. CRC Press, Boca Raton, Fla. Pp. 513-727 (2000). W. A. Shewhart: A Aplicação de Estatísticas como Auxílio na Manutenção da Qualidade de um Produto Manufaturado. Am. Statistician Assoc. Vol. 20, pp. 546-548 (1925). CrossRef W. A. Shewhart: Controle econômico da qualidade do produto manufacturado. Sou. Soc. Para Controle de Qualidade, (1931). E. S. Página: Problema no qual uma alteração em um parâmetro ocorre em um ponto desconhecido. Biometrika, Vol. 44, pp. 248-252 (1957). MATH M. A. Girshik e H. Rubin: uma abordagem de Bayes para um modelo de controle de qualidade, Annal of Math. Statistics, Vol. 23 (1), pp. 114-125 (1952). CrossRef Ludmila I. Kuncheva: Detecção de Mudança em Dados Multivariantes Streaming Usando Detectores de Probabilidade. Transações IEEE sobre Engenharia de Conhecimento e Dados, Vol. 6 (1), pp. 1-7 (2007). F. Chu, Y. Wang e C. Zaniolo: Uma abordagem de aprendizado adaptativo para dados ruidosos Streams. Proc. Quarta IEEE Intl Conf. Data Mining, pp. 351-354 (2004). J. Z. Kolter e M. A. Maloof: Majoridade ponderada dinâmica: um novo método de ensaio para seguir a derivação do conceito. Proc. Terceiro IEEE Intl Conf. Data Mining, pp. 123-130 (2003). H. Wang, W. Fan, P. S. Yu e J. Han: fluxo de dados de derivação de conceito de mineração usando classificadores de conjuntos. Proc. ACM SIGKDD, pp. 226-235 (2003). M. Scholz e R. Klinkenberg: Boosting Classifiers for Drifting Concepts. Intelligent Data Analysis, Vol. 11 (1), pp. 3-28 (2007). R. Klinkenberg: Learning Drifting Concepts: seleção de exemplos versus ponderação de exemplo, análise de dados inteligentes. Problema especial em sistemas de aprendizagem incremental capazes de lidar com drift conceito, Vol. 8 (3), pp. 281-300 (2004). R. Klinkenberg e T. Joachims: detecção de derivação de conceito com máquinas de vetor de suporte. Proc. 17th Intl Conf. Aprendizado de máquinas, P. Langley, ed. Pp. 487-494 (2000). G. Widmer e M. Kubat: Aprendendo na Presença de Drift Concept e Contextos Escondidos. Machine Learning, Vol. 23 (1), pp. 69-101 (1996). Kong Fanlang: um método dinâmico de previsão do sistema. Teoria e prática de engenharia de sistemas, Vol. 19 (3), pp. 58-62 (1999). Kong Fanlang: um método dinâmico de previsão de temperatura do ar. Kybernetes, Vol. 33 (2), pp. 282-287 (2004). S. S. Ho, H. Wechsler: Uma estrutura da Martingale para detectar alterações nos fluxos de dados testando o Exchangeability. Transações IEEE na análise de padrões e na inteligência da máquina, Vol. 32 (12), pp. 2113-2127 (2010). CrossRef S. Muthukrishnan, E. van den Berg e Y. Wu: Detecção de mudança seqüencial em fluxos de dados, Proc. ICDM Workshop Data Stream Mining and Management, pp. 551-556 (2007) V. Vovk, I. Nouretdinov e A. Gammerman: Testando Exchangeability On-Line. Proc. 20 Intl Conf. Aprendizado de Máquinas, T. Pp. 768-775 (2003). M. Steele: cálculo estocástico e aplicações financeiras. SpringerVerlag, (2001). E. Keogh, J. Lin e A. Fu: HOT SAX: encontrando eficientemente as subseqüências da série temporal mais incomum. Em Proceedings of the 5th IEEE International Conference on Data Mining (ICDM05), pp. 226-233 (2005). V. Moskvina e A. A. Zhigljavsky: um algoritmo baseado em análise de espectro singular para detecção de ponto de mudança. Comunicação em Estatística: Simulation amp Computation, Vol. 32 (2), pp. 319-352 (2003). MathSciNet MATH CrossRef Y. Takeuchi e K. Yamanishi: uma estrutura unificadora para detectar outliers e pontos de mudança de dados de séries temporais não estacionárias. Transações IEEE sobre Engenharia de Conhecimento e Dados, Vol. 18 (4), pp. 482489 (2006). CrossRef F. Desobry, M. Davy e C. Doncarli: um algoritmo de detecção de mudança no kernel online. IEEE Transactions on Signal Processing, Vol. 53 (8), pp. 2961-2974 (2005). MathSciNet CrossRefDectect Anomalia com decomposição mediana móvel A decomposição de séries temporais divide uma série de tempo em uma série sazonal, uma tendência e um tempo residual aleatório. A tendência e as séries temporais aleatórias podem ser usadas para detectar anomalias. Mas detectar anomalias em uma série de tempo já anômalo não é fácil. Trabalhando em uma série de tempo anômalo: Detecção de anomalia com decomposição média móvel doesn8217t trabalho Detecção de anomalia com trabalhos de decomposição mediana em movimento O problema com a média móvel Na decomposição da série temporal em R. aprendemos que o algoritmo está usando uma média móvel para extrair as tendências de As séries temporais. Isso é perfeitamente bom em séries temporais sem anomalias. Mas na presença de outliers, a média móvel é gravemente afetada, pois a tendência incorpora as anomalias. Primeiro, vamos detectar anomalia usando a decomposição com média móvel. Como não funciona bem, vamos detectar anomalias usando a decomposição com a mediana móvel para obter melhores resultados. Sobre os dados: webTraffic. csv relata o número de exibição de página por dias durante um período de 103 semanas (quase 2 anos). Para torná-lo interessante, adicionamos algumas anomalias (extras) a ele. Olhando para as séries temporais, vemos claramente uma sazonalidade de 7 dias, pois há menos tráfego nos finais de semana. Para decompor uma série temporária sazonal, é necessário o período de tempo de sazonalidade. No nosso exemplo, sabemos que a sazonalidade será de 7 dias. Se desconhecido, é possível determinar a sazonalidade de uma série temporal. Por último, mas não menos importante, precisamos saber se a série temporal é aditiva ou multiplicativa. Nosso tráfego na web é multiplicativo. Para resumir sobre o nosso tráfego na web: Sazonalidade de 7 dias (mais de 103 semanas) Série de tempo multiplicativo Faça o download do arquivo webTraffic. csv lt - read. Csv (webTraffic. csv. Sep,. Header T) dias como. Numérico (data Visite) pos chão (runif (1. 1. 50)) dias i 15 pos dias i 15 pos 1,2 dias 510 pos 0 plot (como. Ts (dias)) Demonstração média móvel (resultado ruim) 1 8211 Decomposição como As séries temporais são anômalas durante a decomposição, as tendências ficam completamente erradas. Na verdade, as anomalias estão em média na tendência.

No comments:

Post a Comment