Thursday, 24 August 2017

Verschiebung Durchschnitt Anomalie Erkennung


Eine geometrische Moving Average Martingale Methode zur Erkennung von Änderungen in Datenströmen Bondu, M. Boull: Ein überwachter Ansatz zur Änderungserkennung in Datenströmen. Die Internationale Joint Conference 2011 über neuronale Netze (IJCNN), S. 519 526 (2011). Daniel Kifer, Shai Ben-David, Johannes Gehrke: Erkennung der Veränderung der Datenströme. Verfahren der 30. VLDB-Konferenz, Toronto, Kanada, S. 180-191 (2004). Leszek Czerwonka: Veränderung der Aktienkurse als Reaktion auf die Ergebnisprognosen über zukünftige Realgewinne. Alexandru Ioan Cuza Universität von Iasi, Vol. 56, S. 81-90 (2009). Q. Siqing, W. Sijing: Ein homomorphes Modell zur Erkennung abrupter Anomalien von Erdrutschvorläufern. Ingenieurgeologie, Bd. 57, S. 163168 (2000). CrossRef Wei Xiong, NaixueXiong, Laurence T. Yang, etc. Network Traffic Anomaly Detection basierend auf Katastrophe Theorie. IEEE Globecom 2010 Workshop über Fortschritte in Kommunikation und Netzwerken, S. 2070-2074 (2010). Thomas Hilker Michael A. Wulder. Nicholas C. Coops, etc. Ein neues Datenfusionsmodell für eine hochräumige und zeitlich aufeinanderfolgende Kartierung von Waldstörungen auf Basis von Landsat und MODIS. Fernerkundung der Umwelt, Vol. 113, S. 16131627 (2009). Ashraf M. Dewan Yasushi Yamaguchi: Mit Fernerkundung und GIS zu erkennen und zu überwachen Landnutzung und Landbedeckung ändern in Dhaka Metropolitan von Bangladesch während 1960 2005. Environ Monit Assess, Vol. 150, S. 237-249 (2009). CrossRef Jin S. Deng, KeWang, Yang Hong, Jia G. Qi. Räumlich-zeitliche Dynamik und Evolution der Landnutzungsänderung und Landschaftsmuster als Reaktion auf eine rasche Urbanisierung. Landschaft und Stadtplanung, Bd. 92, S. 187-198 (2009). CrossRef Asampbu Kitamoto: Spatio-Zeitliche Data Mining für Typhoon Image Collection. Journal of Intelligent Information Systems, Vol. 19 (1), S. 25-41 (2002). Tao Cheng, Jiaqiu Wang: Integrierter räumlich-zeitlicher Data Mining für Waldbrand Vorhersage. Transaktionen im GIS. Vol. 12 (5), S. 591-611 (2008). A. Dries und U. Ruckert: Adaptive Concept Drift Detection. In der SIAM-Konferenz zum Data Mining, S. 233244 (2009). J. H. Friedman und L. C Rafsky: Multivariate Verallgemeinerungen der Wald-Wolfowitz - und Smirnov-Zweiprobe-Tests. Annalen der Statistik, Vol. 4, S. 697717 (2006). F. Nemec, O. Santolik, M. Parrot und J. J. Berthelier: Raumfahrzeugbeobachtungen von elektromagnetischen Störungen, die mit seismischer Aktivität verbunden sind. Geophysikalische Forschungsbriefe, Bd. 35 (L05109), S. 1-5 (2008). Sheskin, D. J. Handbuch der parametrischen und nichtparametrischen statistischen Verfahren. 2nd ed. CRC Press, Boca Raton, Fla. S. 513-727 (2000). W. A. Shewhart: Die Anwendung der Statistik als Hilfe bei der Erhaltung der Qualität eines hergestellten Produkts. Am. Statistician Assoc. Vol. 20, S. 546-548 (1925). CrossRef W. A. Shewhart: Wirtschaftliche Kontrolle der Qualität des hergestellten Produktes. Bin Soc. Für die Qualitätskontrolle, (1931). E. S. Seite: Auf Problem, bei dem eine Änderung in einem Parameter an einem unbekannten Punkt auftritt. Biometrika, Vol. 44, S. 248-252 (1957). MATH M. A. Girshik und H. Rubin: Ein Bayes-Ansatz für ein Qualitätskontrollmodell, Annal of Mathe. Statistik, Vol. 23 (1), S. 114-125 (1952). CrossRef Ludmila I. Kuncheva: Änderungserkennung beim Streamen multivariater Daten mit Likelihood Detektoren. IEEE Transaktionen auf Wissens - und Datentechnik, Bd. 6 (1), Seiten 1-7 (2007). F. Chu, Y. Wang und C. Zaniolo: Ein Adaptiver Lernansatz für laute Datenströme. Proc. Vierte IEEE Intl Conf. Data Mining, S. 351-354 (2004). J. Z. Kolter und M. A. Maloof: Dynamic Weighted Majority: Eine neue Ensemble-Methode für Tracking Concept Drift. Proc. Dritter IEEE Intl Conf. Data Mining, S. 123-130 (2003). H. Wang, W. Fan, P. S. Yu und J. Han: Mining Concept-Drifting Datenströme mit Ensemble Klassifikatoren. Proc. ACM SIGKDD, S. 226-235 (2003). M. Scholz und R. Klinkenberg: Boosting Klassifikatoren für Drifting Concepts. Intelligent Data Analysis, Vol. 11 (1), S. 3-28 (2007). R. Klinkenberg: Lerntreibende Konzepte: Beispiele Auswahl vs. Beispiel Gewichtung, Intelligente Datenanalyse. Sonderausgabe auf inkrementelle Lernsysteme, die mit konzept Drift, Vol. 8 (3), S. 281-300 (2004). R. Klinkenberg und T. Joachims: Erkennung von Concept Drift mit Support Vector Machines. Proc. 17. Intl Konf. Maschinelles Lernen, P. Langley, Hrsg. S. 487-494 (2000). G. Widmer und M. Kubat: Lernen in Gegenwart von Concept Drift und versteckten Kontexten. Machine Learning, Vol. 23 (1), S. 69-101 (1996). Kong Fanlang: Eine dynamische Methode der Systemprognose Systems Engineering Theory and Practice, Vol. 19 (3), S. 58-62 (1999). Kong Fanlang: Eine dynamische Methode der Lufttemperatur-Prognose. Kybernetes, Vol. 33 (2), S. 282-287 (2004). S. S. Ho, H. Wechsler: Ein Martingale-Framework zur Erkennung von Änderungen in Datenströmen durch Testen von Austauschbarkeit. IEEE-Transaktionen auf Musteranalyse und Maschinenintelligenz, Bd. 32 (12), S. 2113-2127 (2010). CrossRef S. Muthukrishnan, E. van den Berg und Y. Wu: Sequentielle Änderungserkennung bei Datenströmen, Proc. ICDM-Workshop Data Stream Mining und Management, S. 551-556 (2007) V. Vovk, I. Nouretdinov und A. Gammerman: Prüfung der Austauschfähigkeit on-line. Proc. 20. Intl Conf. Maschinelles Lernen, T. S. 768-775 (2003). M. Steele: Stochastische Kalkül und Finanzanwendungen. SpringerVerlag, (2001). E. Keogh, J. Lin und A. Fu: HOT SAX: Effizientes Finden der ungewöhnlichsten Zeitreihen-Subsequenzen. In Proceedings of the 5. IEEE Internationale Konferenz zum Data Mining (ICDM05), S. 226-233 (2005). V. Moskvina und A. A. Zhigljavsky: Ein Algorithmus basierend auf der singulären Spektrumanalyse zur Veränderungspunktdetektion Kommunikation in Statistik: Simulation amp Computation, Vol. 32 (2), S. 319-352 (2003). MathSciNet MATH CrossRef Y. Takeuchi und K. Yamanishi: Ein einheitliches Framework für die Erkennung von Ausreißern und Veränderungspunkten aus nichtstationären Zeitreihendaten. IEEE Transaktionen auf Wissen und Datentechnik, Bd. 18 (4), S. 482489 (2006). CrossRef F. Desobry, M. Davy und C. Doncarli: Ein Online-Kerneländerungs-Erkennungsalgorithmus. IEEE-Transaktionen bei der Signalverarbeitung, Vol. 53 (8), S. 2961-2974 (2005). MathSciNet CrossRefAnomaly Detection und Anomaly Scores Diese technische Anmerkung beschreibt, wie die Anomalie Score implementiert und in den CLA (Cortical Learning Algorithmus) integriert ist. Die Anomalie-Punktzahl ermöglicht es dem CLA, eine Metrik zu liefern, die den Grad darstellt, in dem jeder Datensatz vorhersehbar ist. Zum Beispiel, wenn Sie ein zeitliches Anomalie-Modell haben, das den Energieverbrauch eines Gebäudes voraussagt, hat jeder Datensatz eine Anomalie-Punktzahl zwischen Null und Eins. Eine Null stellt einen vollständig vorhergesagten Wert dar, während ein Eins einen vollständig anomalen Wert darstellt. Die Anomalie-Score-Funktion von CLA ist auf der Oberseite des Kerns räumlichen und zeitlichen Pooler implementiert und erfordert keine räumlichen Pooler und zeitlichen Pooler-Algorithmus Änderungen. Der Benutzer muss das Modell als TemporalAnomaly-Typ angeben, damit das Modell den Anomalie-Score meldet. Die Anomalie-Punktzahl verwendet den zeitlichen Pooler, um neue Punkte in Sequenzen zu erkennen. Dies erkennt sowohl neuartige Eingabemuster (weil sie in keiner Sequenz gesehen wurden) als auch alte räumliche Muster, die in einem neuartigen Kontext auftreten. Ein TemporalAnomaly-Modell berechnet die Anomalie-Score basierend auf der Korrektheit der vorherigen Vorhersage. Dies wird als Prozentsatz der aktiven Spatial-Pooler-Spalten berechnet, die vom zeitlichen Pooler falsch vorhergesagt wurden. Der Algorithmus für die Anomalie ist wie folgt: Hinweis. Hier ist eine vorhergesagte Spalte eine Spalte mit einem Nicht-Null-Konfidenzwert. Dies ist nicht genau das gleiche wie mit einer Zelle im vorhergesagten Zustand. Für weitere Informationen, verweisen Sie die vorhergesagten Zellen vs Vertraulichkeit Abschnitt unten. So bedeutet eine Anomalie von 1, dass keine vorhergesagten Zellen aktiv wurden und eine vollständig anomale Aufzeichnung darstellen. Eine Punktzahl von 0 bedeutet, dass alle vorhergesagten Zellen aktiv wurden und eine vollständig vorhergesagte Aufzeichnung darstellen. Die Argumentation hinter dieser Formulierung des Anomalie-Score war, dass jeder Datensatz, der nicht vorhergesagt wird, ein neuartiger Rekord ist. Dies gilt, wenn wir das beste prädiktive Modell gebaut haben, das wir davon ausgehen, dass wir durch Trainingswärmen gemacht haben. Diese Anomalie wurde auf viele Datensätze angewendet. Es ist der Kern-Mechanismus in Numentas kommerziellen Produkt Grok verwendet. In manchen Fällen musst du einen gleitenden Durchschnitt der Anomalie einnehmen, anstatt nur die rohe Anomalie zu betrachten. In NuPIC bietet das Beispiel Beispiele für die Anomalie-Erkennung einen guten Ausgangspunkt. Siehe auch diese Reihe von Beispielen für das Schwärmen mit Anomalie-Erkennungsmodellen. Vertraulichkeit vs. vorhergesagte Zellen Um die zeitliche Anomalie zu berechnen, war die Absicht, eine normalisierte Zählung zu berechnen, wie viele Spalten aktiv waren und nicht vorhergesagt wurden. Als Implementierungsverknüpfung wurde die Menge der vorhergesagten Spalten berechnet, indem man Spalten mit Spalten-Vertraulichkeiten ohne Spalte betrachtet. Allerdings wurde später festgestellt, dass Spalten mit Nicht-Null-Vertraulichkeit nicht unbedingt irgendwelche vorhergesagten Zellen in ihnen haben. Um herauszufinden, ob sich eine Zelle im vorhergesagten Zustand befindet, verwenden wir die harte Matchzählung (die Anzahl der aktiven Synapsen, nach Berücksichtigung der Permanenzschwelle). Um jedoch die Vertraulichkeit für eine Zelle zu berechnen, verwendet der Temporal Pooler die Soft Match Count (die Anzahl der aktiven Synapsen, unabhängig von den Permanenzwerten). Daher wird der Satz von Spalten mit Nicht-Null-Vertraulichkeit immer ein Obermaterial der Spalten sein, die vorhergesagte Zellen enthalten. Wenn dieser Unterschied entdeckt wurde (April 2013), wurde eine Option zur CLA hinzugefügt, um die Anomalie-Punktzahl auf der Grundlage der vorhergesagten Zellen zu berechnen, anstatt die Vertraulichkeit zu verwenden. Einige Experimente, die die vorhergesagten Zellen verwenden, um die Anomalie-Score zu berechnen, wurden bei einigen Experimenten durchgeführt. Da diese Vorhersagen jedoch eine Teilmenge der Spalten mit Nicht-Null-Vertraulichkeiten sind, hatten die Ergebnisse notwendigerweise mehr falsche Positives. Ab der Zeit des Schreibens wurde keine Änderung der Berechnung der Anomalie-Punktzahl auf der Grundlage dieser Ergebnisse vorgenommen. Die Anomalie-Punktzahl wird noch mit Spaltenvertraulichkeiten berechnet. Nicht-zeitliche Anomalie-Erkennung Es gab auch einige Versuche, eine Anomalie-Erkennung hinzuzufügen, die nicht-zeitlich in der Natur sind, indem sie den Zustand des räumlichen Poolers verwendet. Eine nicht-zeitliche Anomalie ist definiert als eine Kombination von Feldern, die normalerweise nicht auftreten, unabhängig von der Geschichte der Daten. Da NontemporalAnomaly-Modelle keinen zeitlichen Pooler haben, basiert der Anomalie-Score auf dem Zustand innerhalb des räumlichen Poolers. Um die nicht-zeitliche Anomalie-Punktzahl zu berechnen, berechnen wir zuerst die Match-Punktzahl für jede gewinnende Spalte nach der Inhibition. Um die Anomalie-Punktzahl zu erhalten (wie ungewöhnlich die Daten sind), nehmen wir die Umkehrung der Gesamt-Spiele an. Der Hinzufügung von 1 ist zu vermeiden, zu teilen Durch 0 fehler Der Zweck dieser Anomalie war es, Eingangsaufzeichnungen zu erkennen, die neuartige oder seltene Eingabemuster darstellten (unabhängig vom Rest der Sequenz). Wenn ein Eingangsmuster eine niedrige Überlappungsbewertung mit den Gewinnspalten hat, stimmt keiner der Spalten mit dem Eingang sehr gut überein, was anzeigt, dass die CLA noch kein ähnliches Muster gesehen hat und dieses Muster neuartig ist. Umgekehrt, wenn sie Pflicht Zyklen für ein gegebenes Muster sind in der Regel niedrig, bedeutet dies, dass ein Muster wurde nicht für eine lange Zeit gesehen, was darauf hinweist, dass es selten ist. Dieser Algorithmus wurde auf einigen künstlichen Datensätzen ausgeführt. Allerdings waren die Ergebnisse nicht sehr vielversprechend, und dieser Ansatz wurde aufgegeben. Aus einer theoretischen Perspektive ist die zeitliche Anomalie-Erkennungstechnik eine Obermenge dieser Technik. Wenn ein statisches Muster von selbst neu ist, wird definitiv der zeitliche Pooler gute Vorhersagen machen und daher sollte die zeitliche Anomalie-Punktzahl hoch sein. Als solches gab es nicht zu viel Interesse an der Verfolgung dieser Route. Generalisiert exponentiell gleitenden Durchschnitt (EMA) - Modell mit Partikelfilterung und Anomalie-Erkennung Masafumi Nakano a. Akihiko Takahashi, b. Soichiro Takahashi a. Eine Graduate School of Ecnonomics, Universität Tokyo, 7-3-1 Hongo Bunkyo-ku, Tokyo, 113-0033, Japan b Wirtschaftswissenschaftliche Fakultät, Universität Tokio, 7-3-1 Hongo Bunkyo-ku, Tokyo, 113- 0033, Japan erhielt 15. September 2016. Überarbeitet am 19. November 2016. Akzeptiert am 23. Dezember 2016. Verfügbar online 28. Dezember 2016. Highlights Wir schlagen ein neues exponentielles gleitendes Durchschnitt (EMA) - Modell in einem staatlichen Rahmen vor. Wir entwickeln 3 Anomalie-Detektoren mit einem Partikelfilter für Investitionsentscheidungen. Wir implementieren die Investitionsanalyse mit unserer Methode, indem wir globale Vermögenspreisdaten verwenden. Unser Schema übertrifft praktisch bekannte Strategien, einschließlich Standard-EMAs. Dieses Papier schlägt ein verallgemeinertes, exponentielles gleitendes Durchschnitt (EMA) - Modell vor, ein neues stochastisches Volatilitätsmodell mit zeitabhängiger erwarteter Rendite an den Finanzmärkten. Insbesondere wirken wir effektiv einen Partikelfilter (PF) auf die sequentielle Schätzung von Zuständen und Parametern in einem Zustandsraumrahmen ein. Darüber hinaus entwickeln wir drei Arten von Anomalie-Detektoren, die leicht in den PF-Algorithmus implementiert werden, um für Investitionsentscheidungen verwendet zu werden. Infolgedessen ist eine einfache Anlagestrategie mit unserer Regelung auf der Grundlage der Standard-EMA und bekannter traditioneller Strategien wie gleichgewichteter Minimal-Varianz - und Risikoparitäten-Portfolios überlegen. Unser Datensatz ist die monatliche Gesamtrendite von globalen finanziellen Vermögenswerten wie Aktien, Anleihen und REITs, und die Wertpapiere werden mit verschiedenen Statistiken bewertet, nämlich zusammengesetzte Renditen, Sharpe Ratios, Sortino Ratios und Drawdowns. Partikelfilterung Anomalie-Erkennung Exponentielle Bewegungsdurchschnitte Stochastische Volatilität Staatliche Raummodelle Globale finanzielle VermögenswerteDektekt Anomalie mit bewegter Median-Zerlegung Zeitreihen-Zerlegung spaltete eine Zeitreihe in einen saisonalen, einen Trend und eine zufällige Restzeitreihe. Der Trend und die zufällige Zeitreihe können sowohl zur Erkennung von Anomalien genutzt werden. Aber die Erkennung von Anomalien in einer bereits anomalen Zeitreihe ist einfach. Arbeiten an einer anomalen Zeitreihe: Anomalie-Erkennung mit gleitender durchschnittlicher Zerlegung doesn8217t Arbeit Anomalie-Erkennung mit bewegten medianen Zerlegungsarbeiten Das Problem mit Moving Average In der Zeitreihenzerlegung in R. haben wir gelernt, dass der Algorithmus einen gleitenden Durchschnitt verwendet, um die Trends zu extrahieren Die zeitreihen Das ist in einer Zeitreihe ohne Anomalien ganz gut. Aber in Gegenwart von Ausreißern ist der gleitende Durchschnitt stark betroffen, da der Trend die Anomalien einbindet. Zuerst werden wir die Anomalie mit der Zersetzung mit gleitendem Durchschnitt erkennen. Da es gut funktioniert, werden wir Anomalien mit der Zersetzung mit bewegendem Median erkennen, um bessere Ergebnisse zu erzielen. Über die Daten: webTraffic. csv berichten die Anzahl der Seitenaufrufe pro Tag über einen Zeitraum von 103 Wochen (fast 2 Jahre). Um es interessant zu machen, fügen wir ihm einige (zusätzliche) Anomalien hinzu. Wenn wir uns die Zeitreihen anschauen, sehen wir deutlich eine Saisonalität von 7 Tagen, da am Wochenende weniger Verkehr stattfindet. Um eine saisonale Zeitreihe zu zerlegen, ist der Saisonzeitraum erforderlich. In unserem Beispiel wissen wir die Saisonalität 7 Tage. Wenn es unbekannt ist, ist es möglich, die Saisonalität einer Zeitreihe zu bestimmen. Last but not least müssen wir wissen, ob die Zeitreihe additiv oder multiplikativ ist. Unser Web-Verkehr ist multiplikativ. Zusammenfassend über unseren Web-Traffic: Saisonalität von 7 Tagen (über 103 Wochen) Multiplikative Zeitreihen Download webTraffic. csv Daten lt - lesen. Csv (webTraffic. csv. Sep, header T) Tage als. Numerisch (data Visite) pos floor (runif (1. 1. 50)) Tage i 15 pos Tage i 15 pos 1,2 Tage 510 pos 0 Plot (wie ts (Tage)) Verschieben Durchschnittliche Zersetzung (Schlechtes Ergebnis) 1 8211 Zerlegung Als Die Zeitreihe ist während der Zerlegung anomal, die Trends werden völlig falsch. In der Tat werden die Anomalien in den Trend gemittelt.

No comments:

Post a Comment