laplace

Qualitatives Signal in quantitativem Big-Data-Rauschen verfolgen

Joey Votto ist einer der besten Hitter in der MLB, der für Cincinnati Reds spielt. In letzter Zeit hat er viel Kritik dafür erhalten, dass er nicht in Streiks geschwungen ist, wenn Läufer auf der Basis sind. Fünf Uhr achtunddreißig beschlossen, diese Kritik mit Hilfe von Daten zu analysieren. Sie fanden diese Kritik wahr; Seine Schwünge auf Streikzonenplätzen, insbesondere bei Fastballs, sind deutlich zurückgegangen.

Aber alle sind sich einig, dass Votto immer noch ein großartiger Spieler ist. So sehe ich viele Big Data-Geschichten. Sie können erklären, „was“, aber Sie können nicht erklären, „warum“. In dieser Geschichte ging eigentlich niemand (das weiß ich) und fragte Votto: „Hey, warum schwingst du nicht all diese Fastballs in der Streikzone?“

Hier geht es nicht nur um Sport. Ich sehe das jeden Tag in meiner Arbeit in Unternehmenssoftware, während ich mit Kunden zusammenarbeite, um sie bei ihren Big-Data-Szenarien zu unterstützen, wie z. B. die Optimierung der Werbeprognosen im Einzelhandel, die Vorhersage der Kundenabwanderung in der Telekommunikation oder das Management des Risikoengagements in Banken.

Wenn Sie mehr Daten hinzufügen, entsteht bei diesen quantitativen Analysen viel mehr Rauschen, als wenn Sie sich einem Signal nähern. Über dieses Rauschen hinaus erwarten die Menschen, dass es ein perfektes Modell gibt, um es zu optimieren und vorherzusagen.

Eine quantitative Analyse allein hilft nicht, eine Nadel im Heuhaufen zu finden, aber sie hilft zu identifizieren, in welchem ​​Teil des Heuhaufens sich die Nadel verstecken könnte.
„In vielen Lebensbereichen werden Äußerungen von Unsicherheit fälschlicherweise als Zugeständnisse von Schwäche angesehen.“ – Nate Silver

Ich unterstütze und befürworte nachdrücklich die Philosophie von Nate Silver, „Vorhersagen“ als eine Reihe von Szenarien zu betrachten, an die eine Wahrscheinlichkeit gebunden ist, im Gegensatz zu einem deterministischen Modell. Wenn Sie nach einer präzisen binären Vorhersage suchen, werden Sie höchstwahrscheinlich keine bekommen.

Durch das Fixieren und Vervollkommnen eines Modells können Sie sich darauf konzentrieren, Ihr Modell an die früheren Daten anzupassen. Mit anderen Worten, Sie verbringen zu viel Zeit mit Signalen oder bereits vorhandenem Wissen, anstatt es als Ausgangspunkt (Bayesian) zu verwenden, und sind offen, so viele Experimente wie möglich durchzuführen, um Ihre Modelle unterwegs zu verfeinern. Der Kontext, der Ihre (quantitativen) Informationen in Wissen (Signal) umwandelt, ist Ihre qualitative Eignung und Einstellung zu dieser Analyse. Wenn Sie bereit sind, viele Fragen nach dem „Warum“ zu stellen, wenn Ihr Modell Ihnen „Was“ sagt, ist es wahrscheinlicher, dass Sie dem Signal, das Sie verfolgen, näher kommen.

Nicht alle quantitativen Analysen müssen einer qualitativen Übung folgen, um nach einem Signal zu suchen. Die Validierung einer bestehenden Hypothese ist eine der größten Big-Data-Waffen, die Entwickler verwenden, da SaaS es Entwicklern relativ einfach gemacht hat, ihre Anwendungen nicht nur zum Sammeln und Analysieren aller Arten von Nutzungsdaten zu instrumentieren, sondern auch eine Änderung auszulösen, um das Verhalten der Benutzer zu beeinflussen. Das jüngste Psychologieexperiment von Facebook, mit dem getestet wird, ob Emotionen ansteckend sind, hat viel Kritik ausgelöst.

Abgesehen von dieser quantitativen Analyse, die ethische und rechtliche Fragen berücksichtigt und Facebook beschuldigt, die Emotionen von 689.003 Nutzern für die Wissenschaft manipuliert zu haben, ist dies eine Bestätigung für ein bestehendes Phänomen in einer anderen Welt.

Priming ist ein bekanntes und bewährtes Konzept in der Psychologie, aber wir kannten keinen veröffentlichten Test, der dies in einem großen sozialen Online-Netzwerk beweist. Das Ziel hier war nicht, ein bestimmtes Signal zu verfolgen, sondern eine Hypothese zu validieren – ein „Was“ – für das das „Warum“ in einem anderen Bereich gut verstanden wurde.

Über das Foto: Laplace Transforms ist eine meiner bevorzugten mathematischen Gleichungen, da diese Gleichungen eine einfache Form komplexer Probleme (Exponentialgleichungen) erzeugen, die relativ einfach zu lösen ist. Sie helfen dabei, Probleme neu zu definieren, wenn Sie versuchen, das Signal zu empfangen.