Big Data

laplace

Qualitatives Signal in quantitativem Big-Data-Rauschen verfolgen

Joey Votto ist einer der besten Hitter in der MLB, der für Cincinnati Reds spielt. In letzter Zeit hat er viel Kritik dafür erhalten, dass er nicht in Streiks geschwungen ist, wenn Läufer auf der Basis sind. Fünf Uhr achtunddreißig beschlossen, diese Kritik mit Hilfe von Daten zu analysieren. Sie fanden diese Kritik wahr; Seine Schwünge auf Streikzonenplätzen, insbesondere bei Fastballs, sind deutlich zurückgegangen.

Aber alle sind sich einig, dass Votto immer noch ein großartiger Spieler ist. So sehe ich viele Big Data-Geschichten. Sie können erklären, „was“, aber Sie können nicht erklären, „warum“. In dieser Geschichte ging eigentlich niemand (das weiß ich) und fragte Votto: „Hey, warum schwingst du nicht all diese Fastballs in der Streikzone?“

Hier geht es nicht nur um Sport. Ich sehe das jeden Tag in meiner Arbeit in Unternehmenssoftware, während ich mit Kunden zusammenarbeite, um sie bei ihren Big-Data-Szenarien zu unterstützen, wie z. B. die Optimierung der Werbeprognosen im Einzelhandel, die Vorhersage der Kundenabwanderung in der Telekommunikation oder das Management des Risikoengagements in Banken.

Wenn Sie mehr Daten hinzufügen, entsteht bei diesen quantitativen Analysen viel mehr Rauschen, als wenn Sie sich einem Signal nähern. Über dieses Rauschen hinaus erwarten die Menschen, dass es ein perfektes Modell gibt, um es zu optimieren und vorherzusagen.

Eine quantitative Analyse allein hilft nicht, eine Nadel im Heuhaufen zu finden, aber sie hilft zu identifizieren, in welchem ​​Teil des Heuhaufens sich die Nadel verstecken könnte.
„In vielen Lebensbereichen werden Äußerungen von Unsicherheit fälschlicherweise als Zugeständnisse von Schwäche angesehen.“ – Nate Silver

Ich unterstütze und befürworte nachdrücklich die Philosophie von Nate Silver, „Vorhersagen“ als eine Reihe von Szenarien zu betrachten, an die eine Wahrscheinlichkeit gebunden ist, im Gegensatz zu einem deterministischen Modell. Wenn Sie nach einer präzisen binären Vorhersage suchen, werden Sie höchstwahrscheinlich keine bekommen.

Durch das Fixieren und Vervollkommnen eines Modells können Sie sich darauf konzentrieren, Ihr Modell an die früheren Daten anzupassen. Mit anderen Worten, Sie verbringen zu viel Zeit mit Signalen oder bereits vorhandenem Wissen, anstatt es als Ausgangspunkt (Bayesian) zu verwenden, und sind offen, so viele Experimente wie möglich durchzuführen, um Ihre Modelle unterwegs zu verfeinern. Der Kontext, der Ihre (quantitativen) Informationen in Wissen (Signal) umwandelt, ist Ihre qualitative Eignung und Einstellung zu dieser Analyse. Wenn Sie bereit sind, viele Fragen nach dem „Warum“ zu stellen, wenn Ihr Modell Ihnen „Was“ sagt, ist es wahrscheinlicher, dass Sie dem Signal, das Sie verfolgen, näher kommen.

Nicht alle quantitativen Analysen müssen einer qualitativen Übung folgen, um nach einem Signal zu suchen. Die Validierung einer bestehenden Hypothese ist eine der größten Big-Data-Waffen, die Entwickler verwenden, da SaaS es Entwicklern relativ einfach gemacht hat, ihre Anwendungen nicht nur zum Sammeln und Analysieren aller Arten von Nutzungsdaten zu instrumentieren, sondern auch eine Änderung auszulösen, um das Verhalten der Benutzer zu beeinflussen. Das jüngste Psychologieexperiment von Facebook, mit dem getestet wird, ob Emotionen ansteckend sind, hat viel Kritik ausgelöst.

Abgesehen von dieser quantitativen Analyse, die ethische und rechtliche Fragen berücksichtigt und Facebook beschuldigt, die Emotionen von 689.003 Nutzern für die Wissenschaft manipuliert zu haben, ist dies eine Bestätigung für ein bestehendes Phänomen in einer anderen Welt.

Priming ist ein bekanntes und bewährtes Konzept in der Psychologie, aber wir kannten keinen veröffentlichten Test, der dies in einem großen sozialen Online-Netzwerk beweist. Das Ziel hier war nicht, ein bestimmtes Signal zu verfolgen, sondern eine Hypothese zu validieren – ein „Was“ – für das das „Warum“ in einem anderen Bereich gut verstanden wurde.

Über das Foto: Laplace Transforms ist eine meiner bevorzugten mathematischen Gleichungen, da diese Gleichungen eine einfache Form komplexer Probleme (Exponentialgleichungen) erzeugen, die relativ einfach zu lösen ist. Sie helfen dabei, Probleme neu zu definieren, wenn Sie versuchen, das Signal zu empfangen.

Die dunkle Seite von Big Data

Es ist wieder passiert. Forscher haben herausgefunden, dass das Ad-Targeting-System von Google diskriminierend ist. Männlichen Webnutzern wurden eher hochbezahlte Anzeigen von Führungskräften gezeigt als weiblichen Besuchern.

Die Forscher haben einen Artikel veröffentlicht, der auf dem Symposium Privacy Enhancing Technologies in Philadelphia vorgestellt wurde.

Ich hatte vor fast zwei Jahren über die dunkle Seite von Big Data gebloggt. Latanya Sweeney, eine Harvard-Professorin, googelte ihren eigenen Namen, um eine Anzeige neben ihrem Namen zu finden, die darauf hindeutet, dass sie verhaftet wurde.

Sie grub tiefer und kam zu dem Schluss, dass sogenannte schwarz identifizierende Namen wesentlich wahrscheinlicher die Ziele für solche Anzeigen waren. Sie hat dies in ihrer Arbeit Diskriminierung bei der Online-Anzeigenschaltung dokumentiert. Google bestritt daraufhin ohnehin, dass AdWords diskriminierend ist, und Google bestritt derzeit, diskriminierend zu sein.

Ich möchte Google glauben. Ich glaube nicht, dass Google glaubt, dass sie diskriminierend sind. Und das ist die diskriminierende Schattenseite von Big Data. Ich habe nicht die Absicht, eine düstere Bild- und Schuldtechnologie zu malen, aber ich finde es beängstigend zu beobachten, dass sich die Technologie viel schneller ändert als die Fähigkeit der klügsten Köpfe, die Auswirkungen zu verstehen.

Eine Kombination aus massiv parallelem Rechnen und hochentwickelten Algorithmen, um diese Parallelität zu nutzen, sowie die Fähigkeit von Algorithmen, zu lernen und sich anzupassen, ohne dass manuelle Eingriffe relevanter werden, fast in Echtzeit, werden noch viel mehr solcher Probleme auftauchen lassen.

Als Kunde wissen Sie einfach nicht, ob die angebotenen Produkte oder Dienstleistungen zu einem bestimmten Preis auf diskriminierenden Praktiken beruhen.

Um dies weiter zu erschweren, wissen selbst Unternehmen in vielen Fällen nicht, ob Erkenntnisse, die sie aus einer Vielzahl interner und externer Daten gewinnen, diskriminierend sind oder nicht. Dies ist die dunkle Seite von Big Data.

Die Herausforderung bei Big Data besteht nicht in Big Data selbst, sondern darin, was Unternehmen mit Ihren Daten in Kombination mit anderen Daten tun können, ohne dass Sie genau wissen, wie Algorithmen funktionieren.

Um diskriminierende Praktiken zu verhindern, werden Beschäftigungspraktiken geprüft, um Chancengleichheit und Zulassung zu Hochschulen zu gewährleisten, um einen fairen Zulassungsprozess zu gewährleisten. Ich sehe jedoch nicht, wie diese Algorithmen und Datenpraktiken geprüft werden.

Disruptive Technologie stößt immer auf sozioökonomische Probleme, die vorher nicht existierten oder die nicht offensichtlich und unmittelbar bevorstanden. Manche Menschen sind verärgert, weil sie nicht genau verstehen, wie Technologie funktioniert.

Ich erinnere mich noch an Politiker, die versuchten, GMail dafür verantwortlich zu machen, dass sie E-Mails „gelesen“ hatten, um Werbung zu schalten. Ich glaube, dass Big Data eine weitere solche Störung ist, die ähnliche Probleme verursachen wird, und es ist enttäuschend, dass sich in den letzten zwei Jahren nicht viel geändert hat.

Es hat eine Weile gedauert, bis die Internetunternehmen herausgefunden haben, wie sie unsere persönlichen Daten schützen können, und sie sind noch nicht einmal dort, aber ihre Fähigkeit, die Art und Weise zu kontrollieren, wie diese Daten verwendet werden könnten, ist sehr fraglich. Vergessen wir nicht, dass Daten nicht diskriminieren.

Wir sollten diese Probleme nicht scheuen, sondern gemeinsam hart daran arbeiten, herauszustellen und zu vertiefen, was diese Probleme sein könnten, und sie anzugehen, anstatt die Technologie für das Böse verantwortlich zu machen.20

Mehr Infos zum Thema finden Sie hier: Big Data was ist der Nachteil