Data Mining – Von der Wunschliste zum Staatsfeind

hollowhuman Data Mining   Von der Wunschliste zum StaatsfeindWenn man sich die Sorglosigkeit anschaut, mit der sehr viele Menschen dem Informationszeitalter begegnen, könnte man meinen, die Welt ist voller Narren. Selbst Menschen, die früher nicht an jedem entdeckten Preisausschreiben teilgenommen haben, um gegen Angabe von ein paar Haushaltsdaten einen von fünf Toastern gewinnen zu können, laufen mit einem ganzen Satz an Paybackkarten durch die Gegend. Schließlich kriegt man ja am Jahresende womöglich ein Prozent der Ausgaben zurück oder nimmt zumindest an der Verlosung der Gran Canaria Reise teil. Geiz ist geil und das Gerücht vom gläsernen Menschen ist ja sowieso nur eine Fantasie aus Hollywood.

Eine Diskussion des Themas ist in der Regel nicht einfach. Häufig wird die Frage “Hast du dir mal Gedanken gemacht, welche Ziele der Anbieter der Payback-Karte verfolgt” entweder mit der Aussage “Weil es andere auch machen” oder “Was interessieren mich die Ziele des Anbieters” aus dem Feld geschlagen. Wenn man die erste Hürde schafft, kommt man ziemlich schnell zu dem Schluss, dass der Anbieter eine schöne Sammlung an Daten über seine Kunden bekommt. An dieser Stelle gibt es wieder zwei übliche Reaktionen: “Was kann der Anbieter mit meinen Daten schon anfangen” ist die eine, die andere ist “Darum habe ich ja keine Payback-Karte”.

Ich will mich im folgenden aber gar nicht weiter auf Payback-Karten konzentrieren. Ein sehr guter englischsprachiger Artikel von Tom Owad auf der Applefritter Site über das Thema “Data Mining” hat mich auf die Idee gebracht, eine sehr freie deutschsprachige “Übersetzung” zu schreiben. Der Artikel beschreibt einen Weg, wie man prüfen kann, ob in seiner Nachbarschaft “Staatsfeinde” wohnen. Dazu bedient er sich neben einer Vorgehensweise, die weder dem FBI noch den deutschen Behörden fremd sind, ausschließlich freien Web Diensten.

documents Data Mining   Von der Wunschliste zum Staatsfeind

Was ist Data Mining?

Data Mining ist die Auswertung von Informationen, die in einer oder mehreren, auch verteilten Datenbanken liegen. Da es hier grundsätzlich um sehr große Mengen von Daten geht, werden für die Auswertungen üblicherweise statistische Ansätze gewählt. Hier können z.B. Mitgliedschaften zu Vereinigungen herangezogen werden, die nicht immer die Meinung der ortsansässigen Regierung vertreten (z.B. Greenpeace, Chaos Computer Club, Gewerkschaften, usw). Sehr hilfreich sind Informationen über die Interessen, Neigungen und Ansichten eines Menschen.

Da die Datenmengen nicht händisch ausgewertet werden können, programmiert man Computer entsprechend den gewünschten Kriterien und überläßt diesen das Urteil. An dieser Stelle spielt es übrigens keine Rolle, wie man sich selbst einschätzt – die Kriterien werden von anderen festgelegt. Wer in Greenpeace eintritt, um seine Chancen bei der frei denkenden rothaaringen Öko-Sekretärin zu erhöhen, sollte sich bewußt machen, dass er womöglich der Einordnung als “Staatsfeind” ein Stück näher gekommen ist.

Sage mir was du liest und ich sage dir was du bist

Ein sehr probates Mittel ist anhand der Bücher, die jemand liest, auf seine Interessen, Neigungen und Ansichten zu schliessen. Wenn ich an die brennenden Synagogen denke, gehe ich zwar davon aus, dass dieses Kriterium nicht alle “Staatsfeinde” erfasst, aber jedenfalls ist es ein in der Realität genutzes Kriterium. Spätestens, wenn einem aufgrund von Büchern auf der Amazon-Wunschliste die Einreise in die USA verwehrt wird, wird man sich dieser Aussage ohne Einschränkungen anschliessen.

Als Kriterium können z.B. Buchtitel, gelesene Autoren oder Bücher zu bestimmten Themen dienen. Beispiele für Büchern können “1984″ (George Orwell), “Fahrenheit 451″ (Ray Bradbury) oder “Schlachthof 5″ (Kurt Vonnegut) sein. Ein Beispiel für einen Autor wäre in den USA sicher Michael Moore, eines der potentiell interessanten Themen dürfte derzeit unter anderem der Islam sein. Die tatsächlich verwendeten Listen sind sicher “etwas” länger, ich möchte hier nur Beispiele nennen.

Informationsquelle 1 – Die Bücherliste

books Data Mining   Von der Wunschliste zum StaatsfeindDamit man die Auswertung starten kann, benötigt man eine Datenquelle. Hier bietet sich z.B. die Amazon Wunschliste an. Amazon Kunden können hier Produkte – nicht nur Bücher – aufnehmen, die sie gerne hätten. Andere können aus der Wunschliste etwas auswählen und es auch gleich der betreffenden Person zuschicken. Positiv: die meisten verwenden hier ihren richtigen Namen, viele geben auch gleich noch den Ort an. Negativ, für unser Vorgaben: es fehlt die konkrete Anschrift und ausserdem kann man sich keine Liste aller Personen anzeigen lassen. Glück im Unglück: die Suche nach einem Vornamen klappt – man bekommt eine Liste mit allen betreffenden Einträgen.

Die Suche nach dem Vornamen “Michael” führt zu fast 50.000 Treffern, davon werden die ersten 25 angezeigt. Während die URL der ersten Ergebnisseite wenig für eine automatische Auswertung nützt, bringt die URL, die nach dem Klick auf ‘Weiter’ die zweite Seite anzeigt, mehr Erkenntnisse:

http://www.amazon.de/gp/registry/search.html/[...]&type=wishlist&field-location=&field-name=Michael&page=2

Die letzten beiden Parameter entsprechen unserem Suchbegriff sowie der Seitennummer bezogen auf die Ergebnisliste. Mittels des Tools wget können die Ergebnislisten leicht auf die Festplatte übertragen werden. Die Anzahl der Ergebnisse steht gleich auf der ersten Ergebnisseite, eine kleine Schleife ruft die Daten in 25er Blöcken ab. Was uns jetzt noch fehlt ist eine Liste der Vornamen.

Informationsquelle 2 – Liste mit Vornamen

Eine Auswahl an männlichen und weiblichen Vornamen gibt es zwar bereits in der Wikipedia, nach einer kurzen Google-Recherche stößt man aber schnell auf bessere Listen (Beispiel: männliche Vornamen, weibliche Vornamen). Ob man nun die Umsetzung mit einer UNIX Shell, Perl, C, Visual Basic oder PHP macht, ist nebensächlich. Mit ein bisschen Grundkenntnissen in der Programmierung, die heutzutage jeder gute IT Techniker haben sollte, ist schnell ein kleines Script erstellt, dass über alle Vornamen die Ergebnisse der Wunschlisten auf die Festplatte kopiert.

In diesen Daten kann nun nach den gewünschten Kriterien gesucht werden. Welche Bücher, Autoren und Themen dies sind, kann frei gewählt werden. Im einfachsten Fall macht man eine reine Textsuche über die gespeicherten HTML Dateien und merkt sich die Dateinamen, in denen ein Treffer vorkam. Innerhalb der betreffenden Datei findet man auch den Namen der Person sowie häufig auch gleich noch eine Ortsangabe. Da die HTML Seiten eine einheitliche Struktur haben, ist es ein leichtes, die Informationen per Script aus den Seiten zu extrahieren.

Informationsquelle 3 – Adressverzeichnisse

Was haben wir jetzt? Wir haben eine Liste von Personen, die bestimmte Bücher lesen. Von jeder Person kennen wir den Namen, die einzelnen Bücher sowie häufig auch den Ort. In dem Beispiel auf der Applefritter Site wurden die Anschriften über Yahoo People Search gesucht, für deutsche Personen bietet sich eher das Telefonbuch an (in der Profisuche ist keine Ortsangabe erforderlich). Alternativ können auch weitere Personensuch-Services im Internet in Anspruch genommen werden, eine kleine Auswahl: goyellow.de, klicktel.de, personensuche.biz oder personensucher.de. In den USA ist man uns im Bereich des freizügigen Umgangs mit persönlichen Daten noch etwas voraus, daher wird man nicht die gleiche Erfolgsquote wie in dem Applefritter Beispiel mit Yahoo People Search erreichen. Da man aber nur noch nach Personen sucht, die die Kriterien bereits erfüllen, ist die Anzahl der Personen ja – hoffentlich – nicht mehr so groß.

Ein schönes Beispiel dafür, dass die Kriterien sehr gut überlegt sein müssen, findet sich ebenfalls auf der Applefritter Site. Dort wurde auch nach dem Wort ‘Bible’ gesucht, in der Ergebnisliste tauchte dann die Cannabis Bible auf. Wie schrieb er so schön: right person, wrong list.

Grafische Übersichten

1984matches Data Mining   Von der Wunschliste zum StaatsfeindIm Prinzip sind wir jetzt am Ziel. Unter Nutzung von freien, verfügbaren Informationsquellen können wir anhand selbstgewählter Kriterien Personen ausfindig machen, die “subversive Literatur” lesen. Zu einem beachtlichen Teil können wir weiterhin die Adressen der Kandidaten ermitteln. Dies klappt zwar derzeit noch in den USA besser, die aktuellen politischen Signale machen aber Hoffnung, dass die verfügbaren Datenmengen und Auswertungsmöglichkeiten auch in Europa zunehmend weniger von Datenschützern behindert werden.

Tom Owad hat in seinem Beispiel anschließend noch mittels Ontok Geocoder die Längen- und Breitengrade der Adressen ermittelt, um damit anschließend Google Maps damit zu füttern. Mit Hilfe von ein bisschen JavaScript und der Nutzung der Google Map API lassen sich dann wunderbar die “Staatsfeinde” auf einer Grafik markieren. Einen Überblick über die Amazon Kunden, die gerne “1984″ von George Orwell lesen möchten, bekommt man durch Anklicken des kleinen Kartenausschnitts (Verweis auf die Applefritter Site).

Adhoc habe ich leider keinen Service gefunden, um die Längen- und Breitengrade für deutsche Adressen zu ermitteln. Die Services werden zwar angeboten, sind aber allesamt kostenpflichtig. Jeder mag sich selbst beantworten, ob diese Hürde für diejenigen, die gezielt solche Auswertungen machen möchte, wirklich eine Hürde wäre.

3 Kommentare zum Artikel “Data Mining – Von der Wunschliste zum Staatsfeind”

  1. Update: wer die Längen- und Breitengrade für deutsche Adressen ermitteln möchte, kann dies bei Multimap.com tun.

  2. so um deutsche adressen zu bestimmen … kannst du kostenfrei den hier nutzen:
    http://www.travelgis.com/geocode/Default.aspx

    Danach einfach lat & long google übergeben … fertig :-)

  3. google map api bietet jetzt auch kostenloses geocoding für deutsche adressen an.

    http://www.google.com/apis/maps/documentation/#Geocoding_Etc

Schreibe einen Kommentar


Beim Speichern ihres Kommentars wird auch ihre IP Adresse gespeichert (nur für den Website-Betreiber einsehbar)!