StudiVZ war Deutschlands wohl bekannteste Studentenplattform, die aufgrund von Sicherheitsmängeln im November/Dezember 2006 erhöhte Aufmerksamkeit der Öffentlichkeit bekam.
Diese Seite ist als proof-of-concept zu verstehen und zeigt, dass es damals problemlos möglich war, die Daten zu crawlen. Es ist u.U. interessant, die Daten ausgewertet zu sehen, es ist aber nichts aufregendes dabei.
Vorschläge für weitere Auswertungen sind immer willkommen.
Ich lasse hier die Zahlen für sich sprechen. Aus den Daten weitere Schlüsse zu ziehen, sei den Sozialwissenschaftlern überlassen.
Vorsicht ist geboten, denn die Repräsentativität dieser Daten für Studierende in Deutschland ist keineswegs gewährleistet.
Um einen möglichst konsistenten Zustand der ausgelesen Daten zu erhalten, war es von Bedeutung in möglichst kurzer Zeit alle Profile auszulesen. Durch die Verteilung der Clients in ein Rechner-Cluster aus 10 Maschinen gelang dies innerhalb von weniger als vier Stunden.Klarstellung
StudiVZ hat einige Maßnahmen eingeführt, um das automatisierte crawlen der Profile effektiv zu verhindern. Ein "Abgrasen" ist demnach nur noch in sehr begrenztem Maße mit hohem Zeit- und Arbeitsaufwand möglich. Mir ist nicht bekannt, dass seit Dezember 2006 neue Versuche unternommen wurden.
Desweiteren möchte ich darauf hinweisen, dass in diese Statistik ausschließlich öffentlich zugängliche Daten eingeflossen sind. Ich hatte nie Zugriff auf geschützte Profile oder gar Zugangsdaten von Mitgliedern.
Datenbestand
1.074.574 Profile (davon 1.035.890 öffentlich) vom 9. Dezember 2006.Abschätzung aktiver Profile
Ein Profil wird hierbei als aktiv eingestuft, wenn das Profil öffentlich ist, die Person mindestens zwei Freunde hat, in mindestens einer Gruppe ist und das Profil innerhalb des letzten Monats aktualisiert wurde.
Diese Kriterien erfüllen 430.000 Profile. Lässt man das letzte Kriterium weg bleiben 708.000 Profile. Irgendwo dazwischen wird sich die Realität befinden.
Inhalt
- Ausgefüllte Profilfelder
- Interessen
- Politische Ausrichtung
- Studienrichtungen
- Freunde
- Gruppenrelationen
Ausgefüllte Profilfelder
Auch aus diesem Graph kann man die ungefähre Nutzerbasis bereits abschätzen. Nur gut die Hälfte der Nutzer hat ein recht aussagekräftig ausgefülltes Profil.
Interessen
Männer scheinen die Platform verstärkt als Dating-Portal zu benutzen. Es bleibt Interpretationsfrage, was sich die Leute unter "Was sich eben ergibt" vorstellen.
Politische Orientierung
Studienrichtungen
Benutzerverteilung
Auffällig ist der Hohe Anteil an Wirtschaftswissenschaftlern. Haben sie keine Freunde und leben nur virtuell? Das wäre doch eher etwas für Informatiker (siehe später). Vermutlich haben sehr viele in ihrem Studiengang ein Wirtschaftsfach als Nebenfach gewählt, wodurch sich dann die sehr hohe Konzentration an dieser Stelle ergibt.Geschlechtsverteilung
Die armen Informatiker ;)Freunde
Ein erneut trauriger Ausgang für Informatiker. Aber was ist denn da mit den Sportlern los? Ich tippe auf einen größeren Freundeskreis aufgrund von Sportvereinen.
Beziehungsstatus (neu)
Ohne Worte :)Politische Orientierung
Freunde
Der Graph zeigt, die Anzahl der Benutzer, die eine bestimmte Anzahl von Freunden haben. Interessant ist, dass die Freunde an der Uni bzw. außerhalb für sich genommen fast linear fallende Graphen sind, jedoch die Gesamtanzahl der Freunde eine eher normale Verteilung mit einem Mittelwert von 43 Freunden pro Benutzer ergibt.
Demnach haben Benutzer mit wenigen Freunden an der Uni, viele Freunde an anderen Unis und umgekehrt.
Ein Viertel der Benutzer (251063) hat mehr als doppelt so viele Freunde an anderen Unis als an der eigenen. Nur ein Zehntel der Benutzer (105248) hat an der eigenen Uni mehr als doppelt so viele Freunde wie an anderen.
Ein eher schönes Ergebnis der Auswertungen der Verbindungen zwischen den Gruppen ist der folgende Graph (vorsicht groß: viel Arbeitsspeicher empfohlen).
- Alter Graph (10% der Gruppendaten, 60MB unkomprimiert)
- Neuer Graph (500 MB unkomprimiert, cutoff 0.3)
- Neuer Graph (200 MB unkomprimiert, cutoff 0.4)
- Neuer Graph (80 MB unkomprimiert, cutoff 0.45)
- Neuer Graph (30 MB unkomprimiert, cutoff 0.5)
Lesehilfe
- Je höher eine Gruppe ist, desto größer ist deren Benutzerzahl (logarithmisch).
- Je kürzer die Verbindung zwischen zwei Gruppen, desto größer ist deren geteilte Benutzerbasis
Aufnahmebedingungen
Im Graph sind nur Gruppen mit mindestens 10 Mitgliedern vertreten. Die Stärke berechnet sich aus Anzahl der geteilten Mitglieder / Anzahl der Gruppenmitglieder. Nur Relationen mit einer Stärke von mindestens 0.4 (bzw. cutoff-value) sind im Graph verzeichnet. Das aber auch nur dann, wenn sie sich in einem größeren Node-Verband befinden.
Die den Graphen und Diagrammen zu Grunde liegenden Daten und Queries sind auch verfügbar.
Personen, die ein berechtigtes akademisches Interesse an dem Datenbestand haben, können im Rahmen des akademischen Zugriffsprogramms eine Datenanfrage stellen.
Für Fragen und Anregungen: Hagen Fritsch <hagen (minus) studivz (at) irgendwo.org>.
Weil die Frage wiederholt gestellt wird: Nein, ich habe keine (aktuelleren oder neue) (Daten oder Statistiken).
Die Einnahmen aus obiger Adsense-Werbung werden in vollem Umfang an die Organisation Ärzte ohne Grenzen gespendet.