Der Begriff „Big Data“ ist etwas verwirrend. Er wird oft ohne genaue Erklärung verwendet. Es gibt aber verschiedene Definitionen, die dabei helfen können, das Thema zu verstehen.

Typische Definitionen von „Big Data“

„Big Data“ – einfach erklärt
Bekannt geworden ist die Formulierung „Big Data“ ungefähr ab dem Jahr 2013. Damals erschien beispielsweise ein Buch mit dem Titel „Big Data: Die Revolution, die unser Leben verändern wird“. In den Medien wird der Begriff seitdem immer wieder aufgegriffen und mit verschiedenen Themen verknüpft.
Wörtlich übersetzt bedeutet „Big Data“ ganz einfach „Große Daten“ – oder besser „Große Datenmengen“. Es geht also um eine große Anzahl von Daten bzw. Informationen, die gesammelt, gespeichert oder ausgewertet werden. Aber wann ist eine Datenmenge denn „groß“ und damit „Big Data“?
Hier findest du zwei beispielhafte Definitionen, die im Zusammengang mit „Big Data“ oft verwendet werden.


Definition nach den 3 V's

Eine beliebte Definition von Big Data ist die Aufzählung der 3 V‘s Volume, Variety und Velocity:
  • Mit Volume (englisch für „Größe“ oder „Menge“) ist in diesem Fall gemeint, dass die betrachteten Daten sehr viel Speicherplatz verbrauchen und sehr viele Informationen enthalten.
  • Mit Variety (englisch für „Unterschiedlichkeit“ oder „Variation“) ist gemeint, dass gesammelte Daten oft sehr unterschiedlich und vielfältig sind. Es wird also immer schwieriger, sie zu verstehen und zu sortieren.
  • Mit Velocity (englisch für „Geschwindigkeit“) ist gemeint, dass sich Daten heute teilweise schnell ändern und von modernen Computern auch sehr schnell verarbeitet werden.
Diese „3 V‘s“ werden oft in Büchern oder Präsentationen genannt, um zu zeigen, was so besonders an Big Data ist. Es ist also sicherlich nützlich diese Definition zu kennen. Manche Autoren nehmen auch noch mehr V‘s dazu – zum Beispiel Veracity (englisch für „Korrektheit“) oder Value (englisch für den „Wert“ der Daten).
All diese Begriffe erklären aber nur die technischen Eigenschaften von aktuellen Datenbanken und Computern – und nicht um die verschiedenen Möglichkeiten, Chancen und Probleme, die sich daraus ergeben.
Das Fazit zu den „3 V‘s“: Die 3 V‘s Volume, Variety und Velocity geben einen guten Überblick über das Themenfeld Big Data. Diese technische Definition erklärt aber nicht, warum das Thema für uns alle wichtig ist.
Weil die meisten Erklärungen zu Big Data zu speziell oder schwer verständlich sind, wird in diesem Kurs auf Serlo eine eigene, praktischere Definition verwendet.

Eine praktischere Definition von „Big Data“

Der Begriff „Big Data“ umfasst im Grunde drei technologische Entwicklungen:
  • Das automatisierte Erfassen von Daten,
  • das automatisierte Übermitteln von Daten und
  • das automatisierte Auswerten von Daten
Die Grafik zeigt, wie diese drei Schritte zusammenhängen und wie aus einzelnen Daten „Big Data“ wird:
Big Data: Erfassen – Übermitteln – Auswerten (Grafik von Paul Wollny)
Bei all diesen Vorgängen entstehen große Datenmengen. „Big Data“ steht aber auch für die vielen Informationen, die man aus diesen Datenmengen herleiten kann. Das wird deutlich wenn wir uns die drei Entwicklungen genauer ansehen:
  • Dass immer mehr Daten automatisiert erfasst werden, hast du sicherlich schon in deinem Alltag bemerkt. Denn egal ob du eine Webseite auf deinem Laptop aufrufst oder ein Ticket an einem Automaten kaufst – bei fast jeder Interaktion mit einem digitalen Gerät entstehen Daten. Außerdem werden viele Sensoren immer besser, mit denen beispielsweise das Wetter, dein Puls oder bestimmte Bewegungen digital erfasst werden können.
    
  • Dass viele erfasste Daten auch sofort automatisiert übermittelt werden können, liegt vor allem an der ständigen Verfügbarkeit des Internets. Viele moderne Geräte sind standardmäßig miteinander verbunden. Wenn du beispielsweise eine Navigations-App verwendest, wird dein Standort automatisch an einen Großrechner gesendet, damit der dir dann eine passende Route vorschlagen kann. Und wenn du einen Film oder einen Song über einen Streaming-Dienst abspielst, erfährt der Anbieter direkt, was für ein Abspiel-Gerät du dafür verwendest.
    
  • Und dass diese Daten automatisiert ausgewertet werden können, liegt vor allem daran, dass die entsprechenden Computer immer leistungsstärker werden. So kann beispielsweise der Deutsche Wetterdienst aus Millionen von Daten und tausenden Sensoren auf der ganzen Welt automatisch eine Wettervorhersage für den nächsten Tag erstellen. Wenn ein einzelner Computer nicht ausreicht, um sich in den „Big Data“ zurechtzufinden, verwenden Unternehmen sogar oft mehrere Rechner gleichzeitig für ihre Berechnungen.
Du hast jetzt einen groben Überblick über die technologischen Entwicklungen, die hinter dem Begriff „Big Data“ stecken. Sieh dir als nächstes auch die anderen Artikel im Themenbereich „Big Data“ an:
Jede Datei auf deinem Handy oder Computer hat eine bestimmte Dateigröße. Auch dein Profil in einem Sozialen Netzwerk besteht aus verschiedenen Dateien – etwa aus deinen Fotos, Videos, Kontakt-Informationen oder einer Sammlung all deiner Chat-Nachrichten.
Wenn viele solche Informationen an einem Ort gespeichert werden, geschieht das meist in einer Datenbank. In einem Sozialen Netzwerk gibt es also eine Datenbank, in der alle Profile von allen Nutzern gemeinsam gespeichert werden – mit allen Fotos, Videos, Nachrichten usw. Die Größe einer Datenbank wird dabei in „Byte“ angegeben – oder in „Gigabyte“, „Terabyte“ und so weiter.
Hier eine kleine Übersicht über die Größen-Einheiten:
  • 1.000 Byte = 1 kB (Kilobyte) Das entspricht einer kleinen Text-Datei.
  • 1.000 kB = 1 MB (Megabyte) So groß ist ein kleines Foto oder eine Sprachaufnahme.
  • 1.000 MB = 1 GB (Gigabyte) Das entspricht einem langem Video in hoher Auflösung. Ein Smartphone hat mehrere GB Speicherplatz – für viele Nachrichten, Fotos usw.
  • 1.000 GB = 1 TB (Terabyte) So viel Speicherplatz hat eine große Festplatte.
  • 1.000 TB = 1 PB (Petabyte) Ein Petabyte sind also ungefähr 1.000 große Festplatten (mit 1 Million Videos)!
Wenn man nun irgendwo eine Grenze ziehen würde, könnte man beispielsweise sagen „Ab 20 Terabyte ist eine Datenbank ‚Big Data‘.“ Alle anderen Datenbanken wären dann eben klein – also „small Data“.
Das Problem dabei: Wer legt diese Grenze fest? Was passiert wenn die Computer schneller werden, und die Festplatten größer? Wird die Grenze dann von 20 auf 50 Terabyte erhöht – oder doch lieber auf 1 Petabyte?
Du merkst also: Eine solche Definition ist schwierig und müsste immer wieder angepasst werden. Damit wäre sie aber auch willkürlich und ungenau.
Das Fazit zur Definition nach Größe: Eine feste Einteilung anhand von Dateigrößen hilft nicht wirklich dabei, das Thema Big Data zu verstehen. Schließlich geht es nicht nur um die Größenverhältnisse verschiedener Datenbanken.

Aufgabe