Was ist Big Data? - Big Data Analytics, Software, Tools + Trends

Software Wissen Logo

Big Data gilt gegenwärtig in der IT-Branche als IT-Trend schlechthin und wird dementsprechend kontrovers diskutiert.

Mit dem fast schon inflationären Gebrauch des Begriffs Big Data geht die Gefahr einher, dass er zu einem Mode- oder Plastikwort ohne klare Konturen verkommt. Hinzu kommt, dass die IT-Branche hinsichtlich Modethemen ein gebranntes Kind ist: Green IT, SOA, EAI, Dotcom-Blase, … Es verwundert deshalb nicht, dass in der Diskussion um Big Data immer mal wieder das Wort Hype fällt.

Ist Big Data wirklich nur eines dieser schnelllebigen Modewörter, von Marketingstrategen zunächst gepusht, dann aber genauso schnell wieder fallengelassen, bis es dann irgendwann mehr oder weniger in der Versenkung verschwindet?

Relevante Fragen zum Thema Big Data, auf die im folgenden Text näher eingegangen wird:

  1. Was ist Big Data?
  2. Was ist Big Data Analytics?
  3. Welche Herausforderungen stellt die Auswahl von Big Data Software?
  4. Welche Big Data Lösungen bieten Softwarehersteller an?
  5. Welche Big Data Faktoren sind für Unternehmen zu berücksichtigen?
  6. Zusammenfassung: Was müssen Unternehmen bei der Big Data Software Auswahl beachten?

Was ist Big Data?

Bislang fehlt eine allgemeingültige, klare Definition von Big Data. Generell kann Big Data als jedes Dataset definiert werden, welches die Grenzen und Möglichkeiten der konventionellen IT übersteigt. Big Data handelt von allem, was mit herkömmlicher Technologie aufgrund der Größe der Daten nicht mehr funktioniert, d. h. etwa große Datenmengen zu erfassen, zu speichern, zu durchsuchen, zu verteilen, zu analysieren und zu visualisieren. Standard-Datenbanken und -Tools haben zunehmend Probleme, mit der steigenden Flut an Daten fertig zu werden: Relative Datenbanken scheitern am Volumen, ETL-Prozesse sind zu langsam und haben Schwierigkeiten mit den vielfältigen Datenformaten, die traditionelle BI ist daher zu langsam und kann die Massen an unstrukturierten Daten nicht mehr effektiv verarbeiten.

Die Entstehung von Big Data

Hintergrund der Diskussionen um Big Data ist der starke Anstieg des weltweiten Datenvolumens. Eine Vielzahl unterschiedlicher Quellen ist dafür verantwortlich: Sensordaten, Maschinendaten, Log-Daten, das WordWideWeb oder RFID-Chips. Im Jahre 2011 knackte das weltweite Datenvolumen die Zettabyte-Barriere (1 mit 21 Nullen) und ein Ende des Wachstums ist nicht in Sicht. 2020 sollen es bereits 35 Zettabyte sein.

Es sind aber nicht allein die gigantischen Datenmengen, die das Big-Data-Problem ausmachen. Auch die fehlende Struktur - von polystrukturierten Daten ist die Rede - und die unterschiedlichen Formate sind für die herkömmliche Unternehmenssoftware äußerst problematisch. Konventionelle BI-Software basiert auf einem Data Warehouse, in dessen Kern klar strukturierte und vereinheitlichte Daten lagern müssen. Dazu sind im Vorfeld aufwendige Extraktions-, Ladungs- und Transaktionsprozesse (ETL) nötig. Nur so können die Daten nutzbringend weiterverarbeitet werden. Unter den Bedingungen eines zunehmenden Datenvolumens bei gleichzeitig fehlender Strukturierung lassen sich die Daten in den relationale Datenbanken der Data Warehouses nicht mehr effizient abbilden.

Themenfelder Big Data
Datenmenge Analytics Geschwindigkeit Datenvielfalt
Verarbeitung großer Datenvolumen Erstellung von Modellen schneller Daten aufrufen Strukturierung der Daten
Verarbeitung unterschiedlicher Datensätze Data Mining schneller Daten selektieren Verwaltung unterschiedlichen Datentypen

 

Was ist Big Data Analytics?

Big Data ist vor allem für den Bereich der Business Intelligence (BI) relevant, welcher sich mit der Analyse von Daten (Erfassung, Auswertung, Darstellung) befasst. Big Data Analytics beschreibt die systematische Auswertung/Analyse großer Datenmengen mit Hilfe neu entwickelter Software. Big Data Software umfasst im Gegesatz zu herkömmlichen Software Lösungen besondere Funktionen und Techniken, die die parallele Verarbeitung vieler Daten ermöglicht.

  • Verarbeitung vieler Datensätze
  • schneller Import von Daten
  • schnelle Suche und Abfrage von Daten
  • gleichzeitige Bearbeitung mehrerer Abfragen
  • Analyse unterschiedlicher Informationstypen

Big Data Analysis repräsentiert einen der heißesten Trends in der Business Intelligence Software Branche.

An dieser Stelle stellen sich viele Unternehmen die Fragen, was genau eigentlich der Unterschied zwischen Big Data Analytics und Big Data Analysis ist? Hilfreiche Erklärungen zu diesem Thema finden Sie in unserem Fragenbereich: Was ist der Unterschied zwischen Big Data Analytics und Big Data Analysis?

Hier finden Sie Empfehlungen von SAP zur effektiven Verarbeitung von Big Data: Big Data einfach und schnell auswerten

Big Data Software

Big Data Software kann die Grundlage für Big Data Analyse bilden. Ein Software Programm kann die unter Big Data Analytics aufgeführten Anwendungen ausführen.

Welche Herausforderungen stellt die Auswahl von Big Data Software?

Die Unternehmenssituation: gestiegene Anforderungen, wachsende Herausforderungen

Das beschriebene Phänomen der wachsenden Datenmassen und der Vervielfältigung der Datenquellen ist, wie bereits erwähnt, nicht gänzlich neu. Das wirklich Neue des Phänomens Big Data scheint eher, aus dem Unternehmensumfeld zu kommen. Es sind die gestiegenen Anforderungen von Unternehmensseite, die Big Data eine neue Dimension verleihen. BI-Software hat in den letzten Jahren eine zunehmende strategische Bedeutung in den Unternehmen erlangt. Dementsprechend sind sowohl die Zahl der Nutzer immer weiter gestiegen als auch die Erwartungen an die Aktualität und kurzfristige Verfügbarkeit der Daten sowie an die Abfrageperformance des Systems bei gleichzeitig komplexerem Analysebedarf.

Die gestiegenen Anforderungen spiegeln dabei die gestiegenen Herausforderungen der Geschäftswelt wider. Angesichts des an Schärfe gewinnenden globalen wirtschaftlichen Wettbewerbs gilt mehr denn je: Zeit ist Geld. Diejenigen Unternehmen, die am schnellsten auf das aktuelle Marktgeschehen reagieren und die interne Prozesslandschaft auf die Marktanforderungen ausrichten können, verschaffen sich einen entscheidenden Wettbewerbsvorteil. Neben dem wichtigen Faktor Zeit ist es für Unternehmen unerlässlich, die immer komplexer werdenden Strukturen und deren Zusammenhänge im Unternehmen leicht durchschauen zu können. Nur wenn man weiß, wo und was im eigenen Unternehmen genau schief läuft, können wirksame Gegenmaßnahmen eingeleitet werden.

 Zudem hat sich mittlerweile in großen Teilen der Unternehmenswelt ein Bewusstsein vom strategischen Wert von Daten etabliert. Dieses Bewusstsein spiegelt sich in dem Umstand wider, dass mittelständische Unternehmen BI-Software mittlerweile fast schon standardmäßig einsetzen. Dies geht aus der aktuellen Studie des Beratungs- und Marktanalystenhauses SoftSelect zum Thema Business Intelligence hervor. Wer es schafft, das enorme Datenmaterial hinsichtlich zunächst verborgener Muster und Beziehungen erfolgreich zu analysieren, ist seinen Wettbewerbern oftmals einen Schritt voraus. Um dem Zeit- und Komplexitätsaspekt des Unternehmensalltags Rechnung zu tragen, bedarf es aber einer leistungsstarken Verarbeitung der gewaltigen Datenberge.

Welche Big Data Lösungen bieten Softwarehersteller an?

Die Softwareanbieter: breites Spektrum an Lösungen

Diese neue Konstellation ist den Softwareherstellern selbstverständlich nicht verborgen geblieben. Analog zur klassischen BI-Architektur sind längst neue Methoden und Technologien zur Erfassung, Speicherung, Verarbeitung, Analyse und Darstellung großer, polystrukturierter Datenmengen auf dem Markt erhältlich. Indes ist die angebotene Software genauso vielfältig wie die durch Big Data aufgeworfenen Problemstellungen. Auf dem Markt tummelt sich eine Vielzahl von Anbietern, die für alle genannten Bereiche eine Fülle an Lösungen bereitstellen. Es fällt den Unternehmen oftmals sehr schwer, diesen unübersichtlichen Markt zu durchschauen.

Im Bereich der Integration der Daten besteht das Problem vor allem in der Geschwindigkeit und der Handhabbarmachung der polystrukturierten Daten. Derzeit versuchen die Softwareanbieter einerseits Big-Data-Funktionen mit etablierten Datenintegrations-Tools wie beispielsweise Informatica, Pentaho oder Pervasive zu kombinieren, anderseits gibt es auch Spezialisten zur Einbindung von polystrukturierten Datenquellen wie beispielsweise Hadoop, Chukwa, Flume oder Sqoop.

Zur Speicherung und performanten Weiterverarbeitung von Big Data bieten sich spezielle Dateisysteme wie HDFS von Hadoop, aber auch sogenannte NoSQL-(Not-only-SQL-)Datenbanken an. Wichtig ist hierbei, dass diese Techniken mit den klassischen analytischen Datenbanken, die auch weiterhin wichtige Funktionen übernehmen, in Einklang gebracht werden. Nur so kann die Konsistenz der Daten aufrechterhalten und typische relationale Operationen problemfrei durchgeführt werden.

Bei der schnellen Verarbeitung von Big Data steht der von Google entwickelte MapReduce-Ansatz im Mittelpunkt. Dahinter steht folgender Mechanismus: Eine Aufgabe wird in möglichst kleine Teile zerlegt, dann zur parallelen Verarbeitung auf möglichst viele Rechner verteilt und anschließend als Ergebnis wieder zusammengeführt. Eine hohe parallele Verarbeitung von polystrukturierten Daten ist somit möglich. Ein weiteres Werkzeug, welche, die sekundenschnelle Verarbeitung von Big Data ermöglicht, ist das In-Memory-Computing wie das von SAP angebotene SAP HANA. Hierbei wird der Arbeitsspeicher eines Computers als Datenspeicher genutzt. Im Gegensatz zu Daten, die auf einer Festplatte lagern, ermöglicht dies eine sehr viel höhere Zugriffsgeschwindigkeit auf die Daten. Hinzu kommen Lösungen, die auf analytische Datenbanken setzen. Dies sind meist spaltenorientierte Datenbanken, die mit dem gängigen Konzept klassischer zeilenorientierter Datenbank brechen. Sie filtern nicht benötigte Bereiche heraus und ermöglichen so einen flexiblen und vor allem schnellen Zugriff. Mit all diesen Technologien können riesige Datenmengen in solch einer Geschwindigkeit verarbeitet werden, dass man durchaus zutreffend von Echtzeitanalyse sprechen kann.

Im Bereich der Analytik polystrukturierter Daten ist vor allem die Modellbildung auf Basis von Detaildaten zu beobachten. Speziell der Open-Source Anbieter R, aber auch andere Data-Mining-Werkzeuge von EMC, SAS, oder SPSS haben sich am Markt etabliert. Hinzu kommen Tools, die aufgrund ihrer Fähigkeit, große Datenmassen zu verarbeiten, ganz neue Anwendungsgebiete wie beispielsweise Text Mining oder Location Intelligence abdecken können.

Big Data Analytics Tools und Trends 2015

Im Jahre 2015 zeichnen sich neue Trends in der Verwendung von Big Data ab. Zu den wichtigsten zählen:

  • Big Data Management über die Cloud
  • Verbesserte Datenintegration über ETL (Extraction, Transformation, Laden)
  • Optimierung von SQL Datenbanken
  • Optimierung der Datenspeicherung

Hier noch hilfreiche Infos von Tableau zur Big Data Nutzung und Visualisierung: Big Data - Optimierung

Welche Big Data Faktoren sind für Unternehmen zu berücksichtigen?

Zusammenfasst lässt sich das derzeitige Phänomen Big Data als ein Zusammenwirken folgender Faktoren charakterisieren:

  • gestiegenes Datenvolumen
  • wachsende Anzahl von Datenquellen
  • Polystrukturiertheit der Daten
  • sehr unterschiedliche Datenformate
  • zunehmend mehr Nutzer von BI-Software
  • eine höhere Erwartungshaltung an die Analyse komplexer Zusammenhänge und Abfrageperformance des Systems
  • Auswertungen nahezu in Echtzeit

Das Zusammenkommen all dieser Faktoren überfordert zunehmend klassische Datenbanken und Analysewerkzeuge, weshalb zu erwarten ist, dass der Bedarf nach neuen, leistungsfähigeren Softwarelösungen bei Unternehmen sukzessive anwachsen wird.

Da das Phänomen Big Data mit ganz realen unternehmerischen Herausforderungen verknüpft ist, ist es eher unwahrscheinlich, dass es sich bei Big Data lediglich um einen Hype handelt. Auch wenn sich der Markt für Big-Data-Software noch in einem frühen Entwicklungsstadium befindet und Unternehmen noch lohnende Einsatzgebiete sondieren, bieten die IT-Anbieter schon jetzt vielversprechende Lösungen für die beschriebenen Probleme an.

Themenfelder von Big Data

Big Data umfasst: Datenvolumen, Datenstruktur, Datenformate, Datenquellen, Nutzerzahlen, Komplexe Beziehungen und Abrageperformance

Zusammenfassung: Was müssen Unternehmen bei der Big Data Software Auswahl beachten?

Auch wenn Big Data kein reines Modethema ist, müssen Unternehmen sehr genau hinschauen, soll Big Data Unternehmen zum Erfolg verhelfen:

  1. Zunächst ist die eigene IT-Infrastruktur genauestens zu überprüfen:

    • Wie geht man mit seinen Daten am besten um? Welche Daten müssen wirklich vorgehalten werden, bei welchen reicht eine kurz- oder mittelfristige Speicherung? Welche Storage-Möglichkeiten existieren? Wie viel Rechenleistung muss tatsächlich vorhanden sein? Welche Software wird benötigt? Wo bedürfen die traditionellen Datenbanken, Hardwarekomponenten, Anwendungen etc. Unterstützungsleistung von Big-Data-Technologien? Wie lassen sich diese sinnvoll durch Big-Data-Software erweitern?
  2. Darüber hinaus sollte eine sehr genaue Analyse stattfinden, wo genau Big-Data-Lösungen einen tatsächlichen unternehmerischen Mehrwert bieten:

    • In welchen Bereichen ist Big Data wirklich sinnvoll und wo reichen „klassische“ Lösungen vollkommen aus? Welche ganz spezifischen Anwendungsszenarien gibt es für Big-Data-Technologien? Vor allem im Hinblick auf die zum Teil noch sehr kostenintensiven Anschaffungskosten von Big-Data-Lösungen muss im Vorfeld eine gründliche Evaluation stattfinden.
  3. Des Weiteren werden speziell dafür ausgebildete Data Scientists im Unternehmen benötigt, die dazu in der Lage sind, die von den Big-Data-Tools gelieferten Ergebnisse auch produktiv nutzbar zu machen.

    • Es geht nicht einfach darum, möglichst viele Daten möglichst schnell zu analysieren, sondern darum, was die Zahlen eigentlich bedeuten und welche Entscheidung aus Unternehmenssicht zu treffen ist. Nur aus dem Zusammenspiel von leistungsfähiger IT und gut ausgebildeten Fachspezialisten lassen sich beispielsweise zukünftige Entwicklungen mit möglichst großer Sicherheit prognostizieren.

Folglich ist eine sehr sorgfältige Auseinandersetzung mit dem Thema Big Data angeraten, soll sich Big Data tatsächlich zu einem wichtigen unternehmerischen Erfolgsfaktor entwickeln.

Wenn Sie Software für Ihre Branche suchen, finden Sie hier unsere umfangreiche Softwareauswahl:

Softwareauswahl

 

Autor: Michael Gottwald / SoftSelect GmbH

 

Finden Sie hier weiteres Wissen unserer Experten zum Thema Was ist Big Data? - Big Data Analytics, Software, Tools + Trends

| Big Data |

 

Share

Wissenspool Schlagwortwolke