Neue BI-Tools und Anwendungen zur schnelleren Verarbeitung von Daten

Software Wissen Logo

Analog zur klassischen BI-Architektur sind längst neue Methoden und Technologien zur Erfassung, Speicherung, Verarbeitung, Analyse und Darstellung großer, polystrukturierter Datenmengen auf dem Markt erhältlich. Indes ist die angebotene Software genauso vielfältig wie die durch Big Data aufgeworfenen Problemstellungen. Auf dem Markt tummelt sich eine Vielzahl von Anbietern, die für alle genannten Bereiche eine Fülle an Lösungen bereitstellen. Es fällt den Unternehmen oftmals sehr schwer, diesen unübersichtlichen Markt zu durchschauen.

Im Bereich der Integration der Daten besteht das Problem vor allem in der Geschwindigkeit und der Handhabbarmachung der polystrukturierten Daten. Derzeit versuchen die Softwareanbieter einerseits Big-Data-Funktionen mit etablierten Datenintegrations-Tools wie beispielsweise Informatica, Pentaho oder Pervasive zu kombinieren, anderseits gibt es auch Spezialisten zur Einbindung von polystrukturierten Datenquellen wie beispielsweise Hadoop, Chukwa, Flume oder Sqoop.

Zur Speicherung und performanten Weiterverarbeitung von Big Data bieten sich spezielle Dateisysteme wie HDFS von Hadoop, aber auch sogenannte NoSQL-(Not-only-SQL-)Datenbanken an. Wichtig ist hierbei, dass diese Techniken mit den klassischen analytischen Datenbanken, die auch weiterhin wichtige Funktionen übernehmen, in Einklang gebracht werden. Nur so kann die Konsistenz der Daten aufrechterhalten und typische relationale Operationen problemfrei durchgeführt werden.

Bei der schnellen Verarbeitung von Big Data steht der von Google entwickelte MapReduce-Ansatz im Mittelpunkt. Dahinter steht folgender Mechanismus: Eine Aufgabe wird in möglichst kleine Teile zerlegt, dann zur parallelen Verarbeitung auf möglichst viele Rechner verteilt und anschließend als Ergebnis wieder zusammengeführt. Eine hohe parallele Verarbeitung von polystrukturierten Daten ist somit möglich. Ein weiteres Werkzeug, welche, die sekundenschnelle Verarbeitung von Big Data ermöglicht, ist das In-Memory-Computing wie das von SAP angebotene SAP HANA. Hierbei wird der Arbeitsspeicher eines Computers als Datenspeicher genutzt. Im Gegensatz zu Daten, die auf einer Festplatte lagern, ermöglicht dies eine sehr viel höhere Zugriffsgeschwindigkeit auf die Daten. Hinzu kommen Lösungen, die auf analytische Datenbanken setzen. Dies sind meist spaltenorientierte Datenbanken, die mit dem gängigen Konzept klassischer zeilenorientierter Datenbank brechen. Sie filtern nicht benötigte Bereiche heraus und ermöglichen so einen flexiblen und vor allem schnellen Zugriff. Mit all diesen Technologien können riesige Datenmengen in solch einer Geschwindigkeit verarbeitet werden, dass man durchaus zutreffend von Echtzeitanalyse sprechen kann.

Im Bereich der Analytik polystrukturierter Daten ist vor allem die Modellbildung auf Basis von Detaildaten zu beobachten. Speziell der Open-Source Anbieter R, aber auch andere Data-Mining-Werkzeuge von EMC, SAS, oder SPSS haben sich am Markt etabliert. Hinzu kommen Tools, die aufgrund ihrer Fähigkeit, große Datenmassen zu verarbeiten, ganz neue Anwendungsgebiete wie beispielsweise Text Mining oder Location Intelligence abdecken können.

Finden Sie hier weiteres Wissen unserer Experten zum Thema Neue BI-Tools und Anwendungen zur schnelleren Verarbeitung von Daten

| Business Intelligence | Big Data |

 

Share

Wissenspool Schlagwortwolke