Nur gute Daten liefern auch gute Ergebnisse

SAS und Talend

von - 01.04.2020
SAS: Um Data Quality kümmern sich bei SAS die Produkte Data Management, Data Quality, Data Preparation und Data Quality Desktop. SAS Data Management setzt auf der Analytics-Lösung
SAS: Wenn SAS Data Management ein Datenproblem entdeckt, kann es automatisch zur Bereinigung in SAS Data Remediation überführt werden.
(Quelle: com! professional / Screenshot )
SAS Plattform auf. Dabei spielt es keine Rolle, ob die Informationen in traditionellen Systemen oder im Hadoop-Framework gespeichert sind - SAS Plattform unterstützt relationale Datenbanken, Data Lakes, Cloud-Angebote sowie On-Premise- und hybride Datenarchitekturen. SAS Data Management verschafft den Mitarbeitern Zugriff auf die Daten und erlaubt es ihnen, eigene Datenmanagement-Regeln zu erstellen.
Eine Schlüsselkomponente der SAS Plattform ist zudem das Tool SAS Data Quality. Es unterstützt auch neue Datenquellen wie Impala für Echtzeitabfragen und Amazon Redshift. Die Daten werden direkt dort optimiert, wo sie abgelegt sind.
SAS Data Preparation vereinfacht Datenzugriff und Datenintegration für Mitarbeiter ohne Programmierkenntnisse. Das Tool hat zudem die Aufgabe, die Datenqualität zu verbessern: Es soll Probleme identifizieren und direkt mittels vordefinierter Routinen beheben. Anwender können die Daten selbst über eine visuelle Bedienoberfläche aufbereiten. Die Daten lassen sich kategorisieren, standardisieren und zerlegen.
Eine Erweiterung der SAS Plattform ist SAS Viya. Sie enthält eine Reihe weiterer Datenprogramme und erlaubt eine Integration von Datenqualitätsfunktionen mit SAS-Analytik, Datenintegration, Datenaufbereitung und Data Governance.
Die Gartner-Analysten loben bei SAS die Investitionen in neue Techniken wie Echtzeit-Datentransformation großer Datenmengen, parallele In-Memory-Datenqualitätsprozesse in massiv parallelen Verarbeitungsumgebungen und automatisiertes Tagging von Dateninhalten. Auf der anderen Seite bemängeln sie die komplexen Preismodelle und eine begrenzte Vertragsflexibilität sowie die Gefahr eines Vendor-Lock-ins.
Talend: Talend hat zwei Data-Quality-Tools im Portfolio. Die kostenlose Open-Source-Lösung
Talend
Talend: Die Data Quality Platform bietet Open-Source-basierte Profiling-Tools, die heterogene Datensätze laden, extrahieren und transformieren.
(Quelle: com! professional / Screenshot )
Talend Open Studio for Data Quality ist fürs Profiling und Bereinigen der Daten zuständig. Mitarbeiter können damit die Datenqualität auf Basis benutzerdefinierter Schwellenwerte evaluieren und feststellen, ob Standards eingehalten werden. Zudem können sie Daten selektiv weitergeben, ohne dass Unbefugte Zugang zu personenbezogenen Daten erhalten. Vertrauliche Daten werden durch Maskierung anonymisiert.
Die Data Management Platform verknüpft Datenquellen und hilft, Datensätze zu konsolidieren und zu validieren. Sie enthält grafische Werkzeuge und mehr als 900 Komponenten und Konnektoren zur nativen Verbindung von Datenbanken und cloudbasierten Anwendungen. Zudem bietet sie eingebettete Qualitätskontrollen und ein Regelmanagement.
Gartner lobt die Bedienfreundlichkeit der Talend-Tools in Einrichtung und Betrieb. Bemerkenswert an Talend sei zudem eine sehr aktive Open-Source-Anwendergemeinschaft, die einen umfangreichen, schnellen Produkt-Support biete.

Fazit & Ausblick

Die Datenanalyse verändert sich - und die Datenqualitätsstandards müssen sich anpassen. So nimmt etwa die staatliche Regulierung der Daten zu, Stichwort DSGVO. Data-Quality-Tools müssen in der Lage sein, solche Vorgaben umzusetzen. 
Mit Natural Language Processing, maschinellem Lernen und KI wachsen zudem die Risiken einer schlechten Datenqualität. Viele Unternehmen sehen von der Einführung von KI-Techniken ab, weil sie sich der Aufgabe, die nötige Datenqualität zu erzielen, nicht gewachsen fühlen. Data-Quality-Tools werden sich daher weiter verbreiten. Umgekehrt tragen KI-Fortschritte dazu bei, die Datenqualität zu verbessern. KI automatisiert die Datenerfassung, erkennt Ano­malien und beseitigt Dubletten. Dies erlaubt eine effizientere Verarbeitung großer Datenmengen.
Veränderungen zeichnen sich auch in der Unternehmensorganisation ab. So bringt die aufstrebende Disziplin Data­Ops DevOps-Teams mit Data-Science-Rollen zusammen - mit dem Ziel, auf Basis agiler Methoden Anwendungen und Prozesse für ein datenfokussiertes Unternehmen be­reitzustellen.

Anbieter

Produkt

Schwerpunkt

Eigenschaften

Cloudingo

Cloudingo

Salesforce

Deduplizierung, Verwaltung der Datenmigration, Erkennung von Fehlern und Inkonsistenzen

Data Ladder

DataMatch Enterprise

Integration, Verknüpfung und Vorbereitung von Daten aus praktisch jeder Quelle

Enthält mehr als 300.000 vorgefertigte Regeln; Vorlagen und Konnektoren für die wichtigsten Anwendungen

IBM

InfoSphere

Big Data, Business Intelligence, Data Warehousing, Stammdatenverwaltung

Kontinuierliche Datenbereinigung und Überwachung der Datenqualität; enthält mehr als 200 integrierte Datenqualitätsregeln

Informatica

Data Quality

Unterstützt Microsoft Azure und AWS

Datenstandardisierung, -validierung, -anreicherung, -deduplizierung und -konsolidierung

Information Builders

Omni-Gen

Business Intelligence, Data Integration und Data Quality

Regelerzeugung für Datenqualität; domainorientierte Algorithmen; browserbasierte Dashboards mit Indikatoren der Datenqualität

OpenRefine

OpenRefine

Datenbereinigung und -transformation in andere Formate

Open Source; einfache Erfassungs- und Bearbeitungsfunktionen; Anreicherung mit Webservices und externen Daten

SAP

Data Hub

Enterprise Information Management

Verfeinerung und Anreicherung von Daten; Verarbeitung von Daten an der Quelle; Ausführung auf Kubernetes

SAS

Data Management

Datenintegration und -bereinigung für verschiedene Datenquellen

Data Governance & Metadaten-Management; migriert oder synchronisiert Daten zwischen Datenbanken und Anwendungen

Syncsort

Trillium

Datenqualitätsdienste für Microsoft Dynamics 365

Bewertet, verbessert und überwacht die Qualität der Daten; arbeitet mit den wichtigsten Architekturen wie Hadoop, Spark, SAP und MS Dynamics

Talend

Open Studio, Data Management Platform

Datenintegrations- und Datenqualitätsplattform

Open Source; profiliert, bereinigt und maskiert Daten in beliebigen Formaten und Größen; Vorlagen zur Unterstützung der Datenbereinigung

Tibco

Clarity

Analyse und Bereinigung großer Datenmengen

Daten profilieren, validieren, standardisieren, transformieren, deduplizieren, bereinigen und visualisieren

Validity

DemandTools

Salesforce

Massenmanipulationen mit mehreren Tabellen; standardisiert Salesforce-Daten

Verwandte Themen