Semantic Web im Unternehmen — Linked Data, Knowledge Graphs und mehr

Was soll das denn bedeuten?

Das Semantische Web oder Web 3.0 bezeichnet die Idee, Daten im Web besser maschinell verwertbar zu machen und besser miteinander zu verknüpfen. Grundlage hierfür ist die Beschreibung der Bedeutung dieser Daten. Gleichzeitig sollen die grundlegenden Eigenschaften beibehalten werden, die das Web so erfolgreich gemacht haben.

Ein Beispiel für eine solche semantische Beschreibung ist die Kennzeichnung von Produktdaten in Web Shops mittels des Good Relations Vokabulars, das mittlerweile in das umfassendere schema.org Vokabular integriert wurde.

Beispielsweise hilft diese Kennzeichnung Suchmaschinen dabei, die entsprechenden Produktinformationen korrekt zu interpretieren.

Linked Data und Knowledge Graphs

DBpedia hingegen stellt Daten nicht primär über Webseiten, sondern als strukturierte Datensätze bereit. Zu diesem Zweck analysiert dieses Projekt Wikipedia-Seiten (insbesondere deren Infoboxen) und stellt die extrahierten Daten strukturiert bereit.

Die einzelnen Bestandteile dieser Informationen werden — ganz ähnlich wie bei Webseiten — mit einander verknüpft. Folglich spricht man hier von Linked Data.

Sind die Datenbestände offen, so spricht man von Linked Open Data.

The Linked Open Data Cloud gibt einen Überblick über verfügbare offene Linked Data Datenbestände.

Daten in solchen Linked Data Beständen formen einen Graph. Ist eine Wissensbasis als Linked Data Graph abgebildet, so sprechen wir von einem Knowledge Graph.

Ein wirklich einfaches Datenmodell

Als Datenmodell kommt das Resource Description Format (RDF) zum Einsatz.

RDF ist ein sehr einfaches — und dadurch extrem flexibles — Modell, dass Daten in Form sogenannter Triples (d.h. 3-Tupel, Tripel) definiert. Diese haben die Form:

Subjekt Prädikat Objekt

Das Prädikat beschreibt die Beziehung zwischen Subjekt und Objekt. Subjekte sind i.d.R. Identifikatoren (in Form von IRIs) während Objekte entweder Identifikatoren oder Werte sind.

Die Prädikate sind wiederum Identifikatoren. Durch die Nutzung bekannter Vokabulare kennzeichnen sie die Bedeutung der codierten Daten.

Das folgende (triviale) Beispiel nutzt das bekannte Friend of a Friend Vokabular und weist einem Identifikator einen Namen zu.

ex:Oliver foaf:name "Oliver Baier" .

In diesem Beispiel kommt Turtle als Datenformat zum Einsatz. Neben Turtle gibt es noch weitere Formate zur Codierung von RDF-Daten.

Eulen, Funkeln und Fesseln

RDF Schema (RDFS), die Ontologie-Beschreibungssprache Web Ontology Language (OWL) sowie Constraint-Sprache SHACL erlauben es, die Formate und Bedeutung von Daten standardisiert zu beschreiben.

Die Abfragesprache SPARQL erlaubt es, Anfragen an RDF-Datenbestände zu stellen sowie diese Datenbestände zu modifizieren (Zugriffsrechte vorausgesetzt). SPARQL ist SQL im Kontext relationaler Datenbanken ähnlich. Interessant ist, dass SPARQL mehrere Datenbestände in einer einzelnen Abfrage ansprechen kann.

Hinter der Firewall

Diese Technologien sind natürlich nicht nur im offenen Web, sondern auch „hinter der Firewall“ im eigenen Unternehmen sinnvoll einsetzbar. Viele Unternehmen könnten beispielsweise von einem eigenen Knowledge Graph profitieren.

Besonders interessant erscheint mir das Potenzial dieser Technologien jedoch im Zusammenhang mit eher klassischen Enterprise IT Problemen wie z.B. dem Stamm- und Referenzdatenmanagement, der Daten- und Applikationsintegration oder auch der Integration mit Partnern über Unternehmensgrenzen hinweg (B2B-Integration).

Vor dem Hintergrund sehr hoher Anforderungen im Bereich des Financial Risk Management überrascht es nicht, dass Banken und andere Finanzinstitutionen diesen Technologien besondere Bedeutung beimessen. Beispielsweise ist FIBO, die Financial Risk Business Ontology, eine umfassende Ontologie für den Finanzsektor.

Diese semantischen Technologien können inkrementell und iterativ zum Einsatz gebracht werden. Erste Experimente und Prototypen sind mit geringem Aufwand zu realisieren. Die erarbeiteten Ergebnisse können dann schrittweise erweitert und vertieft werden.

Und jetzt?

Sind Sie neugierig geworden? Möchten Sie diese Technologien besser verstehen? Oder ihr Potenzial — insbesondere im Enterprise Information Systems bzw. Enterprise Applications Umfeld — diskutieren?

Sprechen Sie mich einfach an!