Sprecher und Organisatoren

Hannes Mühleisen, Freie Universität Berlin

Hannes Mühleisen

Freie Universität Berlin
Wissenschaftlicher Mitarbeiter

Semantik auf Knopfdruck - Qualität von CMS-generierten semantischen Daten

Abstract

Die Integration von strukturierten Daten über die Grenzen von Organisationen und Webseiten hinweg ist heute eine der großen Herausforderungen des WWW. Eine aufkommende Methode hierfür ist die Publikation dieser strukturierten Daten direkt in HTML-Seiten - unsichtbar für Menschen, sehr nützlich für Maschinen. Die hierfür standardisierten Formate Microdata und RDFa werden bereits von Firmen wie Google, Bing und Facebook aktiv genutzt, um Suchergebnisse anzureichern.

Content-Management-Systeme (CMS) sind besonders geeignet für diese Form der Datenpublikation, da diese Systeme intern bereits einen hohen Grad von Strukturierung besitzen. Theoretisch ist damit die einmalige Anpassung der CMS-Software ausreichend für Datenpublikation mittels Einbettung in HTML-Seiten. Hierbei stellt sich jedoch die Frage, ob die so publizierten Daten eine ausreichende Qualität besitzen, so dass ihre Nutzung durch Dritte leicht möglich ist.

Im Rahmen des "Web Data Commons"-Projekts an der FU Berlin wurden ca. 4 Milliarden HTML-Seiten auf eingebettete strukturierte Daten in verschiedenen Formaten untersucht. Die Ergebnisse dieser Studie lassen unter Anderem einen Aufschluss auf die Qualität automatisch generierter strukturierter sowie semantisch annotierter Daten zu.

Kurzbiographie

bis 2009: Studium Softwaretechnik und Informatik (Diplom) an der Universität Stuttgart und der HU Berlin seit 2010: Tätigkeit als Wissenschaftlicher Mitarbeiter an der Freien Universität Berlin, Promotionsthema: Verteilte Anfragebearbeitung