Breadcrumbnavigation

DBpedia Spotlight

Erweiterung DBpedia Spotlight

Karlsruher Institut für Technologie

DBpedia Spotlight ist ein Text-Annotationswerkzeug.

Verantwortliche DARIAH-DE-Entwickler: Germaine Götzelmann

 

Die DBpedia Spotlight API annotiert unstrukturierten Text automatisch mit Links zu DBpedia-Resourcen (und damit zur Linked Open Data cloud). Zur Annotation wird ein eingegebener Text verwendet oder der Text aus einer eingegebenen Website extrahiert. Statt der kompletten Annotation lassen sich die Schritte Spotting (NER), Candidate Selection, Disambiguation auch einzeln nutzen. Überdies bietet Spotlight die Möglichkeit, statt direkter Annotation die n-besten Kandidaten für eine im Text gefundene Entität als Liste auszugeben, sodass ExpertInnen für wissenschaftliche Annotationszwecke die finale Auswahl selbst treffen und damit die Ergebnisse für schwierige Unterscheidungsaufgaben gegenüber vollautomatischer Annotation erheblich verbessern können.

 

Die von Spotlight zur Verlinkung von named entities im Text herangezogenen Daten aus DBpedia stellen gerade für historische Forschung eine lückenhafte Wissensbasis dar, da das Kriterium der Relevanz für die Enzyklopädie Wikipedia als Filter für die Aufnahme von Entitäten in den Datenbestand sorgt. Normdaten bieten hier gleichzeitig eine vollständigere Datenbasis und eine kontrolliertere Provenienz der 13 Inhalte. Insgesamt sollen die Daten der GND jedoch nur als Beispiel gelten, eine Anbindung domänenspezifischerer Datenbestände ist  gleichermaßen möglich, sofern diese per eindeutigem Identifier (URI) im Text verlinkbar sind. Im Zentrum des Projekts steht die Datenmodellierung von GND-Daten für das Statistical Backend in DBpedia Spotlight. Aus den umfangreichen Namensvarianten der Normdaten werden sog. surfaceforms extrahiert, anhand derer die Entities im zu annotierenden Text identifiziert werden können. Die sonstigen biographischen Informationen werden gestemmed und nach Nennungshäufigkeit gewichtet als Kontext herangezogen, der bei Namensgleichheit die Unterscheidung von Entities unterstützt. Darüber hinaus wird für den statistischen Ansatz ein popularity-Wert für jede Entity generiert. Die von der GND bereitgestellten DDC-Sachgruppen werden für einen Typfilter herangezogen, der es dem Nutzer ermöglicht, per black- oder whitelisting die Personendaten zur Annotation auf bestimmte Gesellschaftsbereiche/Berufsgruppen einzuschränken.

 

DBpedia Spotlight lässt sich auf dem eigenen Webserver einsetzen und hinsichtlich Spottern und Disambiguation konfigurieren. Anfragen an den Webservice sind beispielsweise per Web Demo (unvollständige Beispielkonfiguration), Bookmarklet oder HTTP GET/POST (z.B. cURL) möglich. Hier geht es zum Dienst und zur Demo-Version

Footer Kontakt Individualdienste