Ein Gastbeitrag von Dr. Robert Huber.
Dr. Robert Huber arbeitet als wissenschaftlicher Mitarbeiter in der Fachgruppe Allgemeine Geologie – Meeresgeologie am marum an der Universität Bremen. “Nebenbei” betreibt er gemeinsam mit anderen Wissenschaftlern das Internetprojekt stratigraphy.net, zu dem auch ein Blog gehört.
Räumliche und zeitliche Orientierung sind das “A und O” für jeden Geowissenschaftler. So ist es für die Geländearbeit eines Geologen unerläßlich, genau zu wissen, wo er sich gerade befindet. Ebenso wichtig ist aber auch die Altersbestimmung des untersuchten Gesteins, um etwa Lagerungsverhältnisse abzuschätzen. Es ist also klar: Geologische Untersuchungen fußen auf ihrer möglichst exakten räumlichen und zeitlichen Zuordnung. Im Grunde verhält es sich genauso in der geowissenschaftlichen Informationsrecherche: Auch hier sind Raum-Zeit-Daten der Ausgangspunkt: Welche Ammoniten gibt es in der Kreide Bayerns? Mit welchen Baugründen muss er im Quartär Niedersachsens rechnen?
Zwar sind heutzutage schon enorme Mengen an Literatur als Volltext im Internet verfügbar aber in der Masse der Informationen das Richtige zu finden, ist oft schwierig. Denn die Suchergebnisse auf bestimmte Orte und Zeiten einzuschränken, ist mit den verfügbaren Suchmaschinen ein Lotteriespiel. So sind selbst besonders wichtige Dokumente oftmals nicht auffindbar. Zu Ausfällen in den Suchergebnissen kann es beispielsweise kommen, wenn die zeitliche Einordnung über Lithostratigraphie, also der Namen der Gesteinseinheit, definiert wurde. Wer kennt schon die âWoauchimmeringer Folgeâ oder weiß genau wie alt die âLeioceras Phantasia Schichtenâ sind? Ebenso kann die geographische Zuordnung Fallstricke bergen, wenn etwa alte Ortsnamen wie âIndochinaâ oder âHerzogthum Nassauâ verwendet wurden.
Für geowissenschaftliche Recherchen wäre also eine Suchmaschine ideal, in der räumliche und zeitliche Kategorien bereits erkannt und durchsuchbar wären. Dort wird dann beispielsweise für die “Leioceras Phantasia Schichten” das “Jura” als Alter mitgespeichert oder etwa für Indochina die Koordinaten der Länder Laos, Kambodscha und Vietman. Umgekehrt erlaubt es diese Suchmaschine die Suche nach “Jura” und findet auch diejenigen Texte, in denen nicht explizit Jura genannt wird – aber die “Leioceras Phantasia Schichten”.
Um aus Volltexten den geographischen Bezug heraus zu filtern gibt es bereits ausgeklügelte Computerprogramme. Deren Grundlage ist immer eine möglichst vollständige Sammlung von Ortsnamen und deren Koordinaten. Ein schönes Beispiel bietet die frei verfügbare Datenbank “geonames”. Damit ein Programm nun feststellen kann, auf welche Orte in einem Text bezug genommen wird, muss es in der Lage sein, Ortsnamen zu identifizieren.  Hier steckt der Teufel aber im Detail: Viele Ortsnamen existieren mehrfach an in verschiedenen Ländern. So existiert ein Ort mit dem Namen “Victoria” beispielsweise in Kanada, Kolumbien und in weiteren Ländern. Ganz abgesehen davon, dass Victoria auch ein weitverbreiteter Vorname ist. Hochspezialisierte Programme beurteilen deshalb aus dem Kontext die Wahrscheinlichkeit, welcher Ort gemeint ist. Diese Fähigkeit heißt “Geoparsing”. Zum Beispiel bietet “Google Books” bereits die Möglichkeit an, Orte, die in einem Buch genannt werden, in einer kleinen Karte darzustellen. Daneben gibt es weitere Anbieter, wie etwa Metacarta, die ebenfalls Geoparsing beherrschen.
Im Gegensatz dazu ist für die Untersuchung des stratigraphischen, des zeitlichen Bezugs, von Texten bislang keine Lösung gefunden. Stratigraphy.Net startete daher vergangenes Jahr das “Agenames” Projekt. Ein Ziel des Projektes ist, eine ausreichend große Datenbasis an stratigraphischen Termen (etwa Namen von Gesteinseinheiten) und deren zeitliche Einordnung zu schaffen. Die zeitliche Zuordnung wird anhand von chronostratigraphischen Einheiten, die von der Internationalen Stratigraphischen Kommission festgelegt wurden, vorgenommen. Es geht also nicht um eine absolute Altersdatierung. Zum Beispiel reicht es wenn bekannt ist, dass der “Hebden Portage Complex” präkambrisch ist. Um diese Ziel zu erreichen, wurden mehrere online verfügbare stratigraphische Lexika aus den USA, Kanada und Großbritannien gesammelt, aufbereitet und indiziert. Daneben wurden eigene Digitalisierungen nötig, um etwa die Verfügbarkeit deutscher stratigraphischer Begriffe zu erhöhen. Bislang sind über 40.000 stratigrapische Begriffe erfasst und eine gute Abdeckung des angloamerikanischen Raum bereits gewährleistet. Das Ergebnis ist öffentlich im Internet unter http://agenames.stratigraphy.net/search zugänglich.

Der Screenshot zeigt die Datenbankeinträge von Agenames zum Wort 'Whirlpool Sandstone'. Wie man sieht, stammen die Information aus zwei Quellen. Die lithologische Einheit Whirlpool Standstone wird den Quellen entsprechend dem Silur zugeordnet.
Ein zweites Ziel von Agenames ist die Bereitstellung eines Dienstes, der es ermöglicht, aus Volltexten den relevanten stratigraphischen, also zeitlichen, Bezug zu extrahieren. Dieses Verfahren stellt sich ähnlich dem vorher beschriebenem Geoparsing dar. In Analogie dazu nennen wir diesen Vorgang daher “Ageparsing”. Im Unterschied zu Ortsnamen sind aber stratigraphische Begriffe leichter identifizierbar, da deren Benennung einheitlicher ist. So enden diese im Englischen häufig mit Bezeichnern wie “Formation” oder “Member”. Aber auch hier gilt es wieder uneindeutige Begriffe zu isolieren und Wahrscheinlichkeiten für Alterszuordnungen zu berechnen. Als Beispiel sei hier die chronostratigraphische Einheit “Canadian” (Unteres Ordovizium) genannt, die eben auch einen kanadischen Staatsbürger bezeichnen kann. Seit Mitte dieses Jahres ist ein Prototyp dieser Software unter dem Namen “Ageparser” im Test. Ageparser ist als frei verfügbarer Dienst – als sogenannter Webservice- konzipiert. Der Dienst analysiert einen Text oder den Inhalt einer Internetseite über ihre Adresse. Das Ergebnis einer solchen Anfrage benennt die im Text erkannten stratigraphischen Begriffe sowie deren wahrscheinliche chronostratigraphische Zuordung.
Zur Anwendung kommt Ageparser in derzeit zwei Internetanwendungen, darunter eine neuartige geologische Suchmaschine: “AgeSearch”. AgeSearch kennt zwar keine zeitlichen Parameter für Suchanfragen, es nutzt aber Ageparser um einen beliebigen Begriff, den man AgeSearch übergibt, stratigraphisch einzuordnen. Als Suchmaschine wird dabei im Hintergrund der Google Index genutzt und dessen Trefferliste wird von AgeSearch an Ageparser weitervermittelt. Dieser besucht diese Internetressourcen und nimmt eine stratigraphische Analyse des Inhalts vor. Aus der zeitlichen Analysen aller Suchergebnisse wird der beste zeitliche Kontext ermittelt und in einer “tag cloud” graphisch dargestellt. AgeSearch ist ebenfalls öffentlich zugänglich unter http://agenames.stratigraphy.net/agesearch. Hier finden sich auch einige Beispielsanfragen, um den Ageparsing Vorgang zu verdeutlichen.

Die Agesearch Suchmaschine. Nachdem ein Suchbegriff (hier 'Drymopora') eingegeben wurde werden die Suchergebnisse von Google angezeigt. Alle Treffer werden besucht und die Inhalte von Ageparser nach stratigraphischen Begriffen untersucht. Die chronostratigraphische Zuordnung dieser Begriffe wird in grün in die Trefferliste eingeblendet. Aus allen chronostratigraphischen Zuordnungen wird In der Box ganz oben eine Tagwolke erzeugt, das am größten dargestellte Wort zeigt den besten chronostratigraphischen Kontext (hier Devon) an.
Eine weitere Anwendung von Ageparsing in Kombination mit Geoparsing, ist für “Geoblogosphere News” verwirklicht. Geoblogosphere News ist ein geowissenschaftlicher Blogaggregator, der laufend die Inhalte von sogenannten Geoblogs sammelt und übersichtlich darstellt. Die Kurzfassungen der gesammelten Blogartikel werden von Geoblogosphere News sowohl an den Geoparser von Metacarta als auch an den Ageparser weitergereicht, um eine echte raum-zeitliche Zuordnung der Inhalte der Blogbeiträge vornehmen zu können. Die Ergebnisse der räumlichen Analyse werden als Wochenübersicht in einer Kartenansicht dargestellt, und die der zeitlichen Analyse als “tag cloud”. So kann der Besucher der Seite je nach Interesse die Inhalte filtern und sich z.B. nur Blogartikel, die Themen der Kreide behandeln, anzeigen lassen.

Der Screenshot zeigt den Geoparser von Metacarta in Aktion. Alle Abstracts von Blogposts werden von Geoblogosphere News mit diesem Geoparser geocodiert. D.h im Text gefundene Ortsnamen und deren Koordinaten werden dem Blogartikel zugeordnet. Damit kann man dann eine Landkarte der Geoblogosphäre erstellen. Geoblogoshere News aktualisiert diese Karte wöchentlich.

Dieser Screenshot zeigt die Anwendung von Geoparsing, Ageparsing in Geoblogoshere News. Eine kleine Weltkarte zeigt, ob Blogbeiträge zu bestimmten Ländern existieren. Daneben sorgt eine Tagwolke, die über Ageparsing erzeugt wurde, für einen schnellen Überblick, zu welchen geologischen Zeitaltern die Geoblogoshere gerade am meisten diskutiert. Außerdem zeigt die Abbildung noch eine Tagwolke die meistgenannten Stichworte der Blogartikel.

Die Abbildung zeigt eine Liste aller Blogartikel, die sich thematisch innerhalb des Silurs bewegen. Die Abbildung zeigt als ersten Eintrag einen Blogpost, der lediglich den Terminus 'Whirlpool Sandstone' nennt aber nicht explizit 'Silur'. Dennoch wird er korrekt dem Silur zugeordnet.
Die notwendigen Basistechnologien um eine echte Raum-Zeit-Suchmaschine für die Geowissenschaften zu ermöglichen sind also vorhanden. Für eine echte Suche nach Zeit und Raumkriterien wird man sich allerdings wohl noch ein wenig gedulden müssen. In nächster Zukunft werden diese Suchoptionen wohl noch auf kleinere Informationssammlungen beschränkt bleiben. Etwa auf die in Geoblogosphere News gesammelten Blogbeiträge. Eine weitere mögliche Anwendung, die mittelfristig realisiert werden könnte, ist die raum-zeitliche Indizierung von Abstracts geowissenschaftlicher Publikationen. Langfristig ist als übernächster Schritt der Aufbau eines umfassenden Raum-Zeit-Internetkatalogs mit vollwertiger Raum-Zeitsuchmaschine denkbar. Und danach: Warum sollte man nicht auch Lithologien oder etwa für die Paläontologie gleich Taxonnamen mit erkennen und erfassen können? Wer weiß welche Ideen sich noch entwickeln. Jedenfalls sind die ersten Schritte auf dem Weg zur idealen Geosuchmaschine getan.
Tags: Agenames, Agesearch, GeoblogosphÀre, Geoparser, Metacarta, Robert Huber, stratigraphy.net, Suchmaschine