Your browser doesn't support the features required by impress.mod.js, so you are presented with a simplified version of this presentation.

For the best experience please use the latest Chrome, Safari or Firefox browser.

Akademie der Wissenschaften und der Literatur | Mainz

Vernetztes Wissen

Perspektiven für die digitalen Geisteswissenschaften

Slides: https://kuczera.github.io/VernetzteGraphprojekte/

ORCID Andreas Kuczera, Mainz/Gießen | @andreaskuczera | GitHub kuczera | CC-BY 4.0

Das Königsberger Brückenproblem

Das Königsberger Brückenproblem (Quelle: Wikipedia)

Labeled Property Graph

Labeled Property Graph (What is a Graph Database)

Gliederung

  1. Phasen
  2. Vernetzung
  3. Forschung
  4. Projekte
  5. Zusammenfassung

Die Phasen der Digitalisierung

1. Die Phase der Imagedigitalisierung
Beispielseite der digitalen MGH

Die Phasen der Digitalisierung

2. Die Phase der Volltextdigitalisierung

Die Phasen der Digitalisierung

3. In der dritten Phase treten die Entitäten im Volltext in den Fokus

Vernetzung konkret

Shortcut|Datenbank | Zettelkasten (Quelle: FAZ)|Beispielregest

Vernetzung konkret

Graf Robert II. von Flandern

Vernetzung konkret

Graf Robert II. von Flandern und Herzog Heinrich von Niederlothringen

(Shortcut|Datenbank )

Vernetzung konkret

Graf Robert II. von Flandern und Herzog Heinrich von Niederlothringen mit Regesten

Vernetzung konkret

Graf Robert II. von Flandern und Herzog Heinrich von Niederlothringen mit Regesten in den Kanten

Vernetzung konkret

Graf Robert II. von Flandern und Herzog Heinrich von Niederlothringen mit Regesten als Tabelle (Quelle: Andreas Kuczera: Die ‚Regesta Imperii‘ im digitalen Zeitalter, in: Das Regest als Netzwerk von Entitäten, S. 157)

Forschung

Datenprovenienz und Visualisierung (Beispielabbildung)

Forschung

Vernetzung verschiedener Forschungsdatenrepositorien

Forschung

Graf Robert II. von Flandern mit Regesten und Bekannten

Forschung

... mit Verwandtschaftsinformationen aus Wikidata

Briefnetzwerke

  • Datenbank mit 314 Briefen
  • strukturiert erschlossen über 17 Schlüsselwörter
  • mit 200 erschlossenen Personen
  • MATCH (p1:Person {name:'Augustinus'})<-[r1:SENDER|RECEIVER]-(l:Letter)-[r2:SENDER|RECEIVER]->(p2:Person)
             MATCH (l)-[k1:KEYWORD]->(k:Keyword)
             RETURN p1.name AS name1, count(r1) AS Anzahl,
             p2.name AS Name2, COLLECT(DISTINCT k.name) AS Keywords
             ORDER BY Anzahl DESC;

Nomen et Gens - Verwandtschaft im Graphen

  • Das Projekt sammelt schriftlich belegte Personen von 400 bis 800 n. Chr.
  • U.a. werden die Namensbelege und weitere Informationen zu den Personen gesammelt
  • Im Beispielgraph wurden Personen und Verwandtschaft modelliert. Quellen und Belege wurden in einem weiteren Bearbeitungsschritt hinzugefügt.
  • Präsentation
  • // Pippin II.
             MATCH (P:Person {nid:'7212'})
             RETURN *;

ReGroup

  • Im Projekt ReGroup werden Graphtechnologien zur Modellierung bildwissenschaftlicher Fragestellungen eingesetzt
  • Darstellungen von Figurengruppen in der römisch-kaiserzeitlichen Skulptur, z.B. Sarkophage oder figürliche Brunnen
  • Im Graph werden die Figuren mit ihren Eigenschaften und ihrem Kontext modelliert.
  • Damit werden diese Informationen für Maschinen auswertbar und vergleichbar und bestände- und datenbankübergreifende Abfragen möglich
  • MATCH (n1:IdentifiedScene {ISID:'3'})--(n2)--(n3)--(n4) RETURN *;

| Real online (Quelle, S. 20)

Text as a Graph - Standoff Properties

Website: SPEEDy

  • Bei Text as a Graph wird jedes Wort durch einen Knoten repräsentiert, der mit einer NEXT-Kante mit dem nächsten Wort verbunden ist. Damit ergibt sich eine Wortkette (DTA-Beispiel)
  • Annotationen werden an diese Wortkette mit anderen Kanten angelagert
  • Text und Annotationen müssen damit keiner Hierarchie mehr folgen (wie bei XML) sondern können auch überlappende und mehrdimensionale Annotationshierarchien enthalten.
  • Das Browserplugin SPEEDy (Github) bietet mit Standoff-Properties eine Editorkomponente für das Text-as-a-Graph Modell

Das Buch der Briefe -- Genese, Struktur, Komposition

Hildegard von Bingen
  • Die Briefe der Hildegard von Bingen (1098 – 1179) sind in komplexer Überlieferung erhalten.
  • Das vorliegende Forschungsvorhaben wird dieses Werk zum ersten Mal in einer Edition präsentieren.
  • Infolgedessen werden die einzelnen Briefe dieser Sammlung als Teile einer theologisch-literarischen Komposition gewichtet und nicht als Zeugen eines Briefwechsels, der sich historisch ereignet hat.
  • Das Vorhaben wird durch eine entwicklungsgeschichtliche Analyse der Briefe ergänzt.
  • In ihr wird der Prozess der Textgenese der einzelnen Briefe von der ältesten Fassung bis hin zu ihrer Gestalt im Liber epistolarum auf der Grundlage der projektrelevanten Handschriften im Graph modelliert.

Zusammenfassung

  • Geisteswissenschaftliche Forschungsdaten sind hochvernetzt
  • Graphentechnologien sind sehr gut geeignet diese hochvernetzten Daten abzubilden, zu speichern und recherchierbar zu machen
  • Graphen helfen den Studierdenen und den Forschenden sowohl ihre Quellengrundlage als auch die Forschungsfragestellung explizit zu machen und zu vernetzen
  • Graphen sind sehr flexibel und können sich eng am Forschungsobjekt und an der Fragestellung orientieren
  • Damit sind Graphentechnologien die Grundlage für die Vernetzung des Wissens auch über Disziplingrenzen hinweg

Das Königsberger Brückenproblem

Quelle: Wikipedia

Die Panama Papers

Die Panama Papers
  • 2,6 TB an Daten, das sind 11,5 Millionen E-Mails, Briefe, Faxnachrichten, Gründungsurkunden, Kreditverträge, Rechnungen und Bankauszüge als PDF-, Text- sowie Bilddateien aus den Jahren 1977 bis 2016
  • Material wurde mit OCR-Software analysiert, Entitäten und Metadaten extrahiert, ein Graphmodell erstellt, importiert und bereinigt
  • Die dabei auftretenden Herausforderungen entsprechen jenen in den digitalen Geisteswissenschaften