Maike Sommer: Automatische Generierung von DDC-Notationen für Hochschulveröffentlichungen

Abstract:

Das Thema dieser Bachelorarbeit ist die automatische Generierung von Notationen der Dewey-Dezimalklassifikation für Metadaten. Die Metadaten sind im Dublin-Core-Format und stammen vom Server für wissenschaftliche Schriften der Hochschule Hannover.

Zu Beginn erfolgt eine allgemeine Einführung über die Methoden und Hauptanwendungsbereiche des automatischen Klassifizierens. Danach werden die Dewey-Dezimalklassifikation und der Prozess der Metadatengewinnung beschrieben. Der theoretische Teil endet mit der Beschreibung von zwei Projekten. In dem ersten Projekt wurde ebenfalls versucht Metadaten mit Notationen der Dewey-Dezimalklassifikation anzureichern. Das Ergebnis des zweiten Projekts ist eine Konkordanz zwischen der Schlagwortnormdatei und der Dewey-Dezimalklassifikation. Diese Konkordanz wurde im praktischen Teil dieser Arbeit dazu benutzt um automatisch Notationen der Dewey-Dezimalklassifikation zu vergeben.

Nicht nur die Daten stammen vom Server für Wissenschaftliche Schriften der Hochschule Hannover, auch diese Bachelorarbeit ist dort als Volltext verfügbar.

Beispiel für DESCRIBE in SPARQL

Mit dem SPARQL-Befehl DESCRIBE kann man aus einem SPARQL-Endpoint Informationen über Ressourcen anfordern. Aus der W3C-Recommendation zu SPARQL:

The DESCRIBE form returns a single result RDF graph containing RDF data about resources. This data is not prescribed by a SPARQL query, where the query client would need to know the structure of the RDF in the data source, but, instead, is determined by the SPARQL query processor. The query pattern is used to create a result set. The DESCRIBE form takes each of the resources identified in a solution, together with any resources directly named by IRI, and assembles a single RDF graph by taking a “description” which can come from any information available including the target RDF Dataset. The description is determined by the query service. The syntax DESCRIBE * is an abbreviation that describes all of the variables in a query.

Aktueller Fall, einfaches Beispiel: Ich möchte wissen, welche Informationen zu der Ressource http://dewey.info/class/020/ bereitstehen.

1
2
3
4
5
6
PREFIX skos: <http://www.w3.org/2004/02/skos/core#>
 
DESCRIBE ?p ?o WHERE {
<http://dewey.info/class/020/> ?p ?o
}
LIMIT 10

Und so sieht dann das Ergebnis aus. Als Ausgabeformat habe ich hier Turtle gewählt.

DDC in BASE

BASE setzt auf ein automatisches Verfahren zur Dokumentenklassifikation nach der Dewey-Dezimalklassifikation (DDC):

Es sei nicht verschwiegen, dass das automatische Klassifikationsverfahren nicht perfekt ist, da es auf der statistischen Analyse der Dokumenttexte basiert. Da die Wissenschaftssprache sehr komplex ist und sich zudem ständig verändert, kann es auch zu Fehlklassifikationen kommen.

In der Klassifikation stöbern kann man über die VuFind-eigene Browsing-Funktion.

Open Shelves Classification in der Testphase

I can haz free classification?Am 28. April 2009 findet das 3. EDUG-Symposium mit dem Titel “Dewey goes Europe: on the use and development of the Dewey Decimal Classification (DDC) in European libraries” in der Österreichischen Nationalbibliothek in Wien statt. Ein Blick auf den urheberrechtlichen Hinweis auf DDC-Deutsch.de und die Geschäftspolitik OCLCs wirft die Frage auf, warum OCLC gen Europa wandern sollte.

Mal ganz abgesehen von den Kosten ist es doch sicherlich nachhaltiger, eine freie Klassifikation zu verwenden. Damit ist zumindest gesichert, dass man seine bibliographischen Daten samt Erschließung auch in die Freiheit entlassen kann, wenn man das möchte. Und eine freie Klassifikation ist just heute in die Testphase gegangen: die Open Shelves Classification (OSC).

Die Testphase funktioniert folgendermaßen: Wenn man sich bei Librarything anmeldet und einen beliebigen Titel (z.B. diesen hier) aufruft, kann man ganz unten auf dem Bildschirm eine von über 40 Top-Level-Categories auswählen. Dann folgt die Frage: Do you know the book at first hand?. Bejaht man diese Frage, wird angezeigt, wie andere User klassifiziert haben. Die Debatte zum Testlauf findet sich hier. Das Verfahren erinnert mich ein bißchen an den Google Image Labeler, auch wenn der Spielcharakter nicht so ausgeprägt ist.

Die OSC hat einen großen Nachteil: sie ist noch nicht vollständig. Das ist allerdings gleichzeitig ein großer Vorteil. Noch kann jeder sich und seine Ideen einbringen.

Wie sieht’s aus? Hat die OSC eine realistische Chance, im deutschsprachigen Raum eingesetzt zu werden?

Ausstellung: Die Dewey-Dezimalklassifikation und der deutschsprachige Raum

Nicht mehr ganz neu, aber vielleicht doch für den einen oder anderen noch ganz interessant, ist die Dewey-Dezimalklassifikations Ausstellung der FU Berlin. Auf der Homepage können auch einige Fotos der Ausstellungseröffnung angesehen werden.

Die Ausstellung zur deutschsprachigen DDC Ausgabe ist eine Wanderausstellung, die zunächst in Wien gestartet wurde und nun erstmals in Deutschland zu sehen ist. Sie kann noch bis zum 09.03. von Montag bis Freitag zwischen 9.00 und 20.00 Uhr im Foyer der Universitätsbibliothek besucht werden.