Maike Sommer: Automatische Generierung von DDC-Notationen für Hochschulveröffentlichungen

Abstract:

Das Thema dieser Bachelorarbeit ist die automatische Generierung von Notationen der Dewey-Dezimalklassifikation für Metadaten. Die Metadaten sind im Dublin-Core-Format und stammen vom Server für wissenschaftliche Schriften der Hochschule Hannover.

Zu Beginn erfolgt eine allgemeine Einführung über die Methoden und Hauptanwendungsbereiche des automatischen Klassifizierens. Danach werden die Dewey-Dezimalklassifikation und der Prozess der Metadatengewinnung beschrieben. Der theoretische Teil endet mit der Beschreibung von zwei Projekten. In dem ersten Projekt wurde ebenfalls versucht Metadaten mit Notationen der Dewey-Dezimalklassifikation anzureichern. Das Ergebnis des zweiten Projekts ist eine Konkordanz zwischen der Schlagwortnormdatei und der Dewey-Dezimalklassifikation. Diese Konkordanz wurde im praktischen Teil dieser Arbeit dazu benutzt um automatisch Notationen der Dewey-Dezimalklassifikation zu vergeben.

Nicht nur die Daten stammen vom Server für Wissenschaftliche Schriften der Hochschule Hannover, auch diese Bachelorarbeit ist dort als Volltext verfügbar.

Google Scholar: Inclusion Guidelines for Webmasters

Google Scholar hat “Inclusion Guidelines for Webmasters” veröffentlicht. Wer sein Repository ordentlich in Google Scholar gelistet haben möchte, hat sich an Googles “Standards” zu halten. Konkret heißt es:

If you’re a university repository, we recommend that you use the latest version of Eprints (eprints.org), Digital Commons (digitalcommons.bepress.com), or DSpace (dspace.org) software to host your papers. If you use a less common hosting product or service, or an older version of these, please read the rest of this document and make sure that your website meets our technical guidelines.

Liebe Bibliothekswesen, tragt bitte in alle künftigen Anforderungskataloge für Softwareanschaffungen unbedingt ein, ob die Software Google behagen würde!

Man könnte antworten:

If you’re a search engine giant and you want to monetarize the scientific work of other people, we recommend that you use the latest version of any open harvesting protocol, for example OAI-PMH to collect the metadata of our papers. If you try to establish your own rules, have fun with your customers who wonder about crappy metadata.

Kann doch nicht so schwer sein…

Release: OPUS 4.2.0

OPUS 4.2.0 ist fertig:

Ausgewählte Features, die in diesem Release neu entwickelt wurden:

* XML-basierte Import-Schnittstelle für Metadaten (inclusive Dokumentation des IMPORT-XML)
* dedizierte Unterstützung von Schriftenreihen mit der Möglichkeit zum Einbinden von Logos und HTML-Markup
* Anzeige und Sortierung nach Bandnummern innerhalb der Schriftenreihen
* Verlinkung zur Schriftenreihe aus der Frontdoor
* OAI-Schnittstelle unterstützt nun auch Sets (Anforderung für die
DINI-Zertifizierung)
* globale Enrichment-Verwaltung in der Administration
* RSS-Feeds auf beliebige Suchanfragen
* Anzeige des Gesamtbestands auf der Startseite
* Erweiterung der Bearbeitungsstati von Dokumenten, neu:
“In Bearbeitung” und “Zugriff beschränken”
* Anpassung von Eingabefeldern im Adminbereich (z.B. Vergrößerung der Anzeige der Abstractfelder)
* Anpassung des Datenmodells (u.a. PageNumber, PageFirst und PageLast können jetzt nicht-numerischen Inhalt enthalten)
* Enrichtmentfelder mit HTML-Markup können auf der Frontdoor ausgegeben werden
* Validierung der XML-basierten Dokumenttypdefinitionen im Publikationsformular

Weiteres auf der OPUS4-Seite des KOBV.

7 Grundregeln für digitale Projekte

Klaus Graf schlägt “7 Grundregeln für digitale Projekte” vor:

Für digitale Sammlungen von Archiven, Bibliotheken, Museen usw. und virtuelle Ausstellungen sind die folgenden Grundregeln gedacht, die ich zur Diskussion stelle.

1. NICHT AN DER AUFLÖSUNG SPAREN! Jede Bildseite muss in hoher Auflösung vorliegen, denn nur diese garantiert die wissenschaftliche Nutzbarkeit.

2. PERMANENT-LINKS! Jede einzelne Bildseite muss mit einem deutlich angebrachten KURZEN dauerhaften Link versehen werden.

3. META-DATEN ZU JEDEM DIGITALEN OBJEKT! Zu jedem digitalen Objekt (auch zu separat nutzbaren Einzelseiten wie Druckgrafik, Zeichnungen) muss es entsprechende Metadaten geben, die professionellen Ansprüchen genügen müssen.

4. OAI-PMH NUTZEN! Alle Meta-Daten müssen für OAI-Harvester zur Verfügung stehen.

5. KEIN COPYFRAUD! Die Rechtslage ist in den Metadaten möglichst objektiv und auf jeden Fall ohne Copyfraud zu beschreiben. Was gemeinfrei ist, muss auch als Digitalisat gemeinfrei bleiben! Wenn das Projekt über Urheberrechte verfügt, ist eine Nachnutzbarkeit über eine möglichst liberale CC-Lizenz vorzusehen.

6. WEB 2.0! Nutzer sollten die Möglichkeit haben, Ergänzungen und Korrekturen anzubringen (Tags, Transkriptionen usw.)

7. LANGZEITARCHIVIERUNG! Die dauerhafte öffentliche Verfügbarkeit ist ggf. durch Kooperation mit Bibliotheken sicherzustellen.

Hier geht’s zum Posting und zur Diskussion.

Dezentrale OAIster-Alternative mit YaCy

In einer Mail an NGC4LIB, einer Mailingliste, in der das Ende des OAIster derzeit heftig debattiert wird, habe ich vorgeschlagen eine dezentrale Alternative mit YaCy aufzubauen.

A lot of people don’t seem to be very happy with OCLCs decision on OAIster. There’s a general problem with centralized services like OAIster. Too much can happen to that single service, and if it’s down it’s down. That’s why I thought about a distributed OA search for some time now and the OAIster decision gave reason to me to ask the YaCy [1] developer Michael Christen if YaCy could be used for such a search. To make it short: he’s quite optimistic.

Right now YaCy is not able to import data via OAI-PMH but that should be possible to realize. Of course there’s still some work to be done, for example the proper implementation of dublin core. On page 2 of http://yacy.net/material/YaCy_LT2009_Flyer_216x303.pdf (in German) you can find an example of the current possibilities of YaCy with dublin core. BTW: It’s SRU compliant.

We’d like to set up a Yacy instance as a proof of concept. In future it should be possible to cluster some of these instances to a large network of open access search engines. Just to mention the name of this mailing list: kind of a “next generation catalog for libraries”, I guess.

Opinions, anyone? Do you think a distributed OA search could be useful?

Kritik, Vorschläge und andere Äußerungen dazu bitte in die Mailingliste oder hier in die Kommentare. Gerne auch direkt per Mail. Hätte solch ein Projekt Zukunft? Was wären die Anforderungen?

OCLC stampft OAIster ein. Was tun?

Klaus Graf machte kürzlich darauf aufmerksam, was OCLC mit OAIster vorhat. Verständlicherweise brach ein Sturm der Entrüstung los. Nun beantwortet Roy Tennant zumindest einige der aufgetretenen Fragen. Ein paar der spannendsten Punkte:

Starting in October, the records will be freely discoverable along with all the other content in WorldCat.org. However, it will not be possible to limit a search to OAIster records alone.

[…]

Contributors of OAIster records can receive free access to the OAIster aggregation in FirstSearch by request. Contributors were recently contacted to offer them such access and many have already responded that they would like to have such access.

Only data providers that request that we not harvest their records will be removed from the aggregation. We feel strongly that one of the main benefits of OAIster has been the aggregation of records from the vast majority of repositories worldwide. Therefore, unless a repository denies us permission to harvest their records, we will seek to include them.

[…]

We are exploring options for machine access. Z39.50 access to OAIster is available to FirstSearch subscribers now, and we are considering whether additional options should be supported. The University of Michigan did not offer an OAI-PMH or Web Services interface, although they did offer an rsync option. Learning the needs of the community will help inform what we do in this area.

Eine höchst unbefriedigende Situation. Es spricht meines Erachtens nichts dagegen, dass der OAIster in irgendwelche OCLC-Produkte eingebunden wird, aber der OAIster oder ein adäquater Nachfolger sollte unbedingt erhalten bleiben. Ist das OCLCs verfrühter Beitrag zur Open-Access-Week?

Im Posting erklärt Tennant noch, wie kompliziert es sei, Metadaten per OAI-PMH zu harvesten. Vielleicht wäre es ja eine Aufgabe für einen oder mehrere Bibliotheksverbünde, eine Schnittstelle zur Verfügung zu stellen, auf die andere Suchdienste aufbauen könnten. Konkret könnte das so aussehen, dass ein Server alle greifbaren Daten aggregiert, normalisiert und zum Beispiel per SRU (nur als Beispiel) durchsuchbar macht oder auch als komplettes Datenpaket zum Download anbietet. Das wäre wirklich ein Fortschritt für die Open-Access-Bewegung. Und der Ausfall einer Suchoberfläche kein Problem mehr, da ruckzuck eine weitere aufgebaut werden könnte.

Erst die Kontroverse über die OCLC-Policy, nun dies. Das Fazit kann nur sein, OCLC nicht mehr Verantwortung und Daten in die Hand zu geben, als unbedingt notwendig ist.