Internet Archive betreibt purl.org

Persistente URIs sind ein zentrales Problem bei der Veröffentlichung von Ontologien in Linked-Data-Kontexten. Der meistgenutzte Dienst war bislang purl.org. Purl steht für Persistent Uniform Resource Locator. Der Dienst wurde von OCLC betrieben und existiert schon seit 1995. In letzter Zeit war es aber nicht möglich, neue Accounts anzulegen. Es gab daher Überlegungen, einen Alternativdienst aufzubauen: w3id.org. [1] Vgl. Permanent identifiers and vocabulary publication: purl.org and w3id 

W3id.org baut dabei auf Github auf. Dies hat den Vorteil, dass die Hemmschwelle recht niedrig ist, Github ist schließlich inzwischen nicht nur in Enwicklerkreisen ein gängiges Werkzeug. Der Nachteil dieser Lösung ist, dass man sich unnötigerweise von einem weiteren Dienst abhängig macht. Github ist ein kommerzieller Anbieter. Streicht dieser die Segel oder ändert er seine Geschäftsbedingungen, steht w3id.org vor großen Schwierigkeiten.

Langer Rede, kurzer Sinn: Das Internet Archive betreibt Purl.org seit September, wie im dortigen Blog bekannt gegeben wurde. Der Dienst kann also wieder genutzt werden.

Festival für und über persistente Identifier: PIDapalooza

In Reykjavik wird nicht nur Fussball bestaunt, sondern auch über persistente Identifier diskutiert. Zu diesem Zweck trifft man sich dort am 9. und 10. November zum PIDapalooza-Festival:

Open identifiers deserve their own festival

Why build an open identifier infrastructure? So that anyone can use it to create cool tools and services for the research community. If you’re doing something interesting with persistent identifiers, or you want to, come to PIDapalooza and share your ideas with a crowd of like-minded innovators.

Infobib unter leicht veränderter Adresse?

Der Serverumzug kürzlich verlief problemlos. Infobib ist nun zwar etwas langsamer, aber deutlich sicherer unterwegs. Nun ergibt sich durch den Umzug ein Problemchen, das sich aus organisatorischen Gründen nicht sofort beheben lässt. Bisher waren alle Postings unter URLs nach folgendem Muster zu finden:

https://infobib.de/blog/2014/04/08/vorratsdatenspeicherung-ist-naturlich-rechtswidrig/

Nun lautet der Link für dasselbe Posting:
https://infobib.de/2014/04/08/vorratsdatenspeicherung-ist-naturlich-rechtswidrig/

Der Teil /blog ist also versehentlich entfallen. Ursprünglich wurde das /blog hinzugefügt, weil Infobib vielleicht noch Platz für alles mögliche andere bieten sollte. Das ist ab und an der Fall gewesen, aber eigentlich ist Infobib ein Blog. Die alten Links funktionieren auch weiterhin, man wird einfach auf die neue Form weitergeleitet.

Nun meine Frage an die werte Leserschaft: Soll ich es einfach dabei belassen? Zwar sind lauter Links und auch Zitationen auf die alte Form vorhanden, sie führen aber allesamt ans Ziel. Das einzige Manko: Wer die alte Blog-Adresse https://infobib.de/blog aufrufen möchte, landet merkwürdigerweise bei einem zwei Jahre alten Stabenau-Zitat, und nicht einfach auf der Startseite.

Also, soll ich es so lassen, oder soll ich in einigen Tagen versuchen, die Änderung rückgängig zu machen?

10 Regeln für persistente URIs

Phil Archer hat eine Studie zur Gestaltung von URIs veröffentlicht. Praktischerweise gibt er eine knackige Zusammenfassung in Form von 10 Regeln, die es zu beachten gilt:

Follow the pattern
e.g. http://{domain}/{type}/{concept}/{reference}
Avoid stating ownership
e.g. http://education.data.gov.uk/ministryofeducation/id/school/123456
Re-use existing identifiers
e.g. http://education.data.gov.uk/id/school/123457
Avoid version numbers
e.g. http://education.data.gov.uk/doc/school/v01/123456
Link multiple representations
e.g. http://data.example.org/doc/foo/bar.rdf
e.g. http://data.example.org/doc/foo/bar.html
Avoid using auto-increment
e.g. http://education.data.gov.uk/id/school/123456
e.g. http://education.data.gov.uk/id/school/123457
Implement 303 redirects for real-world objects
e.g. http://www.example.com/id/alice_brown
e.g. http://www.example.com/doc/alice_brown
Avoid query strings
e.g. http://education.data.gov.uk/doc/school?id=123456
Use a dedicated service
i.e. independent of the data originator
Avoid file extensions
http://education.data.gov.uk/doc/schools/123456.csv

Die Erläuterungen zu den einzelnen Thesen sind unbedingt zu lesen, und zwar in der “Study on Persistent URIs with identification of best practices and recommendations on the topic for the Member States and the European Commission”.

Kostenlose DOIs für akademische Einrichtungen

Das nenne ich mal eine schöne Nachricht! Aus der Pressemitteilung der TIB:

Die Vergabe der Digital Object Identifier, kurz DOI, die die dauerhafte Zitierbarkeit von elektronischen Publikationen und Forschungsdaten gewährleistet, ist ab diesem Jahr für akademische Einrichtungen kostenfrei. Dies haben die deutschen Mitglieder der internationalen Non-Profit-Organisation DataCite e.V., das GESIS – Leibniz-Institut für Sozialwissenschaften, die Technische Informationsbibliothek (TIB), die Deutsche Zentralbibliothek für Medizin (ZB MED) und die Deutsche Zentralbibliothek für Wirtschaftswissenschaften – Leibniz-Informationszentrum Wirtschaft (ZBW), auf ihrer Mitgliederversammlung im Dezember 2012 beschlossen.

Ein Ziel von DataCite ist es, Forschungsdaten im Internet dauerhaft verfügbar und zitierbar zu machen. Möglich wird dies durch das Digital-Object-Identifier-System (DOI). Bei DOIs handelt es sich um eindeutige und dauerhafte digitale Identifikatoren für digitale Objekte. Sie sind mit den ISBN für Print-Publikationen vergleichbar. In Deutschland vergeben die vier deutschen DataCite-Mitglieder – GESIS, TIB, ZB und ZBW – DOIs.

„Die DOI-Vergabe ist ab sofort für akademische Einrichtungen in Deutschland kostenlos“, berichtet Jan Brase, Geschäftsführer von DataCite. „Wir möchten dadurch die Forschung und vor allem die einfache Bereitstellung und Zitierbarkeit von Forschungsdaten in Deutschland weiter fördern. Wir hoffen, dass immer mehr Forschungseinrichtungen ihre Daten im Internet veröffentlichen und dauerhaft zitierbar machen.“

URN als permanente Identifier sind international unbekannt und werden übersehen. DOIs werden m.E. deutlich eher genutzt. Dazu kommt, dass viele Altmetrics-Dienste die Nutzung von DOIs voraussetzen. Ich bin sehr angetan und hoffe, dass dies bald in OPUS integriert wird!

[via @nowakman]

Kein IRrweg, aber dennoch Handlungsbedarf

Klaus Graf wirft einen Blick auf Google Scholar und zieht daraus Schlüsse über den IRrweg Institutionelle Repositorien. Er sucht nach “Science” und zählt die Volltextlinks:

Über 40 der 100 Treffer zum Thema bzw. Suchwort Science – sicher wichtige, weil vielzitierte Artikel – haben Volltextlinks, aber ich finde nur ein IR (igitur, NL) darunter und 3 arxiv-Links.

Wenn man einfach so nach Science sucht, hat man recht viele Treffer aus früheren Jahrzehnten. Da ich die Bedeutung der IRs eher anhand aktuellerer Publikationen prüfen würde, habe ich mal (willkürlich gewählt) auf Publikationen ab 2005 eingeschränkt.

Dabei ergibt sich schon ein etwas anderes Bild. Ich habe jetzt nicht alle verfügbaren Versionen abgeprüft, und bis zu 89 Versionen pro Dokument habe ich auf den vorderen Ergebnisseiten gesehen. Aber nun sind deutlich mehr Links auf Volltexte in IRs dabei, und alleine 3 Arxiv-Dokumente unter den ersten 10 Treffern.

Richtig bleibt aber, dass meist wohl der erste Volltext-Link angeklickt wird, der auch direkt auf der Ergebnisseite zu sehen ist. Dies ist oft nicht der IR-Link. Was ist jetzt der Schluss daraus? Sollen Repositories per SEO auf Google Scholar getrimmt werden?

Ja, das kann man machen. Man sollte es sogar. Nick Sheppard hat schon vor drei zwei Jahren die Notwendigkeit von SEO für IRs festgestellt.

It is crucial that both the Open Access full text research content of the repository and metadata records of citation material are fully indexed by Google (and other search engines); in the future it is also likely to be required for other Open Educational Resources (learning objects). However, site:http://repository-intralibrary.leedsmet.ac.uk/ currently returns just 4 results (in addition to the Login page itself) and it is a bit of a mystery how these 4 are actually being picked up when the majority of records are not.

Klickt man auf den Link, sieht man sofort, dass Sheppards Bemühungen von Erfolg gekrönt waren.

So nervig die SEO-Gemeinde mit ihrem recht hohen Schwarzschafanteil oft auch ist: Archivare und Bibliothekswesen müssen sich auch ein wenig um das Thema SEO kümmern. Und somit auch um so etwas wie Googles Panda, um Schema.org oder einfach darum, die Daten erstmal überhaupt ins Web zu bekommen. Stichwort Permalinks.