Assessing the Quality of Wikipedia Pages Using Edit Longevity and Contributor Centrality

Qin, Xiangju; Cunningham, Pádraig (2012): Assessing the Quality of Wikipedia Pages Using Edit Longevity and Contributor Centrality. In: The 23rd Irish Conference on Artificial Intelligence and Cognitive Science, S. 3–11.

In this paper we address the challenge of assessing the quality of Wikipedia pages using scores derived from edit contribution and contributor authoritativeness measures. The hypothesis is that pages with significant contributions from authoritative contributors are likely to be high-quality pages. Contributions are quantified using edit longevity measures and contributor authoritativeness is scored using centrality metrics in either the Wikipedia talk or co-author networks. The results suggest that it is useful to take into account the contributor authoritativeness when assessing the information quality of Wikipedia content. The percentile visualization of the quality scores provides some insights about the anomalous articles, and can be used to help Wikipedia editors to identify Start and Stub articles that are of relatively good quality.

Link: http://arxiv.org/abs/1206.2517

Bots vs. Wikipedians, Anons vs. Logged-Ins

Steiner, Thomas (2014): Bots vs. Wikipedians, Anons vs. Logged-Ins. In: Web Science Track of the 23rd International World Wide Web Conference. 23rd International World Wide Web Conference (WWW2014). Seoul, Korea.

Wikipedia is a global crowdsourced encyclopedia that at time of writing is available in 287 languages. Wikidata is a likewise global crowdsourced knowledge base that provides shared facts to be used by Wikipedias. In the context of this research, we have developed an application and an underlying Application Programming Interface (API) capable of monitoring realtime edit activity of all language versions of Wikipedia and Wikidata. This application allows us to easily analyze edits in order to answer questions such as “Bots vs. Wikipedians, who edits more?”, “Which is the most anonymously edited Wikipedia?”, or “Who are the bots and what do they edit?”. To the best of our knowledge, this is the first time such an analysis could be done in realtime for Wikidata and for really all Wikipedias–large and small. Our application is available publicly online at the URL this http URL, its code has been open-sourced under the Apache 2.0 license.

Link: http://arxiv.org/pdf/1402.0412

Citation needed: the perceived credibility of Wikipedia among high education students

Mattebo, Robin (2013): Citation needed. The perceived credibility of Wikipedia among high education students. Master’s thesis. Uppsala University, Media and Communication Studies.

This thesis is called “Citation needed – the perceived credibility of Wikipedia among high education students”. The purpose of this thesis is to discover the opinions about the credibility of Wikipedia among high education students. The assumption is that students are aware of being source criticizing and do not directly cite Wikipedia in academic works.

The main research question is: what are the views of the perceived credibility of the information on Wikipedia among high education students?
The theoretical framework is made out of previous research specific related to Wikipedia but also theories around memory creation, assessment of sources and credibility.
The method used is qualitative, with semi-structured interviews. The material consists of interviews with nine participants. Their answers are transcribed and presented in themes and then analyzed.

The main results are that the perceived credibility of the information on Wikipedia among the students is that it is fairly credible and their views of the encyclopedia are that it is fast updated and neutral. They also believe that Wikipedia isn’t for academic usage so in all aspects the students do not make a thoroughly assessment of the encyclopedia’s credibility.

Further implications are that Wikipedia would be ruined if anyone tried to make it academic. Wikipedia fulfills an educational tool for the public even though it is not always correct. It is important to be reminded that Wikipedia contains errors but no other source is completely flawless either. In that sense it would be smarter to start a new encyclopedia, if there is such a need, perhaps open for professors only and would in the end only contain vetted information, however mostly/only in academic fields.

Link: http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-209053.

Was bedeutet 11.882 Bearbeitungen? Die qualitative Inhaltsanalyse zur Untersuchung des Entstehungsprozesses von Wikipedia-Artikeln

Roth, Clemens; Griesbaum, Joachim; Kölle, Ralph (2013): Was bedeutet 11.882 Bearbeitungen? Die qualitative Inhaltsanalyse zur Untersuchung des Entstehungsprozesses von Wikipedia-Artikeln. In: Joachim Griesbaum, Ben Heuwing, Josef Ruppenhofer und Katrin Werner (Hg.): HIER 2013 -Proceedings des 8. Hildesheimer Evaluierungs- und Retrievalworkshop. Institut für Informationswissenschaft und Sprachtechnologie, Universität Hildesheim. S. 101–117.

Der Wikipedia-Artikel „Deutschland“ ist trotz 11.882 Bearbeitungen kein als exzellent oder lesenswert ausgezeichneter Artikel. Man kann dementsprechend davon ausgehen, dass er im Sinne der Wikipedia-Qualitätskriterien nicht besonders hochwertig ist. Dieses Beispiel dient als Aufhänger für die Frage, ob und inwiefern Zusammenhänge zwischen der Anzahl und Art von Bearbeitungen und der Qualität von Beiträgen existieren. Was bedeutet eine Bearbeitung eines Wikipedia-Artikels hinsichtlich der Qualität des Beitrags und welche Aspekte sind bei der Untersuchung dieses Zusammenhangs wichtig? Um diese Frage zu adressieren, wurde eine explorative Studie in Form einer qualitativen Inhaltsanalyse von sechs Wikipedia-Artikeln durchgeführt. Der Artikel stellt den methodischen Ansatz dieser Studie sowie deren Ergebnisse dar.

Link: http://nbn-resolving.de/urn:nbn:de:gbv:hil2-opus-2026

#vufindhh: Zur Statistik und Datenqualität im GBV-Zentral

Das 2. Deutsche VuFind-Anwendertreffen 1) Hervorragend organisiert vom Team der TUB Hamburg-Harburg! Vielen Dank! hat Gerald Steilen (VZG) mit einer statistischen Übersicht zum GBV-Zentral (Folien, PDF) eröffnet. Der Vortrag gehörte wohl zu den Meistdiskutierten des Anwendertreffens. Und sowohl ein paar Zahlen als auch die daraus geschlossenen Konsequenzen sind in der Tat diskussionswürdig.

Requests (S. 6)

Die “Requests” klingen sehr beeindruckend. Die Bibliothek der Hochschule Hannover landet in den GBV-Zentral-Charts auf Platz 4 mit satten 32,8 Mio. Requests vom 1. Januar bis zum 12. September 2013. Das ist in der Tat beeindruckend.

Ich vermute jedoch hauptsächlich Google hinter diesen Aktivitäten. Bis vor kurzem hatten wir (IIRC) etwa 7,5 Mio Titel in unserem VuFind-Ausschnitt des GBV-Zentral. Wenn Google diese Seite viermal harvested sind wir bei 30 Mio. Jetzt sind es (dank DOAJ) schon 9 Mio. Titel, womit man schnell bei über 30 Mio ist.

Die “echte Katalognutzung” ist nach unserer Statistik deutlich geringer: 2) 1. Januar bis zum 12. September 2013, um Suchmaschinen etc. bereinigt. Wer Javascript abstellt oder Ghostery benutzt und noch einige andere werden nicht verzeichnet.

  • 20397 Besuche
  • 24804 Seitenansichten, 19699 einmalige Seitenansichten
  • 144 max. Aktionen pro Besuch

Bitte diese Anmerkung nicht als Kritik an den Zahlen verstehen! Im Vortrag ging es um den GBV-Zentral, nicht um Katalognutzung! Und da ist natürlich auch ein Google-Anfrage ein Request wie jeder andere auch. Wie vermutlich auch Anfragen aus der Autocomplete-Funktion oder den “Ähnlichen Titeln” und so weiter. Ich habe dies hier nur aufgeführt, weil ich mehrfach angesprochen wurde, wie wir zu diesen enormen Katalognutzungszahlen kämen.

Datensätze mit Sprachcode (Seite 11)

Abdeckung in DOAJ wird mit 1% (9976 Titel) angegeben. BASE weist für die Quelle DOAJ Articles 630.000 Titel mit unbekannter Sprache aus. Allerdings auch 567.000 englische Artikel, 174.000 portugiesische und noch viele, viele mehr:

Da die Daten es vom DOAJ in BASE geschafft haben, müsste der Import überdacht werden. Die Daten geben mehr her, als im GBV-Zentral momentan realisiert wird.

Personenangaben (S. 8ff)

Die im Vortrag genannten Angaben zu den Verfassern sind ohne eingehende und differenzierte Betrachtung nicht zu interpretieren. Zuerst ein kurzer Blick auf OLC. Dieser Artikel zur Friedensforschung hat in OLC einen Verfasser. Im GBV-Zentral auch. Dieser Artikel über Effizienzsteigerung hat im OLC auch einen Verfasser. Im GBV-Zentral allerdings nicht. Der Verfasser ist dort nur weitere beteiligte Person.

In der Personenfacette:
OLC: 028A $dNicolaus$aSombart
GBV-Zentral: 100 |a Sombart, Nicolaus

Nicht in der Personenfacette:
OLC: 028C/01 $dMatthias$aMeier
GBV-Zentral: 700 |a Meier, Matthias

Das Ursache liegt hier eindeutig in den Daten und ist schon in der Vorbemerkung des thematischen Teils “unselbständige Werke” der GBV-Katalogisierungsrichtlinien angelegt:

Mit dem thematischen Teil „Unselbstständige Werke“ liegt erstmals im GBV eine verbindliche Regelung für die Katalogisierung unselbstständiger Werke vor. Das hier beschriebene Datenmodell gibt der im GBVKat bereits in erheblichem Umfang stattfindenden Katalogisierung unselbstständiger Werke eine einheitliche Grundlage. Für die Katalogisierung im GBVKat ist allein diese Richtlinie verbindlich. Für die beim GBV angebotenen Aufsatzdatenbanken wie z. B. „Online-Contents“ oder die „Internationale Bibliographie der Zeitschriftenliteratur (IBZ)“ gelten teilweise davon abweichende Datenmodelle.

Die Richtlinie ist also verbindlich und einheitlich, außer bei diesem und jenem. Und diese Ausnahmen sollen nun im GBV-Zentral als Ganzes dargestellt werden. Zwei offensichtliche Lösungsansätze:

  1. Änderung der Katalogisierungsrichtlinie und tatsächliche Vereinheitlichung auch für OLC & Co.
  2. Pragmatischer Umgang mit den vorhandenen und heterogenen Daten.

Der pragmatische Umgang könnte für die Discovery-Interfaces in einer “Personen”-Facette münden, die Erstautoren mit allen weiteren Autoren, Herausgebern etc. in einen Topf wirft.

Sonstiges

Zu vielen anderen Punkten kann ich nur ausdauernd und zustimmend nicken. Dass die URL-Bezeichnungen selten vorhanden und von großer Heterogenität (und stark schwankendem Nutzwert) sind, ist zum Beispiel wirklich kein bibliothekarisches Ruhmesblatt. Ebenso ist die GND-Verlinkung noch deutlich ausbaubar. Geralds Abschlussfrage, welche Features in Discovery Systemen mit diesen Daten sinnvoll seien, ist jedoch (m.E.) anders zu formulieren. Denn Dienstleistungen zu bauen, nur weil die Daten es hergeben, ist nicht sinnvoll. 3) PS: Was niemand – insbesondere nicht Gerald – bestreiten wird.

Ich schlage also vor, ein Discovery-Utopia zu formulieren. Dies sieht je nach lokaler Nutzerschaft nicht unbedingt überall gleich aus. Und wenn klar ist, welche Features gewünscht sind, sollten wir uns um die Realisierung kümmern. Sind die Daten schlecht? Dann sollten wir versuchen, sie zu verbessern.

TL;DR: Unsere Daten sind weder schicksalhaft gegeben, noch sind sie unveränderbar. Wir erstellen sie selbst, wir tauschen sie oder wir kaufen sie. Und wenn wir schlechte Daten haben – und die haben wir – sollten wir an deren Qualität arbeiten, um unseren NutzerInnen die Dienstleistungen zu bieten, die sie sich wünschen und die sie benötigen.

References   [ + ]

1. Hervorragend organisiert vom Team der TUB Hamburg-Harburg! Vielen Dank!
2. 1. Januar bis zum 12. September 2013, um Suchmaschinen etc. bereinigt. Wer Javascript abstellt oder Ghostery benutzt und noch einige andere werden nicht verzeichnet.
3. PS: Was niemand – insbesondere nicht Gerald – bestreiten wird.

Unbekannte Übersetzer aus China in Taiwan

Während der “Martial Law”-Periode (1949-1987) war es in Taiwan offenbar untersagt, von Festlandchinesen übersetzte Werke zu veröffentlichen. Die Folge waren gefälschte Übersetzer-Angaben.

During the martial law period (1949-1987), it was illegal in Taiwan to publish translations by translators living in Mainland China. As a result, 40% of translated titles in Taiwan have translators who are claimed “unknown” or simply “editors’ department”. Compounding this confusing state of affairs is that many translators’ names are simply fabrications. Therefore, there is false information in all existing bibliographies of translated literature. Hundreds of translated titles published in China were reprinted in Taiwan under fabricated names or “unknown translators”. The names of over one hundred of China translators were altered without their knowledge. Those fake names used by publishers are also over one hundred. Researchers in Taiwan, Hong Kong and China have been misled by those fake translations. Cross-disciplinary cooperation is required to address this complicated issue.

Dieses Problemfeld (man denke ans Zitieren…) war mir bislang unbekannt. Die Publikation, aus der der zitierte Abstract stammt, ist leider nur auf Chinesisch(?) verfügbar. Die Google-Translate-Version lässt vermutlich einige Feinheiten vermissen…

Tzu-Yun Lai 賴慈芸. (2012). On the Fake Translations of World Literature in Taiwan. JOURNAL OF LIBRARY & INFORMATION SCIENCE, 38(2).

OA-Statistik: Vortrag und Umfrage

Daniel Metje hat heute die Folien zu seinem Vortrag über OA-Statistik bei den OA-Vernetzungstagen in Stuttgart bei Slideshare eingestellt.

OA-Statistik ist mein Lieblingsprojekt im gesamten Feld der OA-Infrastruktur. Die OA-Statistiker – besonders Daniel Metje – wissen das sehr genau, da ich bei jeder sich bietenden Gelegenheit drängele, doch so bald wie möglich in den (Beta-)Betrieb überzugehen. Und zwar aus dem ganz einfachen Grund, dass Zugriffsstatistiken (abgesehen von einer radikalen Vereinfachung des Dokumentenuploads) das mit Abstand am häufigsten nachgefragte Feature bei den OA-Autoren in meinem Umfeld ist. Umso schöner, dass Ergebnisse in Sicht sind. Der Abschlussworkshop des Projekts ist für den 21. Januar 2010 angekündigt.

Passend dazu hat Björn Mittelsdorf übrigens heute in INETBIB auf eine Umfrage zu “Zusatzfunktionen in digitalen Repositorien” hingewiesen. Irritiert haben mich dabei Fragen wie z.B. “Wie schätzen Sie den Nutzen von Hinweisen auf die Qualität eines Dokuments ein?”
Wie soll das funktionieren? Die Qualität einer Publikation für den Leser kann nur der Leser beantworten. An Zitationsanalyse etc. ist dabei anscheinend nicht gedacht, danach wird gesondert gefragt.