Seltsam unbeachtet blieb im deutschsprachigen Raum bisher das NIPS-Experiment. NIPS steht für Neural Information Processing Systems, eine Konferenz zum Maschinellen Lernen.
Worum ging es beim NIPS-Experiment? Für die NIPS 2014 wurden zwei Programmkommitees eingerichtet. 10% der Einreichungen (166) wurden beiden Kommitees zur Begutachtung vorgelegt. Es sollte geprüft werden, wie sehr die Entscheidungen übereinstimmen. Das Fazit in zwei Worten: nicht sehr. Die meisten der tatsächlich gehaltenen Vorträge wären abgelehnt worden, wenn man die Begutachtung noch einmal vom jeweils anderen Kommitee hätte durchführen lassen. Eric Price geht ins Detail:
The results were revealed this week: of the 166 papers, the two committees disagreed on the fates of 25.9% of them: 43. [Update: the original post said 42 here, but I misremembered.] But this “25%” number is misleading, and most people I’ve talked to have misunderstood it: it actually means that the two committees disagreed more than they agreed on which papers to accept. Let me explain.
The two committees were each tasked with a 22.5% acceptance rate. This would mean choosing about 37 or 38 of the 166 papers to accept1. Since they disagreed on 43 papers total, this means one committee accepted 21 papers that the other committee rejected and the other committee accepted 22 papers the first rejected, for 21 + 22 = 43 total papers with different outcomes. Since they accepted 37 or 38 papers, this means they disagreed on 21/37 or 22/38 ≈ 57% of the list of accepted papers.
In particular, about 57% of the papers accepted by the first committee were rejected by the second one and vice versa. In other words, most papers at NIPS would be rejected if one reran the conference review process (with a 95% confidence interval of 40-75%)

Price führt weiter aus, dass also die Hälfte der Einreichungen übereinstimmend abgelehnt, die andere aber mit der Zuverlässigkeit eines Münzwurfes abgelehnt oder angenommen wurde. Die Kommentare zu seinem Posting sind übrigens höchst lesenswert, ebenso einige der zahlreichen anderen dazu erschienenen Postings, zum Beispiel:
- Peer Review “Randomness” – A Case for Deliberation
- On the NIPS Experiment and Review Process
- The negative impacts of random conference decisions
In das gleiche Horn stößt anlassunabhängig auch Michael Eisen, der gerade ein AMA (“Ask me anything”) auf Reddit durchgeführt hat.