觀點 | 雙盲評審靠譜嗎?這篇谷歌&清華論文也許能給出答案

 2017-12-02 13:55:00.0

原標題:觀點 | 雙盲評審靠譜嗎?這篇谷歌&清華論文也許能給出答案

選自Google Research

作者:Andrew Tomkins、William D. Heavlin

谷歌聯合清華大學在第 10 屆計算機網絡搜索與數據挖掘國際會議(WSDM 2017)的同行評審階段通過實驗比較了單盲評審和雙盲評審的行爲差異,研究結果表明單盲評審中存在多種偏差,包括作者知名度、從屬機構甚至性別都有可能影響最終的評審結果。

在 17 世紀,一系列不同的實踐被統稱爲「科學方法」。這些實踐把可驗證的實驗方法編碼爲一條通向科學知識的路徑。科學文獻上升爲驗證和傳播新發現的機制,而科學同行評審的標準發展爲一種控制新入行者質量的方法。在同行評審的整個發展過程中,目前仍有一個關鍵的結構化問題未得到解決:評審人應該知道論文作者的身份嗎?持肯定觀點的人們認爲這種附加信息可以幫助評審人透視整個研究,並能更完整地對其進行評價。而持否定觀點的人們認爲評審人可能會傾向於按作者過去的表現形成自己的見解,而不是眼前的研究價值。


關於這個主題的已有學術文獻描述了幾種具體形式的偏差,當評審人知道了作者的身份之後,這些偏差可能會上升。在 1968 年,Merton 提出了馬太效應(Matthew effect),藉此可以說明爲什麼越出名的學者可以得到越高的學術評價。之後,Knobloch-Westerwick 等人提出了瑪蒂爾達效應(Matilda effect),藉此可以說明爲什麼男性第一作者的論文相比女性第一作者的論文能得到更高的科學評價。但是除了 Rebecca Blank 1991 年發表在《美國經濟評論》的一項經典研究之外,還出現了一些關於學術論文評審效應的可控實驗研究。

去年,我們得到了以實驗研究該問題的機會,研究結果被整理爲「Reviewer bias in single- versus double-blind peer review」這篇論文,該論文最近發表在《美國國家科學院院刊》上。論文的合作者是清華大學的張敏教授,我們在第 10 屆計算機網絡搜索與數據挖掘國際會議(WSDM 2017)的同行評審階段進行了一項實驗,即比較評審者在單盲和雙盲條件下的行爲表現。我們的實驗過程如下:

  1. 我們邀請了幾個專家參加程序委員會(Program Committee,PC)的研討會。

  2. 我們隨機將這些 PC 成員分成單盲組和雙盲組。

  3. 我們要求所有的 PC 成員對他們能勝任評審的論文進行招標,但只有單盲組的成員知道論文作者的名字和從屬機構。

  4. 然後基於招標的結果,我們從中各選取出兩個單盲和兩個雙盲成員,對所有的論文進行評審。

  5. 每一個 PC 成員將閱讀論文然後寫下評審結果。

結果,我們得到了單盲和雙盲 PC 成員對同一篇論文的招標和評審行爲的差異,有些結果令人驚訝。

我們首先發現,與雙盲評審人相比,單盲 PC 成員傾向於爲來自頂尖機構(包括大學和公司)以及由知名作者寫的論文打出更高的分數。這表明由剛嶄露頭角的研究者寫的論文,相比領域中的明星級研究者的同類論文,可能會被(單盲 PC 成員)給予更負面的評價。

更進一步,我們展示了一些與「招標過程」有關的其他發現,PC 成員指出了他們想要評審什麼論文。我們發現 (a) 單盲 PC 成員的招標相較於雙盲成員少了大約 22%,(b) 單盲 PC 成員更喜歡招標著名高校和巨頭公司的論文。(a) 發現尤其耐人尋味;看不到作者信息,評審人掌握的信息就更少,使得論文評選工作更加困難。然而,雙盲評審人相較於單盲評審人招標了更多而不是更少的論文。這表明雙盲評審人更多地參與了審查過程。(b) 發現並不令人吃驚,但無疑是有啓發性的:作者姓名和機構信息的存在被納入進了評審人的招標之中。在其他條件相同的情況下,單盲評審人招標頂級機構論文的可能性大約高出平均值 15%。

我們同樣研究了作者的真實性別或觀念是否影響單盲 vs 雙盲評審人的行爲。最終的結果有點微妙。相較於雙盲評審人,我們看到單盲評審人給予女性創作論文好評的概率下降了約 22%,但由於女性創作論文數量較少,這一結果不太具有統計學意義。在本論文的擴展版本中(https://arxiv.org/abs/1702.00502),我們考慮了我們的研究以及文獻中的一系列其他研究,並對所有結果進行了「元分析」。從這一範圍更大的觀察中,綜合結果確實給出了有關性別影響的重大發現。

總而言之,我們看到雙盲評審產生了更爲密緻的招標格局,這有利於更好的論文分配到合格的評審人。我們也觀察到,掌握作者和機構信息的審稿人傾向於更多地招標頂級機構論文,並投票接收頂級機構或著名作者的論文而不是其他一般的雙盲論文。這提供了一些證據表明存在這樣的可能:如果作者比較有知名度,或者來自頂級機構,那麼其論文在單盲情況下被接收,反之則被拒絕。當然,實際情況依然複雜:雙盲審查給會議組織者帶來行政負擔,減少了發現不同利益衝突的機會,並且在某些情況下由於預印或爲領域專家所熟知的長期運行的議程的存在而難以執行。無論如何,我們建議期刊編輯和會議主席認真地考慮雙盲評審的優勢。

論文:Reviewer bias in single- versus double-blind peer review

論文鏈接:http://www.pnas.org/content/114/48/12708.full.pdf

同行評審可以是「單盲」(single-blind),即評審人知道論文作者的名字和所在機構;也可以是「雙盲」,即無法查看此類信息。注意到計算機科學研究通常先於雜誌或者只出現在同行評審會議中,我們在第 10 屆計算機網絡搜索與數據挖掘國際會議的背景下研究了這兩種模型,這個會議的接收率很高(15.6%),專家委員會成員會對接收的提交論文進行評審。我們展示了一個可控實驗,其中有四個專家委員會成員對每一篇論文進行評審。四個評審員中的兩個從瞭解作者信息的委員會成員中選取,另外兩個評審員從不相交的其他成員(即不瞭解作者信息)中選取。這種信息不對稱在論文招標、評審和打分階段會一直保持。通常單盲條件下的評審人的招標論文數相對要少 22%,並更傾向於頂尖大學和巨頭公司論文。一旦論文提交到評審人手上,單盲評審人更明顯地傾向於推薦知名作者、頂尖大學和巨頭公司論文。我們得到了具體的評估賠率乘數(odds multipliers),分別是 1.63、1.58 和 2.10。

原文鏈接:https://research.googleblog.com/2017/11/understanding-bias-in-peer-review.html


文章來源:機器之心