發表論文時,該不該引用arXiv上未出版的論文?

 2017-08-08 12:35:00.0

7月、8月接二連三的機器學習會議的論文評選中,論文的作者往往會被評委的一個問題激怒——評委在評選論文時,往往會說論文裏引用的參考論文只是arXiv上的預印本。究其原因,目前arXiv上論文的水平參差不齊,很多論文都沒有結果,或者引用別人錯誤的成果。在這種情況下,到底該不該引用arXiv上只是預印版的論文?如果你的方法中真的用到了別人的觀點和方法,那就大大方方引用吧!

Zachary C. Lipton在Approximately Correct上的一篇文章中發表了對在arXiv上引用論文的看法。他是加州大學聖地亞哥分校計算機科學與工程系的博士生,即將成爲卡內基梅隆大學的助理教授,對理論基礎和機器學習的應用感興趣。雷鋒網 AI科技評論編譯整理如下:

在剛剛過去的機器學習會議的論文提交高峯,許多業內人士對同行評審機制有了印象。一個特別熱門的話題是arXiv預印服務。計算機科學家經常在正式發表論文前,將論文發表在arXiv上,以分享他們的想法並擴大影響。

儘管arXiv很受歡迎,許多論文作者還是被評審員的說法所激怒,產生很強烈的不滿情緒,因爲評審員說他們引用的論文只是arXiv上的預印本。

「真的要引用arXiv上的論文嗎?」,他們抱怨到。

「算了吧,這些論文都沒有出版!」,他們大聲叫嚷。

讓他們不滿的源頭是由於一些很幼稚的人越來越多的使用arXiv(濫用文獻)。現在,深度學習的工具已經變得很強大,很容易複製一個repo,在新的數據集上運行它,改動一些超參數,然後就可以開始寫論文的草稿了。那些只懂跟風的人會上傳一些低質量的論文到 arXiv上,現在那種低質量的論文太多,搞得會議上都像完全充斥着由論文搬運工提交的低質量論文。

尤其令人擔憂的是當研究人員預測一個研究領域將會成爲熱點,他們會先在這個領域佔個坑。爲了避免被人搶先一步,作者們可能會匆忙地把一份還沒有完成研究的論文傳到arXiv上,以保住他們的地盤:我們是第一個在X上進行研究的人,所有後續的研究者都得引用我們的論文。

NLP/ML 研究員Yoav Goldberg早前在Medium上發了篇博文,很不客氣的批評了這種做法。

他嚴厲地痛斥了MILA研究小組的一篇論文,該論文中聲稱他們已經將生成對抗網絡的方法運用到語言上。

他談到論文裏產生語言的方法是可笑的,比現在的任何技術都要糟糕得多。他推測他們是想先在那個領域佔個坑,這樣無論誰先研究出來,都需要引用他們這篇論文,因爲他們這個想法在這個領域是開創性的。

在這種混亂的情況下,一些人對引用預印本論文的企業提出了質疑。所以,如果arXiv被濫用得這麼嚴重,還要引用那些只出現在arXiv上的論文嗎?

是的,當然。

不管什麼時候,當我們知道自己的成果是遵循、複製或借鑑他人的想法時,我們就應該引用之前相關的研究。

有很多影響深遠的研究都從未出版過,例如目前最偉大的數學論文。arXiv上的每一篇論文並不是都需要寫出參考文獻,但很多都會需要。斷然地拒絕引用未出版的論文,這種想法有點兒荒謬。我們太過於相信會議組織者和過度工作的審稿專家了,這些審稿專家中大約有30%的人甚至無法理解論文的基本概要。

如果在回顧文獻的時候想到了與自己的研究相類似的方法,就應該引用;如果我們明知自己的研究成果是建立在別人的工作之上,我們也應該引用;如果我們把別人分享的一個不太明顯的想法發展成一篇論文,也應該提及到;如果有人臨死前在餐巾紙上寫了一個理論,這個理論開啓了對機器學習的新的子領域的科學探索,我們應該把這個人寫下的理論發表出來,轉換成pdf傳到arXiv上,然後再引用它。

當然,無稽之談肯定不應該引用。許多評審員都在濫用arXiv系統,並荒謬的要求將論文與最近發佈的預印本論文進行比較。厚顏無恥的佔坑行爲不值得獎勵。評審不應該指責我們沒有將自己的研究與兩週前發表的不知道是否有用的算法進行比較。

我們不需要引用arXiv上的論文——這種觀點太過於看重科研論文產生的過程,而對論文中想法本身的關注太少了。

via:Approximately Correct


文章來源:雷鋒網