信息檢索頂會SIGIR 2017獎項公佈:微軟最佳論文、清華最佳學生論文

 2017-08-14 08:00:24.0

8 月 7 日,信息檢索領域的頂級學術會議 SIGIR 2017 在日本東京開幕。今日,大會公佈了包括最佳論文、最佳學生論文在內的 4 個獎項,微軟獲得最佳論文獎、清華大學獲得最佳學生論文獎。

ACM SIGIR 是國際計算機學會主辦的信息檢索領域最重要的學術會議,今年已是第四十屆。據統計,SIGIR 2017 共收到稿件 760 篇(其中長文投稿 362 篇,長文錄用僅為 78 篇),會議參會人數達到 900 人以上。

今日,SIGIR 2017 公佈最佳論文獎、最佳學生論文獎、最佳短論文獎、Test of Time Award 四大獎項,獲獎論文如下:

最佳論文:BitFunnel: Revisiting Signatures for Search

作者:Bob Goodwin、Michael Hopcroft、Dan Luu、Alex Clemmer、Mihaela Curmei、Sameh Elnikety、Yuxiong He(微軟與 Heptio)

最佳學生論文:Evaluating Web Search with a Bejeweled Player Model

作者:Fan Zhang、劉奕群、Xin Li 、張敏、Yinghui Xu、馬少平(清華大學與阿里巴巴)

最佳短論文:LiveMaps – Converting Map Images into Interactive Maps

作者:Michael R Evans 、Dragomir Yankov 、Pavel Berkhin 、Pavel Yudin 、Florin Teodorescu 、Wei Wu(微軟)

Test of Time Award:Personalizing search via automated analysis of interests and activities

作者:Jaime Teevan、Susan T. Dumais、Eric Horvitz(SIGIR 2005)

以下為機器之心對四篇獲獎論文的摘要介紹。每個獎項之後還附上了該獎項的 Honourable Mentions 論文。

SIGIR 2017 最佳論文

論文:BitFunnel: Revisiting Signatures for Search


地址:http://dl.acm.org/citation.cfm?doid=3077136.3080789

摘要:自上世紀 90 年代中期以來,人們普遍認為簽名文件要比用於文本索引的倒排文件(inverted files)更差。近年來,Bing 搜索引擎已經開發和部署了一個基於位片簽名(bit-sliced signatures)的索引;這個被稱為 BitFunnel 的索引代替了現有的基於倒排索引的生產系統。遠離倒排索引的背後驅動因素是操作成本的節省。該論文描述了雲計算領域的算法創新和改變,這促使我們重新思考並最終實現了曾經被認為無用的技術。 BitFunnel 算法直接解決了位片塊簽名中的 4 個根本局限。同時,我們在集群上的算法映射為避免與簽名相關的其他成本提供了機遇。我們證明這些創新相比於經典的位片簽名有著顯著的效率提升,並對 BitFunnel 與 Partitioned Elias-Fano Indexes、MG4J 和 Lucene 作了對比。

Honourable Mentions

論文:IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models

作者:Jun Wang (英國倫敦大學)、Lantao Yu (上海交通大學)、Weinan Zhang (上海交通大學)、Yu Gong (阿里巴巴)、Yinghui Xu (阿里巴巴)、Benyou Wang (天津大學)、Peng Zhang (天津大學)、Dell Zhang (倫敦大學伯克貝克學院)

地址: http://dl.acm.org/citation.cfm?doid=3077136.3080786

對該論文的詳細解讀,參見:學界 | SIGIR2017 滿分論文:IRGAN。

論文:Classification by Retrieval: Binarizing Data and Classifiers

作者:Fumin Shen (電子科技大學)、Yadong Mu (北京大學)、Yang Yang (電子科技大學)、Wei Liu (Tencent AI Lab)、Li Liu (碼隆科技)、Jingkuan Song (電子科技大學)、Heng Tao Shen (電子科技大學)

地址: http://dl.acm.org/citation.cfm?doid=3077136.3080767

SIGIR 2017 最佳學生論文

論文:Evaluating Web Search with a Bejeweled Player Model


地址: http://dl.acm.org/citation.cfm?doid=3077136.3080841

摘要:Web 搜索評估指標的設計與用戶的交互過程如何建模相關度很高。每個行為模型都會導致搜索評估表現的不同。在這些模型中和用戶行為假設背後,用戶結束搜索會話是首要關注點之一,因為它與收益和成本估算相關。目前的指標設計通常使用簡單的方法來選擇停止時間點:1)收益的上限(如 RR、AP);2)成本的上限(如 Precision@N、DCG@N)。然而,在很多實際搜索會話(如探索性搜索)中,停止標準會比這些簡單形式複雜得多。我們發現停止條件隨搜索任務而變化,通常受到收益與成本因素的雙重影響。受流行遊戲《寶石迷陣》的啟發,我們提出了寶石迷陣玩家模型(Bejeweled Player Model,BPM)來模擬用戶的搜索交互過程並評估其搜索性能。

在 BPM 中,當用戶找到充足的有用信息或者沒有耐心繼續時則停止。考慮到這一假設,我們為收益和成本提出了一種基於上限的新評估框架。我們展示瞭如何從框架中推導出一個新指標,並證明它可被用於修改傳統的指標,比如貼現累計收益(DCG)、預期互惠排序(ERR)和平均精度(AP)。為了展示該框架的有效性,我們從用戶滿意度與基於數據集(該數據集蒐集用戶明顯滿意的反饋和評審員的關聯判斷)的指標之間的關聯性方面將其與現有的大量框架進行了對比。結果表明該框架與用戶滿意度反饋的關聯性更好。

SIGIR 2017 最佳短論文獎

論文:LiveMaps – Converting Map Images into Interactive Maps


地址: http://dl.acm.org/citation.cfm?doid=3077136.3080673

摘要:圖像搜索在網頁搜索引擎中是十分流行的應用。在圖像搜索引擎中提交位置相關的請求時經常返回結果最好的幾張地圖。一般情況下,點擊這樣的圖片會在新的瀏覽頁中打開它或將用戶導向包含這張圖像的網頁。然而,在交互網頁地圖上尋找這樣的內容區域是一個手動過程。在本論文中,我們描述了一種新型系統——LiveMaps,它在給定地圖下能夠分析和檢索合適的地圖視口(map viewport),並且允許用戶直接打開鏈接到興趣焦點的交互式地圖中。

LiveMaps 的處理過程分為幾個階段。它首先檢查輸入的圖像是不是代表一張地圖。如果是的話,那麼系統將嘗試識別該地圖所代表的地理區域。在這一過程中,我們使用從圖像抽取的文本和視覺信息。最後,我們構建了一個交互式地圖對象(interactive map object),它能獲取從圖像推斷出的地理區域。在高級別的定位圖像數據集上的評估結果表明我們的系統能構建出非常精確的地圖表徵,它同樣能實現非常好的覆蓋範圍。

Honourable Mention

論文:DBpedia-Entity v2: A Test Collection for Entity Search

作者:Faegheh Hasibi、Fedor Nikolaev、Chenyan Xiong、Krisztian Balog、Svein Erik Bratsberg、Alexander Kotov、Jamie Callan

地址: http://dl.acm.org/citation.cfm?doid=3077136.3080751

SIGIR 2017 Test of Time Award

論文:Personalizing search via automated analysis of interests and activities


地址:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/sigir05.pdf

摘要:我們構想和研究了一種搜索算法,這種算法考慮了用戶之前與內容之間的大量互動,以個性化用戶當前的網頁搜索。我們沒有依賴不切實際的假設(人們在搜索時能夠準確地確定目標),而是探究利用包含用戶興趣這一隱含信息的技術。這些信息可用於在相關反饋框架(relevance feedback framework)內對網頁搜索結果進行重新排序。我們利用與搜索相關的信息(如之前的查詢和訪問過的網頁)和用戶的其他相關信息(如用戶閱讀和創建的文檔和郵件)構建大量符合用戶興趣的模型。我們的研究顯示用戶的大量表徵和語料對個性化尤為重要,而逼近這些表徵、為個性化搜索提供高效的客戶端算法也是可能的。我們證明這種個性化算法可以大幅改善當前的網頁搜索。

Honorable Mentions

論文:A Markov random field model for term dependencies

作者:Donald Metzler、W. Bruce Croft(SIGIR 2005)

地址: http://dl.acm.org/citation.cfm?doid=1076034.1076115

論文:Information retrieval system evaluation: effort, sensitivity, and reliability

作者:Mark Sanderson、Justin Zobel(SIGIR 2005)

地址: http://dl.acm.org/citation.cfm?doid=1076034.1076064

文章來源:機器之心