全國社會媒體處理大會(SMP)由中國中文信息學會社會媒體處理專委會主辦,專注於以社會媒體處理爲主題的科學研究與工程開發,爲傳播社會媒體處理最新的學術研究與技術成果提供廣泛的交流平臺,旨在構建社會媒體處理領域的產學研生態圈,成爲中國乃至世界社會媒體處理的風向標,會議將以社交網絡的形式改變傳統的學術會議交流體驗。第七屆全國社會媒體處理大會(SMP 2018)將於8月2日至4日在哈爾濱召開。
本屆會議將並行舉辦三個技術評測競賽單元:
用戶畫像技術評測(The Evaluation of User Profiling Technology,SMP-EUPT)
中文人機對話技術評測(The Evaluation of Chinese Human-Computer Dialogue Technology,SMP-ECDT)
文本溯源技術評測(The Evaluation of Text Sourcing Technology,SMP-ETST)
背景簡介
用戶畫像技術評測(SMP-EUPT)
隨着機器創作能力越來越強,今後社會媒體上將會產生越來越多的機器創作者自動生產的內容。有效識別出哪些是人類作者生產的內容,哪些是機器作者生產的內容,對於媒體內容的審覈、分發、推薦等,具有十分重要的意義。
本屆用戶畫像技術評測聚焦於媒體內容創作者畫像問題,由北京字節跳動科技有限公司(今日頭條)提供豐富的媒體內容數據集,進行作者身份的自動識別。
中文人機對話技術評測(SMP-ECDT)
人機對話技術近年來受到了學術界和產業界的廣泛關注。學術上,人機對話是人機交互最自然的方式之一,其發展影響並推動着語音識別與合成、自然語言理解、對話管理以及自然語言生成等研究的進展;產業上,衆多產業界巨頭相繼推出了人機對話技術相關產品,如個人事務助理、虛擬情感陪護機器人、娛樂型聊天機器人等等,並將人機對話技術作爲其公司的重點研發方向。
本屆中文人機對話技術評測將聚焦於用戶意圖的識別和響應問題,以科大訊飛股份有限公司提供的數據集爲基礎,分別開展用戶意圖領域分類和特定領域任務型人機對話在線評測。
文本溯源技術評測(SMP-ETST)
文本溯源的目標是判斷一個文本的內容是否複製或改編於另外一個或者多個文件。文本溯源技術在學術誠信檢測、搜索引擎優化等領域有廣泛應用。
本屆文本溯源技術評測以科研立項或成果創新型審查爲應用背景,以著名的學術搜索系統 AMiner 提供的大量中文論文摘要數據爲基礎,進行句子溯源技術評測。
任務描述
評測單元 | 任務描述 |
用戶畫像 | 給定一個由若干媒體內容文檔構成的數據集,參賽隊伍採用適當的算法,對每篇文檔的作者進行身份識別,區分出該文檔屬於人類寫作、機器寫作、機器翻譯和機器自動摘要中的哪一類。 |
中文人機對話 | 任務 1:用戶意圖領域分類 在人機對話系統的應用過程中,用戶可能會有多種意圖,相應地會觸發人機對話系統中的多個領域(domain),包括任務型垂直領域(如查詢機票、酒店、公交車等)、知識型問答以及閒聊等。本任務的目標就是正確地將用戶的輸入分類到正取的領域(domain)中。 任務 2:特定域任務型人機對話在線評測 |
文本溯源 | 本次文本溯源技術評測的任務是句子級的檢測,即給定一批待查句子和一個源數據集,判斷待查句子是否改編自源數據集中的句子,如果是則找出相應的源句子。句子改編的範疇包括但不限於:微修改、增加、部分刪簡、對文字表述進行概括、改變原有的排列順序、關鍵詞替換等。 |
數據集說明
用戶畫像技術評測數據集由今日頭條提供,中文人機對話技術評測數據集由科大訊飛提供,文本溯源技術評測數據集由清華大學 AMiner 系統提供。所有數據集僅限於本次技術評測使用,未經許可不能用於任何其他目的和任何地方,不得彙編入其他數據集或數據庫。如需將某數據集用於其他課題研究及發表論文,需與評測主辦方聯繫取得許可後方可使用。
數據集的具體內容、範圍、規模及格式以最終發佈的真實數據集爲準。
訓練集用於模型的學習,驗證集用於在線實時評估算法效果,評測集用於最終的效果評測。其中驗證集和評測集的標籤信息不公開發布,用於組委會進行在線實時評測和最終評測。
重要日期
用戶畫像
4 月 15 日:發佈評測方案,開始報名
5 月 05 日:發佈訓練集
6 月 01 日:發佈驗證集,開始提交中間結果併發布周排行榜
6 月 30 日:停止提交驗證集中間結果
7 月 01 日:發佈評測集,提交最終評測結果(1 天之內完成)
8 月 04 日:技術評測論壇(揭曉獲獎名單+頒獎+技術報告)
中文人機對話
4 月 01 日:開始預報名
4 月 11 日:開始正式報名
5 月 01 日:發佈訓練及開發集
5 月 02 日:開始系統搭建及調整
7 月 13 日:提交任務 1 最終評測結果(1 天之內完成)
7 月 14 日:提交任務 2 最終評測結果(3 天之內完成)
8 月 04 日:技術評測論壇(揭曉獲獎名單+頒獎+技術報告)
文本溯源
5 月 03 日:發佈評測方案,開始報名
5 月 15 日:發佈訓練集
6 月 01 日:發佈驗證集,開始提交驗證集中間結果
6 月 30 日:停止提交驗證集中間結果
7 月 01 日:發佈評測集,提交最終評測結果(1 天之內完成)
8 月 04 日:技術評測論壇(揭曉獲獎名單+頒獎+技術報告)
獎勵
評測單元 |
獎勵 |
用戶畫像 |
A. 獎金 一等獎 1 名:10000 元 二等獎 2 名:每名 5000 元 三等獎 3 名:每名 3000 元 B. 獎勵 獲獎者可獲得直接面試今日頭條 AI Lab 的機會 每週排行榜的冠軍獲得者簡歷可直通今日頭條 HR |
中文人機對話 |
A. 任務 1 第 1 名:6000 元 第 2 名:4000 元 第 3 名:2000 元 B. 任務 2 第 1 名:10000 元 第 2 名:8000 元 第 3 名:6000 元 |
文本溯源 |
一等獎 1 名:20000 元 二等獎 2 名:每名 10000 元 三等獎 3 名:每名 4000 元 |
組織者
主辦單位:中國中文信息學會社會媒體處理專業委員會
評測指導:
劉 挺 哈爾濱工業大學
唐 傑 清華大學
李 航 北京字節跳動科技有限公司(今日頭條)
承辦單位:
用戶畫像:
北京交通大學網絡科學與智能系統研究所
北京字節跳動科技有限公司(今日頭條)
中文人機對話:
哈爾濱工業大學社會計算與信息檢索研究中心
科大訊飛股份有限公司(iFLYTEK)
文本溯源:
軍事科學院軍事科學信息研究中心
清華大學計算機系 AMiner 團隊
評測主席:
蔣盛益 廣東外語外貿大學
萬懷宇 北京交通大學(用戶畫像)
張偉男 哈爾濱工業大學(中文人機對話)
蔡 超 軍事科學院軍事科學信息研究中心(文本溯源)
評測委員:(按姓氏筆畫排序)
用戶畫像 | 李 磊 北京字節跳動科技有限公司 沙 灜 中國科學院信息工程研究所 周 浩 北京字節跳動科技有限公司 薛 雲 華南師範大學 |
中文人機對話 | 車萬翔 哈爾濱工業大學 陳志剛 科大訊飛股份有限公司 芮祥麟 華爲公司 |
文本溯源 | 鄧志鴻 北京大學 齊浩亮 黑龍江工程學院 宋 馳 清華大學 周玉秀 軍事科學院軍事科學信息研究中心 高 強 軍事科學院軍事科學信息研究中心 |
參賽入口:http://smp2018.cips-smp.org/smpcup.html
相關文章:
全國社會媒體處理大會即將召開,一文詳解四天議程精華 | SMP 2017
電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017
大數據時代社會科學在發生鉅變,六年來SMP如何基於興趣驅動促進學科發展? | SMP 2017
國內首屆中文人機對話技術評測賽果出爐,兩項任務冠軍團隊都分享了哪些技術細節?|SMP 2017
【重磅開幕】SMP2018之第二屆中文人機對話技術評測(ECDT)