在數字信息化的今天,人工智能的發展日益成熟,而隨着司法大數據的採集和積累,AI(Artificial Intelligence)技術有望在短時間內處理大量文書、快速給出新案件的罪名、刑期及適用法條的推薦等任務中大顯身手。AI 技術不僅能提高法院等機構的辦事效率,還能讓公民根據案情快速瞭解可能面臨的處罰,真正做到國家司法的公正性和高效能性。
爲了實現法院審判體系和審判能力智能化,使得人工智能技術在「案例分析、法律文件閱讀與分析」等問題中更有力的發揮其作用,我們將公佈世界上最大的裁判文書標準數據集,並希望通過組織本次比賽活動,與相關研究人員一起探索數據的可能性,積累具有智能審判能力的算法和模型,做出技術突破,爲該領域的科學研究添磚加瓦。
或許你是一位胸懷抱負的科研人員,卻因繁縟又不具挑戰性的項目困在實驗室,無法全力施展自己的能力;或許你是一位 AI 領域的大牛,卻暫時沒能找到最適合自己的課題;或許你是一位剛剛入門的新手,正苦於不知如何提升自己;也或許你懷抱着一顆愛國之心,想爲祖國的法律事業攜去一縷清風。
爲此,我們在最高人民法院、中國中文信息學會、共青團中央青年發展部的共同指導下組織本次司法人工智能挑戰賽,我們將公佈百萬量級的文本文件,誠邀對司法人工智能感興趣的個人或團隊開展相關研究,取得豐碩成果。
指導單位
最高人民法院信息中心
中國中文信息學會
共青團中央青年發展部
主辦單位
中國司法大數據研究院
中國中文信息學會評測工委會
中國電科團委
承辦單位
清華大學 自然語言處理與社會人文計算實驗室
北京大學 計算機科學技術研究所
中國科學院軟件研究所 中文信息處理研究室
指導委員會
許建峯 最高人民法院信息中心主任
王 珩 中國司法大數據研究院總經理
孫茂松 清華大學教授
孫 樂 中國科學院軟件研究所研究員
評測委員會
劉知遠 清華大學
馮巖鬆 北京大學
韓先培 中國科學院軟件研究所
胡 振 中國司法大數據研究院
比賽設置
比賽採取業界常用的本地訓練、在線評測的賽制,具體說明如下:
第一階段:參賽隊伍利用公開的數據訓練模型,每週允許提交 3 次,平臺將測試模型性能,並根據測試成績排名;
第二階段:第一階段結束時,所有參賽者提交最終比賽模型(或以最後提交的模型爲準)。同時,主辦方將收集中國裁判文書網在隨後一個月內每天新增的裁判文書數據作爲新的測試集,對各參賽者的模型進行封閉評測,得到最終成績。
競賽詳情
競賽任務:
本次競賽的任務共有 3 個,分別是罪名預測,法律條款推薦,刑期預測。參賽選手可以選擇其中的一個或者多個任務進行挑戰。
罪名預測:提供文書中的案情描述和事實部分,預測被告人的罪名。
法律條款推薦:提供文書中的案情描述,預測本案涉及的相關法條。
刑期預測:對於刑事案件,根據案情描述和事實認定,預測被告人的刑期長短。
數據簡介:
本次挑戰賽所使用的數據集是來自「中國裁判文書網」公開的刑事法律文書,其中每份數據由法律文書中的案情描述和事實部分組成,同時也包括每個案件所涉及的法條、被告人被判的罪名和刑期長短等要素。
數據集共包括 268 萬份刑法法律文書,共涉及 183 條罪名,202 條法條,刑期長短包括 0-25 年、無期、死刑。
我們將先後發佈 CAIL2018-Small 和 CAIL2018-Large 兩組數據集。CAIL2018-Small 包括 19.6 萬份文書樣例,直接在該網站發佈,包括 15 萬訓練集,1.6 萬驗證集和 3 萬測試集。這部分數據可以自由下載,供參賽者前期訓練和測試。比賽開始 2-3 周後(具體時間請關注比賽新聞),我們將通過郵寄 U 盤(或網絡下載)向有資格的參賽隊伍定向發佈 CAIL2018-Large 數據集,包括 150 萬份文書樣例。最後,剩餘 90 萬份文書將作爲第一階段的測試數據 CAIL2018-Large-test。
參賽方式
參賽對象:
本次技術競賽面向全社會開放,相關領域的個人、科研機構、高等院校、企業單位等人員均可報名參加。
報名方式:
競賽網站將於 2018 年 4 月 15 日開放註冊報名,請及時關注比賽主頁(http://cail.cipsc.org.cn/)。
報名時間:
2018 年 5 月 1 日至 2018 年 7 月 14 日。
獎項設置:
參賽選手將根據排名情況分享九萬獎金。另外還將爲獲獎者提供由最高人民法院信息中心提供的榮譽證書認證。