北郵石川教授:「異質信息網絡」研究現狀及未來發展

 2018-01-31 10:10:00.0

雷鋒網 AI 科技評論按:自韓家煒和 Philip S Yu 等人在 2009 年提出「異質信息網絡」的概念以來,異質信息網絡的研究受到越來越多國內外學者的關注和研究。那麼什麼是異質信息網絡?對異質信息網絡的研究現狀和未來發展方向是什麼?

爲了收集這方面的信息,雷鋒網 AI 科技評論注意到北京郵電大學的石川教授及他的學生專門收集和整理了近十年來國內外在異質信息網絡方面的經典研究文獻和相關數據集的資料。這些資料對無論是剛接觸數據挖掘的學生還是研究多年的老師,應該都有極大的幫助。

而另一方面,石川教授作爲國內數據挖掘(尤其是異質信息網絡)領域的青年學者,常年與 Philip S Yu 等人進行合作研究,做出了許多關於異質信息網絡的重要研究工作。

藉此之故,雷鋒網 AI 科技評論有幸邀請到石川教授向我們詳細介紹了異質信息網絡基本的概念、現狀以及未來發展的方向,同時石川教授還介紹了他們收集的資源和北京郵電大學 數據挖掘與機器學習課題組的基本情況。

本文爲雷鋒網 AI 科技評論向石川教授的約稿,相關內容已經發表在《中國計算機學會通訊》2017年第11期,雷鋒網(公衆號:雷鋒網) AI 科技評論獲其授權發表。

石川北京郵電大學計算機學院教授、博士研究生導師、智能通信軟件與多媒體北京市重點實驗室副主任。主要研究方向: 數據挖掘、機器學習、人工智能和大數據分析。近五年來,發表高水平學術論文 40 餘篇,包括數據挖掘領域的頂級期刊和會議 IEEE TKDE、ACM TIST、KAIS、DKE、KDD、SDM、EDBT、ECML、CIKM 等。在 Springer 發表異質信息網絡方向第一部英文專著。申請國家發明專利十餘項,國際專利 1 項,已授權 2 項。獲得 ADMA2011 國際會議最佳論文獎、CCF-騰訊犀牛鳥基金及項目優秀獎,並指導學生獲得頂尖國際數據挖掘競賽 IJCAI Contest 2015 全球冠軍。獲得北京市高等學校青年英才計劃支持。

異質信息網絡研究現狀及未來發展

一、引言

現實生活中的大多數實際系統是由大量相互作用、類型不同的組件構成,當前的分析方法通常將其建模爲同質信息網絡(Homogeneous information network)。採用同質網絡的建模方法往往只抽取了實際交互系統的部分信息,或者沒有區分交互系統中對象及關係的差異性,這些做法都會造成信息不完整或信息損失。

最近,越來越多的研究人員開始將這些互連的多類型網絡化數據建模爲異質信息網絡 [1](Heterogeneous information network),並且通過利用網絡中豐富的對象和關係信息來設計結構分析方法。與廣泛研究的同質信息網絡相比,異質信息網絡包含全面的結構信息和豐富的語義信息,這也爲數據挖掘提供了新的機遇與挑戰。

這裏我們簡單介紹這種建模方式的基本概念、分析方法和未來發展。

[1]   這裏我們將 Homogeneous / Heterogeneous information network 翻譯成爲同質/異質信息網絡。雖然有些學者將其翻譯爲同構/異構信息網絡,但是這種翻譯容易和通信網絡中的同構/異構網絡的概念混淆。另外,同質/異質更能反映網絡中節點和邊的類型和性質不一樣這種特性。

二、基本概念

我們先介紹一下異質信息網絡中的基本概念。

2.1 概念

異質信息網絡被定義爲一個有向圖,它包含多種類型的對象或者關係,每個對象屬於一個特定的對象類型,每條關係屬於一個特定的關係類型。網絡模式(Network schema)是定義在對象類型和關係類型上的一個有向圖,是信息網絡的元描述。

北郵石川教授:「異質信息網絡」研究現狀及未來發展

圖1 由文獻數據構建的異質信息網絡

圖 1(a) 是一個由科技文獻數據構成的典型異質信息網絡實例。該網絡包含三種類型的對象:論文、會議和作者;每篇論文有到作者和會議的鏈路關係,每條鏈路屬於一種關係類型。

圖 1(b) 是該網絡的網絡模式,描述了文獻網絡包含的對象類型(會議、論文、作者)和相應的關係(撰寫/被撰寫、出版/被出版、引用/被引用)。

異質信息網絡分析中一個重要的概念是元路徑(meta-path)。元路徑是定義在網絡模式上的鏈接兩類對象的一條路徑,形式化定義爲

北郵石川教授:「異質信息網絡」研究現狀及未來發展

,表示對象類型之間的一種複合關係 R=R1*R2*......*Rl,其中 * 代表關係之間的複合算子,Ai 表示對象類型,Ri 表示關係類型。

北郵石川教授:「異質信息網絡」研究現狀及未來發展

圖2 由文獻數據構建的異質信息網絡

元路徑不僅刻畫了對象之間的語義關係,而且能夠抽取對象之間的特徵信息。圖 2 顯示了文獻網絡中兩個元路徑的例子,分別簡記爲「APA」和「APVPA」(A、P、V 分別表示作者、論文和會議類型)。可以看出,基於不同的元路徑,對象之間的語義關係是不同的。元路徑「作者-論文-作者」(APA)表示兩個作者合作撰寫了同一篇論文;元路徑「作者-論文-會議-論文-作者」(APVPA)表示兩個作者在同一會議上發表了論文。鏈接兩類對象的不同元路徑表示了不同的語義關係和不同的鏈接網絡,這也造成了不同的分析結果和不同的特徵表示。

實際上,大多數真實系統都存在多種類型對象的相互交互。例如,社交媒體網站(如微信和微博)包含多種類型的對象(如用戶、帖子和標籤)和這些對象之間的複雜交互(如用戶之間的朋友、跟帖、通信等關係,用戶和帖子之間的發佈關係)。醫療系統包含醫生、病人、疾病和設備等對象類型以及他們之間的交互。一般來說,這些交互系統都可以被建模爲異質信息網絡。

傳統的同質網絡建模方法只是抽取了這些真實交互系統的部分信息,而且這些信息往往也可以從異質信息網絡中推導出來。例如,經常分析的作者合作網絡可以通過元路徑「APA」從上述科技文獻網絡中得到。

2.2 爲什麼要進行異質信息網絡分析

作爲數據挖掘的重要研究方向,在過去的近20年裏,網絡分析方法已經被深入研究,並且應用於很多數據挖掘任務,在這些工作中往往將網絡化數據建模成同質信息網絡。然而,異質信息網絡的一些獨特特徵使得異質信息網絡分析變得十分重要。

首先,異質信息網絡分析是數據挖掘的新發展。近年來,大量涌現的社會媒體網站包含許多不同類型的對象和對象之間複雜的交互。將這些相互作用的對象建模爲同質網絡是很困難的,然而使用異質信息網絡爲其建模卻是很自然的方式。特別的,大數據的一個顯著特徵是數據的多樣性,作爲半結構化的表示方法,異質信息網絡可以有效建模和處理大數據中複雜多樣的數據。

其次,異質信息網絡是融合更多信息的有效工具。與同質網絡相比,異質網絡可以融合更多類型的對象及其之間複雜的交互關係,也可以融合多個社交網絡平臺的信息。

最後,異質信息網絡包含豐富的語義。在異質網絡中,不同類型的對象和鏈接共存,它們具有不同的語義含義,在數據挖掘任務中考慮語義信息將導致更細微的知識發現。同質網絡中的大多數方法並不能直接應用於異質網絡中,因此在異質信息網絡中發現有趣的模式是十分必要的。

三、研究現狀

3.1 研究現狀概述

異質信息網絡爲更好地分析網絡化數據提供了一種新的研究模式,同時也給許多數據挖掘任務帶來了新的挑戰。很多基於異質信息網絡的數據挖掘問題已經被廣泛研究,圖 3 是對過去 6 年這一方向相關研究工作的近 200 篇論文按照研究問題分類的分佈圖。從圖中可以看出,異質信息網絡已經廣泛應用於主要的數據挖掘問題,特別是相似性度量、聚類、分類、鏈接預測、推薦等任務。

北郵石川教授:「異質信息網絡」研究現狀及未來發展

圖3 異質信息網絡分析相關論文的分佈情況

異質信息網絡建模的優勢在於整合更多信息和包含豐富語義,這同時也造成了異質信息網絡分析的難點:如何有效利用異質信息和探索豐富語義。

作爲有效利用異質信息和探索語義的工具,元路徑被廣泛應用於異質網絡分析。例如,PathSim 利用對稱元路徑抽取兩個節點之間的連通路徑來度量二者的相似性,這樣不僅利用到了相關的異質信息,而且體現了節點和邊的豐富語義。很多機器學習技術都可以應用到異質網絡分析中,例如隨機遊走模型、主題模型、矩陣模型和概率模型。各類信息也都能夠整合到異質網絡分析中,例如屬性信息、文本信息和用戶指導信息。

圖 4 從網絡結構和語義探索兩個角度,總結了該領域的一些典型工作。沿着 X 軸,網絡結構變得更加複雜;沿着 Y 軸,語義信息變得更加豐富。

北郵石川教授:「異質信息網絡」研究現狀及未來發展

圖4 從網絡結構和語義探索兩個維度對異質網絡典型工作的總結

例如,PathSim 可以處理星型模式網絡,並使用元路徑挖掘語義關係。SemRec 在基本元路徑上增加了鏈接的權值約束,以在帶權異質網絡中探索更微妙的語義信息。從圖中我們可以發現,大多數研究都集中在簡單網絡結構(例如二分或星型模式網絡)和基本語義探索(例如元路徑)上,未來在利用更強大的語義探索工具分析更復雜的異質網絡方面還需要做更多探索。

四、未來發展

雖然異質信息網絡已經應用於很多數據挖掘任務,但它仍然是一個年輕而且快速發展的研究領域。在這裏我們簡單討論一下未來的研究方向。

4.1 更加複雜的網絡構建

當前研究大多假定異質信息網絡是明確定義的,網絡中的對象和關係是清晰的。然而,在實際應用中,從真實數據構造異質信息網絡會遇到很多挑戰。對於關係數據庫之類的結構化數據,構造異質信息網絡比較容易,然而即使是在這種網絡中,對象和關係也可能具有噪聲,比如會出現對象重名或關係不完整等問題;對於像文本、圖像等非結構化數據,如何準確抽取出相應的對象和關係,進而建立更加完善和準確的異質信息網絡也將面臨更多挑戰,在實踐中會用到諸如信息抽取、自然語言處理、圖像處理等各種技術。

4.2 更加強大的分析方法

在異質信息網絡中,對象可通過不同的方式組織在一起。星型模式是廣泛使用的異質信息網絡類型,例如前面介紹的科技文獻網絡。之後,又出現了帶環的星型模式和多中心網絡等網絡模式。

實際應用中,網絡化數據通常更加複雜和沒有規律性。某些實際網絡中的鏈路會包含屬性值,而這些屬性值可能包含重要的信息,這樣就構成了帶權異質信息網絡,例如前面介紹的電影網絡。另外一些應用中,用戶可能存在於多個異質網絡,這時需要對齊不同網絡中的用戶,有效融合不同網絡的信息。還有很多網絡數據,例如知識圖譜,包含有很多種類型的對象和關係,很難用簡單的網絡模式來描述。這種豐富模式(schema-rich)的異質網絡中也出現了很多新的研究問題,例如多種類型對象關係的管理以及元路徑的自動產生等。這些複雜的網絡化數據,給異質信息網絡建模與分析提出了更多的機遇和挑戰。

異質信息網絡中的對象和關係包含着豐富的語義信息,而元路徑可以捕捉這種語義信息。異質信息網絡上的很多數據挖掘任務是基於元路徑進行研究的,但是元路徑在某些應用場景中並不能捕捉到精細的語義信息。例如,「作者-論文-作者」路徑表示了作者之間的合作關係,但卻不能描述特定條件下(例如KDD領域)的合作關係。爲了克服這個不足,很多研究者提出了受限元路徑、帶權元路徑、元結構等概念擴展元路徑的語義抽取能力。針對更加複雜的網絡結構(如知識圖譜),如何設計更加靈活精細的語義探索工具仍然需要進一步的研究。

近些年出現的深度學習在圖像、自然語言等高維複雜數據處理上展現了優異的特徵抽取能力,因此可以利用深度學習方法處理異質網絡數據。當前深度學習和表示學習已經開始用於網絡的結構特徵表示。異質網絡中包含不同類型的節點和邊,而且元路徑體現了豐富的語義信息,這些特徵使得異質網絡的特徵表示學習表現出很大的不同。異質網絡的表示學習對異質網絡分析提出了新思路,也爲結構信息與其他模態信息融合提供了新途徑。

4.3 更大數據的處理

爲了展現異質網絡建模的優勢,我們需要在更廣泛的領域中對大型網絡化數據設計實用的數據挖掘算法。多樣性是大數據的重要特徵,異質網絡是處理大數據多樣性的有效方法。然而,構建一個真正的基於異質網絡的大數據分析系統也是具有挑戰性的工作。實際的異質網絡是巨大的,甚至是動態的,所以它通常不能存儲在內存中直接處理。由於用戶往往只對一小部分節點、鏈接或子網絡感興趣,我們可以根據用戶需求,從現有網絡中動態地提取子網絡進行分析。另外,設計基於異質網絡的快速算法和並行算法也是亟需研究的內容。

其他一些研究方向也值得關注。相比於學習大數據的深層特徵的深度學習方法,最近興起的廣度學習(broad learning)整合不同類型的多個數據源進行融合學習,並在一些應用中取得了顯著效果。由於異質信息網絡是大數據時代整合不同類型數據的天然工具,因此結合異質信息網絡研究廣度學習方法不僅會推動新的機器學習方法的發展,而且爲解決大數據的多樣性提供新的思路。針對具體問題的異質網絡分析系統也是重要發展方向。2017年KDD的最佳應用論文利用異質網絡和元路徑構建和描述Android手機的APP應用和API調用的豐富交互,並將其用於惡意軟件檢測。這也爲採用異質信息網絡解決實際問題帶來有益啓示。

五、結論

近年來,由於異質信息網絡包含全面的結構和豐富的語義信息,採用異質網絡建模和分析的研究大量涌現。本文對這個發展快速的領域進行了一個簡要的介紹,希望研究者更好地瞭解異質信息網絡分析的基本思路和特點,能夠採用這種模式對實際的網絡化數據進行建模和分析。


整理異質信息網絡中有關資源的初衷及資源的結構

石川個人主頁:http://shichuan.org/ShiChuan_ch.html

異質信息網絡資源:http://shichuan.org/HIN_topic.html

爲了方便對這一領域感興趣的讀者更好地瞭解異質信息網絡分析的整體研究情況,我們收集了從數據挖掘權威 Jiawei Han 和 Philip S. Yu 等人於 2009 年提出異質信息網絡的概念以來發表在重要的數據挖掘學術會議和期刊(諸如 KDD、ICDM、WWW、TKDE 等)上的有關異質信息網絡分析方面的論文,分別按照論文發表的時間順序以及論文研究的任務角度對其進行了排列展示。

同時,我們也收集整理了實驗室中常用的數據集以及其他相關異質信息網絡論文中常用的數據集。實驗室常用的數據集主要有科技文獻數據 (ACM 和 DBLP) 、電影數據 (IMDB 和 Douban) 、音樂數據社會媒體數據 (如豆瓣網和微博) 、以及知識圖譜數據(Yago)等等,我們都給出了相關數據集的鏈接,鏈接裏有相應的數據集說明及下載入口;其他相關異質信息網絡論文中常用的數據集,主要包括一些大型數據源諸如 Stanford Large Network Dataset Collection 等,以及常用的經典數據 Aminer 等,也都給出了相應的鏈接和說明。

課題組介紹

數據挖掘與機器學習課題組隸屬於北京郵電大學數據科學與服務中心。該中心是智能通信軟件與多媒體北京市重點實驗室的核心成員單位。課題組創建人是石川教授,智能通信軟件與多媒體北京市重點實驗室副主任。

課題組長期專注於數據挖掘和機器學習研究及其在行業數據分析中的應用,參與了 10 餘項數據挖掘領域的科研項目,其中主持國家自然科學基金項目 3 項、國家 863 項目子課題 1 項、北京市青年英才計劃項目 1 項,北京市自然科學基金 1 項;另外作爲研究骨幹,參與了國家 973 子課題、基金重點項目、重點研發計劃等項目。

在數據挖掘領域的一流國際會議和期刊上發表了 20 餘篇論文,包括 IEEE TKDE、ACM TIST、KDD、SDM 等;在數據挖掘領域頂級期刊 TKDE 上以第一作者發表異質信息網絡方向的第一篇綜述論文,並在 Springer 出版該方向的第一本英文專著。申請發明專利 10 餘項,授權 2 項;學生多次獲得數據挖掘競賽獎勵,例如獲得頂尖國際數據挖掘競賽 IJCAI Contest 2015 全球冠軍等等。

課題組和衆多國內外頂尖企業有合作關係。團隊成員與騰訊、大衆點評等企業有合作關係。一方面,能夠了解這些企業的真實需求,也容易從企業獲得真實數據;另一方面,能夠爲論文的研究成果轉化提供真實應用環境。另外,也經常和數據挖掘方面的國內外知名學者進行合作交流。

北郵石川教授:「異質信息網絡」研究現狀及未來發展

文章來源:雷鋒網