電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

 2017-09-18 15:33:00.0

雷鋒網(公衆號:雷鋒網) AI科技評論按:近期在北京舉辦了第六屆社會媒體處理大會(SMP 2017)。在正會第一天,電子科大周濤教授做了一場關於大數據在經濟學、教育學、社會學中應用的特邀報告。周濤教授的精彩報告,時常引發會場的熱烈掌聲。

在報告最後,他給在場的學者們提出自己的建議,他認爲在當前大數據和人工智能發展如火如荼的時代,社會學、經濟學、教育學等傳統上只能定性分析的學科正在面臨着巨大的變化;而當時代發生鉅變時,青年學者們一定要站在能夠產生重大成果的地方,所以計算機研究人員一定要多多關注社會學科,在這些領域做出自己的貢獻。

此外,周濤教授在回答現場的關於網絡時代個人如何保護自己隱私的提問中,認爲個人不應當妄想去保護自己的隱私,因爲這是不可能的,也完全沒有意義;保護隱私的責任和義務在於企業和政府,而個人能做的最好方法不過是歸於平凡。所以最後整個報告以一句經典結束:因爲平凡,所以安全。

周濤,現爲電子科技大學教授,主要從事統計物理與複雜性方面的研究。在Physics Reports、PNAS、Nature Communications等國際SCI期刊發表200餘篇學術論文,引用17000餘次,H指數爲63。2009年獲教育部自然科學一等獎,2011年獲第十二屆中國青年科技獎,2013年獲四川省科技進步一等獎,2014年獲中國計算機學會自然科學二等獎,2014年起歷年入選Elesvier最具國際影響力中國科學家名單(物理天文類)。2015年當選第十二屆中華全國青聯常務委員,並擔任科學技術界別工作委員會副主任。2015年當選全國十大科技創新人物。2016年當選四川省首批傑出人才。2017年獲全國創新爭先獎。

下文爲雷鋒網根據現場記錄,在不改變原意的情況下整理而成。

正文

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

首先非常高興能夠在這裏和這麼多同事交流這個問題,也非常感謝學旗老師和華偉老師的邀請,謝謝專委會的組織。

剛纔劉老師已經提到了社會計算的發展,計算和社會經濟學等,我們探討的是同樣的問題。我們的方法是,用大數據、人工智能或統計分析的辦法通過海量數據去解決經濟學、社會學、教育學等問題。實際上大數據以及人工智能帶來了很大的變化,對科學最大的衝擊,不是來自於計算機學科本身,很大程度上是來自於它對社會學、管理學、心理學等等學科的影響,把這些原來只是半定量或者定性分析的學科變成了一個定量化的學科。

我今天主要是給大家講三個例子來說明這種影響。這三個例子也都是我們近期的工作,一個是經濟學的、一個教育學的,最後一個社會學的。

大數據與經濟學

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

第一個例子就是我們用大數據加上人工智能的辦法,去感知一個區域經濟發展的真實現象,然後嘗試給出這個區域經濟發展的建議。

以前我們分析經濟,用到了很多指標,像PPI、CPI、GDP等等。但是這些指數本身具有一些誤解,比如說它比較滯後,往往需要半年甚至一年才能知道以前發生了什麼;此外,中間還夾雜有大量虛假的東西,例如層層假報數據,讓報上去的數據比原有的好看等等。

那麼我們想要做什麼呢?我們想先了解一個區域,比如一個地級市,它真實發生的經濟情況是什麼樣子的?有沒有風險?以及如果說我們看到一個區域的發展,我們能不能給出一些建議?

我們處理的方法是,通過海量事實數據,通過精確的分析,去感知它宏觀的經濟社會是怎麼發展,然後來預測可能的風險。

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

舉個例子。我們對300個地級市進行經濟社會風險的監測。我們不再看它的GDP、PPI、CPI這些。我們收集了一些能夠第一時間反應一個城市變化的數據。首先,我們從公開的網站上爬到各個城市的航空、鐵路和公路人口流量(只有四十多個城市有公路人口流量,其他的只有航空和鐵路的人口流量),也就是有多少人坐飛機、火車經過這些城市。其次是在這些城市註冊的公司招聘的職位數目、職位類型和薪資水平。再次是所有這些城市的信息化和科技創新水平。最後是用遙感數據觀察這些城市正在進行的重大建設項目,看看地面有沒有人和車輛頻繁運動,地表有沒有發生變化,從而推斷這些項目是否正常進行。

我們能夠在第一時間獲得第一手這些數據。利用這些數據,我們來反向去看這些城市有沒有可能的重大風險。

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

我給大家舉一個特別容易理解的例子,就是像鄂爾多斯這樣的城市出現的問題。鄂爾多斯發生了什麼事情呢?我們知道,在2013年,由於稀土和煤炭價格的大幅度下降,使得原本超高速發展的鄂爾多斯(當時鄂爾多斯一個城市的經濟超過包頭、呼和浩特的總和)的經濟迅速下滑,很多建設的樓房都成了空樓,成了全世界最大的「鬼城」。

我們怎麼去看這樣一個問題呢?我們分析了兩個很簡單的量。第一個是信息化程度,數據就是這個城市有多少上網的IP(例如當年新浪微博、貼吧等)。另一個就是這個城市申請了多少市場佔有權(文章、專利等),依此來看它的科技創新能力。

這個圖中就很有意思。首先看A圖,橫座標是一個城市的用戶量,縱座標是它的GDP。09年以前,中國一共是295個地級市,我們有293個完整的記錄數據。從這張圖上,我們看到GDP和信息化大致是呈正相關的。通過線性迴歸,我們擬合出一條線,斜率大概爲0.93。水平地向上和向下移動這條線,超過這兩條迴歸線的,就是異常的城市,例如鄂爾多斯、崇左、來賓、中衛,它們的信息化水平不高,但是經濟水平遠高於對應信息化水平的量。這些城市在2013年就從這條線以上掉了下來。這些城市有一個共同的特點,它們都是高度資源依賴型,例如鄂爾多斯,就是稀土資源比較豐富。

我們知道,在經濟學裏面,往上發展10%和往下掉10%是完全不一樣的。當你高速發展時,很多金融機構都給你投資、貸款;但當你往下掉時,很多賬都變成了呆賬、壞賬,然後連鎖效應,帶來金融危機。國家相關機構原來給一個城市投資,包括低息貸款時,它主要看一個城市的經濟總量和它前五年的發展情況;但前面也看到了,鄂爾多斯這樣的城市13年之前,經濟總量和發展都很好,但其通過我們的分析就可以發現,事實上它的風險很大,所以給它借貸的時候就需要謹慎一些。

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

下面我們再來看一個關於巴西的例子。我們從網上爬到了8000多萬條數據,簡單來說就是,關於什麼樣的人會到什麼樣的行業去工作這樣一個數據。巴西分了580多個行業(中國只分82個行業),圖中每一個顏色都是一個產業分類,大概有20多個項,這些項細分爲500多個行業,600多個工種。我們建一個圖,每個節點都是一個600多維的vector,代表了勞工在這些工種中的分佈。然後我們計算每兩個vector之間的cos值,表示其相關程度。圖中每個node的大小表示了這個工種上人數的比重。

我們通過構建這樣的圖,來看哪些產業之間的關係較爲相近。(當然評價兩個產業相近有很多辦法,cos值只是其中一種)我們知道,如果兩個產業相近,那麼它們很有可能會有共同的經濟元素(人、資源、物流、倉儲等),在發展過程中可能會有協同作用。這個圖很明顯是一箇中心密集型結構。

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

在產業發展過程中,我們發現了一些特點,例如巴西,它有兩條learning trace。一條是inter-industry learning illustration,也即當和 A 產業相近的產業發展的都很好時,那麼 A 產業也很有可能發展得很好,所以這時候如果投資A產業就很容易成功。

另一個是inter-regional learning illustration。意思就是,如果我周圍的省A產業發展的比較好,而我的A產業發展一般般,那麼周圍省的A產業就會帶動我的A產業的發展。

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

這張圖就說明了上面的情況,橫座標是相近產業/地區的活動密度,縱座標是新產業/地區獲得成功發展的機率。圖中右邊的子圖是將兩張圖結合起來看。

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

這種情況不僅在巴西,中國也是這樣(中國只有82個產業分類,數據比較慘)。例如上海發展起來後,它周邊的杭州、蘇州、無錫等也都相繼發展起來了;深、廣發展起來後,連東莞的企業都大漲。(北京例外)。

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

這是從92年到16年北京/河北、上海/浙江的產業分佈圖。從圖中我們可以看出幾個城市產業的變化。

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

在鄰近學習方面,中國的數據沒有巴西那麼好,不過仍然能夠看出這樣的規律。如果周邊省份發展的比較好,那麼這一個省份也會發展比較好;隨着距離的減小,它們的工業相似性也逐漸增大。

上面的這些基於大數據和統計學的分析,我們就發現,不同的城市在不同的發展線條上,投資應當遵循一定的優化策略。這是我講的第一個例子,就是怎樣用海量的數據去感知區域發展的現狀,給區域經濟發展提供一個可定量化分析的策略。

大數據與教育學

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

教育學的例子就是,我們怎麼通過行爲數據來實現預測性管理。我們要做的一個問題就是去發現一個學生是否有重大問題。

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

對學業有較大影響的因素有很多,例如身體狀況、智商、DNA、人格、行爲等。我們主要關注人格和行爲,因爲它們是可以干預和調整的。以前我們對這些問題的研究只能是通過調查問卷的形式獲得幾十、幾百的樣本。現在由於技術進步,我們能夠獲得海量的數據,例如通過智能手機、mooc或者wifi等。

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

我們用的是學生校園卡使用情況的數據,我們根據這些數據能夠知道學生在學校裏打水、吃飯、洗澡(時間)、去圖書館、借書等等的情況。我們用了18960個匿名學生的大概3000萬個記錄數據。

我們先看兩個簡單的例子。

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

一個就是orderness,看你的生活是否有規律。我們用真實熵來衡量orderness。A圖是18960名學生洗澡(時間)的數據。我們看到orderness排名前5%的學生(深藍色),生活非常規律,基本上只在晚上9點洗澡;而後5%的學生(淺藍色),則除了0-6點(澡堂不開門)外一天當中任何時候都可能去洗澡。B圖中是吃飯情況,前5%(棕色)基本上都在三個飯點吃飯,而後5%(橘黃色)則基本上一天當中任何時候都可能去食堂刷卡,生活明顯沒有任何規律。

說明一下,這裏我們之所以用真實熵,而不是香農熵或者Simpson熵,是因爲我們不僅要看分佈的集中性,還要看分佈是否有順序(例如吃飯,最好是早、中、晚餐都有,而沒有間斷)。真實熵是可以看到序列的規律性。

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

這張圖也是根據18960名學生數據的分析。右邊這張很容易理解,學習的努力程度(用的是進出圖書館的數據來計算)和GPA是高度正相關的。一個有意思的發現是,生活的規律性也和GPA成正相關,也就是說生活越規律,學習成績就越好。

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

值得說明的是勤奮程度和生活的orderness是完全不相關的。所以前面的兩個正相關的規律是完全獨立的。

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

基於此,我們做了一個非常有意思的事情就是:異常分析。藍色的是成績下降,紅色的是成績上升。我們發現成績下降與行爲的關聯是非常強的,而成績上升則不一定。換句話說,逆襲不太容易,即使你做到了勤奮學習,成績也不一定能有顯著地提升。上升的我們管不了,但是我們可以通過你的異常行爲來預測下次考試你的成績是否會下滑。例如,你之前每月去30次圖書館,這個月就去了一次,那麼肯定有問題。我們有20多個類似的異常分析。當然我們拿到的數據是匿名的,但是每個輔導員都知道大約100個學生匿名數據和學號的對應。如果出現了重大異常,例如連續多天沒有刷卡記錄,計算機就會自動給你的輔導員發一個通知,我們稱之爲失聯預警。

這個事例就說明,將行爲數據(特別是orderness數據)和勤奮程度數據結合起來使用,能夠提高對學生學習成績的預測性。

大數據與社會學

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

最後一個例子是怎樣用big data做宗教網絡的組織模式的研究。由於時間原因,我就簡單地介紹一下。我們做的一件事就是用新浪微博的數據來做宗教網絡的分析,當然這裏面涉及到大量的文本分析,就不再具體說了。我們看一下這些宗教是怎麼組織的。

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

這是中國的宗教網絡關係,不同的顏色代表了不同的宗教。人數最多的竟然是基督教,大概佔一半左右;佛教佔40%左右,其他道教和伊斯蘭教大概佔10%左右。我們看到,宗教與宗教之間也是有聯繫的(相互是粉絲),但是在這張宗教網絡中有一個非常獨特的一點就是,網絡是非常highly, highly, highly,strong, strong, strong的內關聯的。strong到什麼程度呢?如果我們算Newman的Mixing Pattern強度,它是0.987。其他幾百種社交網絡的情況,包括民主黨和共和黨的關係、不同人種之間的關係,這些分離都比不上宗教。宗教對內非常凝聚,對外則很少連接,這些比民主黨/共和黨,比不同人種之間的分離還要嚴重。這是我們第一個比較大的發現,即宗教帶來的隔離和分離,事實上是高於人種、高於膚色、高於政治信仰、高於國家的。

電子科大周濤教授:當時代發生鉅變,一定要站在能夠產生重大成果的地方 | SMP 2017

第二個發現是,既然分離的這麼厲害,那麼跨越宗教的連接又是怎麼樣的呢?通過這張圖我們看到,跨越宗教的連接其實很少;而總體而言,佛教雖然沒有基督教人多,但是它在不同的宗教中起到了保持連通性的作用;通過文本分析,我們發現百分之七八十的保持連通的邊都有做慈善的標籤。這是一個非常重要的信息。

還有一個非常有意思的信息是,假設計算機是不知道連接之間是否是不同宗教,然後通過逐步去掉這些邊來研究它們的重要性。我們發現如果按照「度」的方式來去掉這些邊(事實上就是去掉宗教內部的連接),網絡是沒有相變的;而如果按照「bridgeness」的大小(bridgeness的大小表明了溝通不同區域之間的能力)逐漸去掉這些邊,那麼在不同的時候會出現兩次相變;當按照「betweenness」的大小(簡單說,這個指標衡量了一個節點作爲媒介的能力,也就是佔據在其他兩個節點最短路徑上最重要的節點,如果它拒絕溝通信息,那這兩個節點就無法溝通,佔據這樣的位置越多,它的中介性就越大)依次去掉這些邊,那麼整個網絡很快就崩潰了。同樣,如果按「cross link」的大小(連接不同區域的能力)來依次去掉邊,網絡立馬就崩潰。

這說明,保持整個融合性和聯通性,是靠着這些跨宗教的人來實現。至於具體的因素,還需要通過文本來分析這些跨宗教的連接到底是來源於什麼樣的共同興趣或屬性。

總結

以上我講了三個例子來說明大數據、人工智能的研究在經濟學、教育學、社會學中的應用。給大家一個建議就是:我有一個非常強烈的感覺,社會學、經濟學等已經在面臨鉅變;當這個時代在發生鉅變的時代,一定要站在很容易產生一些巨大成果的地方;所以我強烈建議,大家對社會學、經濟學要有抱負。


提問

問:個人如何保護自己的隱私而不被大公司、大政府甚至恐怖組織所利用?

周濤:這個問題很好。我的判斷是,個人是保護不了自己隱私的。所以個人就不要往這個方面試圖發力。要發力的是我們國家通過《網絡安全法》以及《刑法》第二、第三條的解釋,確保公司和企業去保護你的隱私。一種方式就是它不採集你的隱私;第二種是採集完之後立刻銷燬;第三種就是你授權它採集,它採集完之後只用在很侷限的地方,而不會影響你的個人隱私,不會給你帶來傷害。

所以我們應該做的是去通過法律來約束大企業去保護你的隱私,個人試圖、或者妄圖保護自己的隱私是完全不可能的,也沒有任何價值。例如,只要你出了這個門,在北京市裏,天眼都能知道你的軌跡。你還能不上街?你敲擊鍵盤的順序,原則上主機商都能拿到!所以自己保護隱私,這是不太可能的事。所以還不如期望好公司高擡貴手,不侵犯你的隱私。

另外就是,平凡的人會被保護得更好。比如iPhone被攻擊後,很多女明星的裸照就被上傳了,但同時很多其他被攻擊的人照片就沒有被上傳。這是因爲她們太平凡,連黑客都不去關注。

因爲平凡,所以安全。

雷鋒網注:SMP 2017已然結束,第七屆社會媒體處理大會(SMP 2018)將在哈爾濱市召開。

文章來源:雷鋒網