如何玩轉網絡安全下的深度學習？最全的學習資料清單看這裏

2017-01-03 19:05:00.0

近日，外媒 KDnuggets 刊登了一篇機器學習與網絡安全相關的資料大彙總，文中列出了相關數據源的獲取途徑，優秀的論文和書籍，以及豐富的教程。大部分都是作者在日常工作和學習中親自使用並認爲值得安利的純乾貨，雷鋒網(公衆號：雷鋒網)現編譯總結如下。

數據源

SecRepo.com 網站，該網站匯聚了大量的與機器學習和網絡安全相關的數據源，並提供免費下載。據網站首頁介紹，所有可用的數據源包含兩個部分：一是網站方面自己整理的，二是來自第三方的。其內容包括互聯網掃描數據，惡意軟件源碼，以及和網絡安全相關的系統日誌等。

論文

1. Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks

本文來自卡內基梅隆大學，分析了通用符號密碼的脆弱性，以及目前常見的密碼健壯性檢驗的各種缺點，甚至給出了他們在實驗室利用神經網絡算法攻破各種符號密碼的具體步驟，非常強大。

2. Outside the Closed World: On Using Machine Learning for Network Intrusion Detection

本文來自加州伯克利大學，分析了利用機器學習探測網絡安全的優勢和劣勢，並給出了一些改善這些劣勢的解決方案。

3. Anomalous Payload-Based Network Intrusion Detection

通常一個互聯網上的惡意請求都會在真正的惡意代碼外部包裝一層善意的外衣，這大大阻礙了相關探測程序的正常工作。來自哥倫比亞大學的Ke Wang和Salvatore J. Stolfo兩位學者在本文中給出了一種全新的探測惡意代碼中有效代碼段的方法，並在實測中達到了接近100%正確率和0.1%的誤報率。

4. Malicious PDF detection using metadata and structural features

當前，隨着防範措施的升級，惡意代碼隱藏在PDF和Word等文本文件中的例子屢見不鮮，用戶防不勝防。在本文中，來自喬治梅森大學的學者介紹了一種通過機器學習技術探測惡意文本文件的技術，特別是內含惡意代碼的PDF文件。

5. Adversarial support vector machine learning

來自德州大學，介紹了兩種利用機器學習技術探測網絡惡意攻擊的分析模型，即無邊界攻擊模型（free-range attack model）和限制邊界攻擊模型（restrained attack model）。

6. Exploiting machine learning to subvert your spam filter

垃圾郵件過濾系統不算什麼高新技術，但如何提升過濾的準確性一直是一個難題。本文中來自加州伯克利大學的學者們介紹了一種基於機器學習開發的垃圾郵件過濾器，爲垃圾郵件的過濾提供了一種全新的實現思路。

以下論文來自 covert.io 網站，該網站的論文（或博客）數量龐大，但並不像上文提到的那些論文一樣全部來自美國高校，covert.io 的文章也來自各大科技公司和研究所。

7. CAMP: Content-Agnostic Malware Protection

來自谷歌，介紹了一種名爲CAMP的惡意軟件保護系統，該系統能夠通過對二進制可執行文件的探測，確保互聯網的軟件應用安全。

8. Building a Dynamic Reputation System for DNS

DNS服務器一直是互聯網中非常重要的組成部分，針對目前越來越流行的DNS攻擊，來自喬治亞理工學院的學者介紹了一種名爲Notos的動態的域名信譽系統，可以有效防範各種針對DNS服務器的匿名的網絡黑客攻擊。

9. Detecting malware domains at the upper dns hierarchy

本文介紹了一種名爲Kopis的新型域名檢測系統，可以有效探測互聯網上包含惡意攻擊代碼的域名，由網絡安全公司Damballa、喬治亞理工學院和喬治亞大學聯合研發。

10. From Throw-away Traffic To Bots – Detecting The Rise Of DGA-based Malware

本文同樣來自Damballa公司和喬治亞大學，介紹了一種針對僵屍網絡的新技術，該技術夠探測來自動態域名系統的惡意攻擊，整合了聚合和分類兩類算法。

11. EXPOSURE: Finding Malicious Domains Using Passive DNS Analysis

DNS服務器成爲了越來越多黑客的攻擊對象，本文介紹了一種名爲EXPOSURE的域名分析系統，可以針對大批量的域名惡意訪問進行探測，由Eurecom研究所、波士頓東北大學和加州大學共同研發。

12. Polonium: Tera-Scale Graph Mining for Malware Detection

本文來自網絡安全公司Symantec、卡內基梅隆大學，介紹了一個名爲Polonium的高效的可擴展的惡意軟件探測系統。

13. Nazca: Detecting Malware Distribution in Large-Scale Networks

大量用戶在現實生活中下載並安裝惡意軟件的行爲通常包含一定的規律性。來自加州大學聖巴巴拉分校、Narus公司的學者們將這些無人問津的數據利用起來，提出了一個名爲Nazca的網絡安全探測系統。

14. Anagram: A Content Anomaly Detector Resistant to Mimicry Attack

來自哥倫比亞大學，介紹了一個名爲Anagram的異常數據報文探測器。

書籍

講述數據科學和機器學習在網絡安全領域的應用的書籍並不多，作者只介紹了以下兩本。

1. Data Mining and Machine Learning in Cybersecurity

作者是來自路易斯安那理工大學的Sumeet Dua博士和Xian Du博士，探討了目前普遍存在的網絡安全問題以及最先進的機器學習和數據挖掘解決方案。

2. Machine Learning and Data Mining for Computer Security

編者是來自喬治城大學的Marcus A. Maloof，該書系統介紹了數據挖掘和機器學習技術在計算機安全領域的最新研究成果。

雷鋒網注：目前兩本書都沒有中文版，紙質版在亞馬遜上的售價都超過1000人民幣，第一本有Kindle電子版。

演講

原文作者收集了如下一些關於機器學習和網絡安全的演講，演講者們要麼是來自相關領域的公司副總、技術負責人，要麼是各大高校的研究人員、博士或者教授。（雷鋒網注：國內訪問需要科學上網。）

1. Using Machine Learning to Support Information Security

視頻系統介紹了機器學習在信息安全領域的應用，時長約1小時。

2. Defending Networks with Incomplete Information

要在限定的時間內（通常是24小時）對惡意攻擊做出反應通常需要耗費巨大的人力和物力，但是如果利用機器學習的方法，首先對網絡攻擊進行優先級和攻擊方式分類，甚至處理一些簡單的套路式的攻擊，則可以大大降低網絡安全工程師的工作強度。本視頻就介紹了這一思路的具體應用，時長約47分鐘。

3. Applying Machine Learning to Network Security Monitoring

這個視頻介紹瞭如何將機器學習應用於網絡安全探測，時長約1小時。

4. Measuring the IQ of your Threat Intelligence Feed

目前互聯網上存在着各種各樣的網絡安全的探測系統，但是用戶對它們褒貶不一，究竟如何判斷一個探測系統的可靠性，視頻介紹了一種實用的判斷方法，時長約40分鐘。

5. Data-Driven Threat Intelligence: Metrics On Indicator Dissemination And Sharing

視頻介紹了數據驅動下的安全情報分析，特別是和社交網絡分享和傳播相關的，時長約48分鐘。

6. Applied Machine Learning for Data Exfil and Other Fun Topics

爲了幫助網絡安全相關的研究者、分析師和極客愛好者瞭解機器學習，以及如何將機器學習應用在網絡安全中領域中，例如數據泄露，本視頻做了詳細介紹，時長約43分鐘。

7. Secure Because Math: A Deep-Dive on ML-Based Monitoring

視頻介紹了以機器學習技術爲基礎的互聯網監控，時長約46分鐘。

8. Machine Duping 101: Pwning Deep Learning Systems

44分鐘教你攻克一個深度學習系統，必看系列。

9. Weaponizing Data Science for Social Engineering

視頻介紹了社交網絡中的惡意攻擊行爲和數據科學對此可能發揮的作用，時長約44分鐘。

10. Defeating Machine Learning What Your Security Vendor Is Not Telling You

還是關於攻破機器學習的話題，視頻介紹瞭如何攻破以機器學習爲基礎的互聯網安全產品，時長約50分鐘。

11. CrowdSource: Crowd Trained Machine Learning Model for Malware Capability Det

視頻介紹瞭如何利用機器學習模型來探測互聯網安全，時長約28分鐘。

12. Defeating Machine Learning: Systemic Deficiencies for Detecting Malware

系統的「缺陷」也能用來探測惡意軟件？這個視頻用45分鐘爲你詳細講解利用機器學習和系統「缺陷」來探測惡意軟件的方法。

13. Packet Capture Village – Theodora Titonis – How Machine Learning Finds Malware

視頻介紹瞭如何利用機器學習探測移動端惡意軟件，時長約44分鐘。

14. Build an Antivirus in 5 Min – Fresh Machine Learning

視頻用5分鐘介紹瞭如何用互聯網上開源的機器學習框架編寫一個全新的防病毒程序。

15. Hunting for Malware with Machine Learning

視頻介紹了針對企業用戶的自動化惡意軟件探測系統，時長約48分鐘。

項目和教程

1. Click Security Data Hacking Project

該項目包含了一系列與IPython、Pandas、Scikit Learn相關的練習，包含筆記和原代碼，每個練習都會故意設置一些常見的代碼錯誤、數據庫錯誤和邏輯錯誤供使用者改正。該系列教程幾乎是機器學習在信息安全領域應用的必學教程。

2. Using Neural Networks to generate human readable passwords

鏈接中是一位大神自己編寫的一個基於Keras框架和python語言的密碼生成器，利用了深度神經網絡原理，在保證密碼安全性的同時也保證了易讀性。該項目的代碼已經在Github上開源，可以結合上文提到的論文《Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks》一起學習。

原代碼：鏈接

3. Machine Learning based Password Strength Classification

該項目關於用機器學習算法判斷一個已知密碼的健壯性，代碼已經在Github上開源。

源代碼：鏈接

4. Using Machine Learning to Detect Malicious URLs

該項目關於如何利用機器學習探測惡意的互聯網鏈接地址，據稱可以達到98%的正確率。

源代碼：鏈接

5. Big Data and Data Science for Security and Fraud Detection

這是一篇綜述文章，文中介紹了多個國家/地區/大公司正在使用或研發的大數據分析工具和技術，這些技術結合了文本挖掘、機器學習或者網絡分析，能夠在早期階段對網絡安全威脅進行檢測和預防。

6. Using deep learning to break a Captcha system

這是一篇博客文章，介紹瞭如何利用深度學習技術破解煩人的驗證碼系統，作者在文中給出了部分關鍵功能模塊的源代碼，並且在文末還給出了許多參考鏈接。

7. Data Mining for Cyber Security

這是斯坦福大學開設的一個系列公開課，關於數據挖掘在互聯網安全中的應用。在鏈接中可以直接看到課程安排，下載到講師演講的文本記錄、PPT，查看課後作業的題目和此前同學上傳的答案，以及課後的深入閱讀列表。這一課程可能是數據科學目前在網絡安全領域已經公開的最好的課程之一。

其他

1. System predicts 85 percent of cyber-attacks using input from human experts

這是一篇研究成果介紹的文章，介紹了來自MIT計算機科學與人工智能實驗室（CSAIL）和一家機器學習初創公司PatternEx的最新研究成果：一個名爲AI2的人工智能平臺，能夠根據人類網絡安全專家輸入的數據，對當前網絡可能遭到的安全威脅做出預測，正確率高達85%，超越了目前已知的其他同類預測系統。文中通過文字和視頻的方式講解了這一預測系統的基本工作原理。

2. MLSec

這是一個開源項目相關的網站，該網站聚合了一系列將機器學習技術應用於網絡安全領域的開源項目，同時還開設了博客文章和社區討論頻道，幫助開發者對這些項目深入理解。

3. An Introduction to Machine Learning for Cybersecurity and Threat Hunting

這是一篇深度文章，通過與幾位數據科學大牛訪談的形式，詳細介紹了機器學習和網絡安全的關係以及相關應用。

以上只是這位外國大牛的總結，如果你手裏也有一些值得安利的乾貨和資源，不妨在文末留言分享出來吧！

附原文作者簡介：Faizan Ahmad，Fulbright 計劃大學生，目前在巴基斯坦國立計算機與新興科學大學（National University of Computer and Emerging Sciences）學習，同時在巴基斯坦的拉合爾管理科學大學（Lahore University of Management Sciences）擔任研究助理，主攻計算機和網絡安全研究方向。

來源：kdnuggets

【兼職召集令！】

如果你對未來充滿憧憬，喜歡探索改變世界的科技進展，look no further！

我們需要這樣的你：

精通英語，對技術與產品感興趣，關注人工智能學術動態的蘿莉&萌妹子&技術宅；

文字不求妙筆生花，但希望通俗易懂；

在這裏，你會收穫：

一羣來自天南地北、志同道合的小夥伴；

前沿學術科技動態，每天爲自己充充電；

更高的生活品質，翻翻文章就能掙到零花錢；

有意向的小夥伴們把個人介紹/簡歷發至 guoyixin@leiphone.com，如有作品，歡迎一併附上。

文章來源：雷鋒網

喜歡這篇文章嗎？快分享吧！