這裏有數百個 計算機視覺數據集。
數據對於模型訓練而言非常重要,但尋找合適自己項目的數據集卻並不簡單。計算機視覺社區經常出現新的數據集,但研究者很難追蹤新型數據集。
於是,哥倫比亞大學博士馮捷在 2017 年 8 月創建了一個專用於搜索計算機視覺數據集和代碼/模型的搜索引擎 VisualData。
VisualData 網站地址:https://www.visualdata.io/
該網站現已收集 281 個計算機視覺數據集,用戶可以在該網站上通過簡單的搜索找到適合自己項目的數據集。
用戶註冊網站後可以實時收到新數據集、代碼發佈的消息,還可以點擊「Add my dataset」貢獻自己的數據集。
此外,每個數據集都有多個標籤,如圖像分類、目標檢測、圖像搜索、3D 重建等,還標註了數據集的公開狀態、是否已有代碼,以及數據集的流行度。
VisualData 網站上數據集示例。
用戶可以點擊數據集,查看數據集詳情。點擊「View Dataset」跳轉鏈接,查看該數據集相關鏈接,比如 GitHub 項目等。
每個數據集的流行度得分就是根據用戶查看數據集詳情以及點擊數據集鏈接的頻率來計算的。
收集方法
VisualData 網站創建者馮捷 2017 年獲得哥倫比亞大學博士學位,現任亞馬遜應用科學家,研究興趣爲計算機視覺和機器學習。
他在 reddit 上表示,他首先寫腳本來監控大量數據源(如 arXiv、實驗室主頁、社交媒體等),然後手動評估這些自動收集到的數據集,再更新到 VisualData 網站上。
其他數據集資源網站
VisualData 是專門提供計算機視覺數據集信息的網站,當然還有其他一些數據集資源網站。比如:
Kaggle 數據集:https://www.kaggle.com/datasets(目前包括 16484 個數據集)
Papers With Code:https://paperswithcode.com/sota(目前包括 910 個數據集)
更多數據資源,參見:20 個安全可靠的免費數據源,各領域數據任你挑