機器人真·漲姿勢了:比肩人類抓取能力,上海交大、非夕科技聯合提出全新方法AnyGrasp

 2021-06-13 16:01:45.0

基於視覺的機器人通用抓取,一直是學界和業界的關注重點,也是機器人智能領域亟待解決的問題之一。

針對物體抓取,業界通常需要先對物體進行三維建模,然後訓練網絡,在實際中先進行位姿檢測,再進行抓取:

此前對於簡單場景簡單物體的抓取,學術界也有研究涉獵。但是機器人日常面對的都是大量 堆疊的、複雜的、沒有見過的物體,同時場景呈現極度的雜亂性,還沒有相關研究可直接面對任意複雜場景進行抓取。

我們能否期待一個通用算法,能像人類一樣具備面向任意場景、任意物體的抓取能力? 

譬如,當杯子被敲碎,每個碎片都是未曾出現過的,機器人可以將這些從未見過、更未被建模的碎片一片片撿起來:

搭載AnyGrasp的機器人首秀

同時,它還要能適應更多的不確定性。比如一堆來自新疆戈壁灘的瑪瑙石,細小且局部複雜:

再比如在日常場景經常會遇到的會隨機形變的柔性袋裝零食或者布娃娃:

以及各種玩具、五金件、日常用品:

甚至人造的形狀複雜的 對抗樣本 [1]:

更極端的,如果光照情況不好,同時有探照燈的干擾,桌面還會變化,機器人能不能穩定地抓取?

在這些方面,尚且沒有研究能達到穩定的抓取效果,甚至沒有前期可論證的 DEMO。此前來自 UCB 的研究團隊發表於《Science Robotics》的成果 DexNet4.0 [2],也只侷限於低自由度的垂直抓取,同時需要搭配價值數萬元的工業級高精度深度相機,計算一次耗時數十秒。

近日,上海交大-非夕科技聯合實驗室在 ICRA 大會上展示了最新研究成果「AnyGrasp」,基於二指夾爪的通用物體抓取。這是 第一次機器人對於任意場景的任意物體,有了比肩人類抓取的能力,無需物體 CAD 模型與檢測的過程,對硬件構型、相機也沒有限制。

僅需要一臺 1500 元的 RealSense 深度相機,AnyGrasp 即可在數十毫秒的時間內,得到其觀測視野內整個場景的數千個抓取姿態,且均爲六自由度,以及一個額外的寬度預測。在五小時複雜 堆疊場景的抓取中,單臂 MPPH(Mean Pick Per Hour, 單位小時內平均抓取次數)可達到 850+,爲 DexNet4.0 的三倍多,這是該指標第一次在複雜場景抓取上接近人類水平(900-1200 MPPH)。

以下爲搭載 AnyGrasp 的最新成果展示,在六軸機械臂上:

在七軸機械臂上:

在ICRA2021的展區內,搭載AnyGrasp的機器人更是走出了實驗室,在現場直接對沒見過的物體進行抓取,同時與參會觀衆進行互動,由現場觀衆自由發揮,用隨身的物品、捏的橡皮泥對它進行考驗,機器人都能進行穩定的抓取。

研究團隊介紹,目前 AnyGrasp 有以下優勢:
  • 普適性:對未曾見過、複雜場景中的任意物體均可抓取,包括剛體、可變形物體、無紋理的物體等;

  • 高速度:數十毫秒內即可生成數千個穩定的抓取姿態;

  • 穩定性:對背景、光照、桌面角度等不敏感;

  • 低成本:無需高精度工業相機,千元價位的深度相機(如 Intel RealSense)即可勝任。

技術層面上,AnyGrasp 的實現是基於研究團隊提出的一個全新方法論,即真實 感知與幾何分析的孿生聯結。真實 感知與密集幾何標註原本是矛盾的兩方面,因爲真實 感知往往需要人工標註,而幾何分析需依賴仿真環境,此前未曾有團隊在這方面進行過嘗試。

在 CVPR 2020 會議上,上海交大團隊提出了 GraspNet-1Billion 數據集 [3],其中包含數萬張單目攝像頭採集的真實場景的 RGBD 圖像,每張圖片中包含由基於物理受力分析得到的數十萬個抓取點,數據集中總共包含超過十億有效抓取姿態。爲了達到真實 感知與幾何分析的孿生聯結目標,團隊設計了一個半自動化的數據收集與標註方法,使得大規模地生成包含真實視覺 感知與物理分析標籤的數據成爲可能。該數據集及相關代碼目前已經開源。

基於 GraspNet-1Billion 數據集,團隊開發了一套新的可抓取性(graspness)嵌入端到端三維 神經網絡結構,在單目點雲上直接預測整個場景可行的抓取姿態,根據採樣密度,抓取姿態可從數千到數萬不等,整個過程僅需數十毫秒。基於全場景的密集的抓取姿態,後續任務可根據目標及運動約束選擇合適的抓取位姿。

目前,AnyGrasp 還在持續開發與迭代中,後續研究團隊計劃構建抓取算法數據社區 ,並開放抓取任務在線測評。相關的學術數據集、SDK、學術算法庫將在 www.graspnet.net 上開放。


參考鏈接:
【1】EGAD! an Evolved Grasping Analysis Dataset for diversity and reproducibility in robotic manipulation,Douglas Morrison , Peter Corke , Jurgen Leitner,IEEE Robotics & Automation Letters, 2020
【2】Learning ambidextrous robot grasping policies, Jeffrey Mahler, Matthew Matl, Vishal Satish, Michael Danielczuk, Bill DeRose, Stephen McKinley, Ken Goldberg, Science Robotics, 2019
【3】GraspNet-1Billion: A Large-Scale Benchmark for General Object Grasping, Hao-Shu Fang; Chenxi Wang; Minghao Gou; Cewu Lu, CVPR, 2020

文章來源:機器之心