獲高通阿里投資後,耐能推出首顆爲3D人臉識別定製的AI芯片

 2020-09-27 03:36:11.0

區別於大陸AI芯片公司,耐能的風格自成一體,既保留了傳統半導體人一貫的嚴謹保守,也敢於在架構創新上不拘一格。

撰文 | 四月

「在沒有確定市場之前我們不敢貿然流片,一定是大公司合作的形式」,耐能(Kneron)創始人兼CEO劉峻誠坦言。在他看來,一家AI芯片初創公司的經營之道在於「夾縫中求生存」——資源有限,每一分錢都要用得謹慎,不能做一顆不賺錢的芯片,做就一定要做能夠賺錢的芯片。

這是一家由前高通華人工程師組建的芯片團隊,成立於2015年,聚焦在終端 AI 芯片解決方案,主攻智能手機、智能安防、智能物聯網等領域。公司在2017年、2018年相繼完成兩輪融資,投資方包含阿里巴巴創業者基金、高通、李嘉誠旗下的維港投資等硬核機構。

成立三年,推出兩代六款IP,基於和高通、知名家電廠商的合作經驗,兩代IP的開發實戰,耐能終於底氣十足地踏出了關鍵一步,基於第二代IP標準版本推出首顆自家品牌的系統級AI芯片,同時也是市面上首顆專爲3D人臉識別進行優化的終端芯片。

5月16日機器之心消息,耐能發佈AI芯片KL520,專爲智能物聯網應用所設計,兼顧語音和圖像不同數據類型處理,支持2D、3D圖像識別,適用於結構光、ToF、雙目視覺等3D傳感技術並計算不同神經網絡模型,可應用於智能門鎖/門禁、掃地機器人等智能家居場景,無人機、智能玩具、機器人等智能硬件產品線。

值得一提的是,該顆芯片目前已經量產,並且已經與中國大陸和臺灣兩地的數家客戶達成合作。在深圳媒體溝通會現場,耐能宣佈了與大唐半導體、奧比中光、驀然認知等廠商的合作計劃。

1

獨立優勢決定市場覆蓋面

作爲一顆SoC級芯片,KL520採用常規的ARM核+自研IP架構,雙核ARM M4 CPU+KDP 520NPU,其中KDP 520NPU爲耐能自研IP,兩核的ARM M4用於系統控制和協處理。採用SDRAM 32MB/64MB 系統級封裝,LPDDR2內存技術,可接外部64MB閃存。

KL520 算力峯值爲0.345TOPS (300MHz) 。相比主流AI芯片的理論算力峯值 1-2TOPS,KL520 看起來並不佔優勢。不過由於核心利用率(MAC利用率)達到競品的2-3倍,使其實際效果達到與1TOPS的相近水平,同時保持極低的功耗和成本。

KL520 典型功耗爲0.5W,提供MIPI、DVP等視頻/音頻接口,外部USB2.0、SPI等接口。

值得注意的是,KL520選用了十分成熟的40nm製程工藝,通過更低製造成本創造有競爭力的價格優勢。劉峻誠表示,正是因爲芯片架構和設計足夠好,所以纔有這樣的底氣。

整體而言,KL520 強調輕量化、低功耗、低成本。相比此前AI芯片明星公司的華麗參數,KL520甚至顯得有些過於樸實。

但在運算架構和算法壓縮上,耐能的核心技術優勢卻讓人印象深刻。據CEO劉峻誠分析,KL520主要集成了耐能IP的三項「獨門祕籍」:

1)可重組式運算架構設計:透過重構式架構,讓神經網絡架構中主要的卷積運算與池化運算可平行進行,以提升整體運算效率。在新的卷積層運算中,可同時支持8bits與16bits的任意切換的定點運算,讓運算更有彈性。

所謂「可重組式架構」。一般情況下,不同的計算應用對應不同的神經網絡,比如圖像處理以CNN爲主,比如ResNet、GoogleNet、VggNet;語音處理則以RNN、LSTM爲主。但是耐能團隊通過對同一顆芯片進行架構重組,使其同時符合語音和圖像處理需求,也可以同時兼顧2D、3D圖像的AI處理要求。具體到落地場景和實用性層面,則意味着將豐富芯片的使用範圍,增強其通用性。

2)深度壓縮技術:支持模型轉移學習和壓縮,支持蒸餾、修剪和量化等壓縮技術。不僅能執行模型壓縮,還能對運行中的資料和參數進行壓縮,減少存儲使用。

模型大小可壓縮至50分之一以下,準確度的影響率小於1%,提供GUI NPU/CPU等工具鏈。

3)動態儲存資源配置:讓共享內存和運作內存之間可以進行更有效的資源配置,提升儲存資源利用率的同時卻不影響運算效能。

劉峻誠解釋,基於動態定點存儲技術,I/O在做每層計算時都會動態調整比特數,8bit現在已經成爲主流,但到一些具體的算法可能只需要4bit、6 bit就夠了,有些地方需要要10 bit,所以需要動態調整,提高其算力利用率。

此外,劉峻誠認爲,可拓展性和兼容性是耐能芯片平臺的最顯著優勢,平臺能夠兼容主流框架和第三方算法,包括主流深度學習框架API ONNX、TensorFlow、Keras、Caffe,支持更廣泛的CNN輕量化模型,包括 Vgg16、ResNet、GoogleNet、YOLO、Tiny YOLO、Lenet、MobileNet、DenseNet等,而且針對不同CNN模型分別進行優化,在不同神經網絡模型下,可達到70%~90%的運算效能。

「我們應該市面上目前資源最多的AI芯片公司之一。我們還做了一個編譯器,可以支持這些框架的開發」,劉峻誠說道。

爲了更好地完善軟件平臺,今年劉峻誠特意邀來原金蝶中間件有限公司首席架構師袁紅崗加入團隊,這位技術大牛曾在2004年被公推爲「影響中國軟件開發的20人」之一。

作爲耐能最爲核心的架構技術優勢,目前「可重組式架構」技術已經入選新竹國立清華大學等高校課程,劉峻誠個人也作爲臺灣成功大學的客座教授進行講解。劉峻誠表示,「我們的芯片在實驗室課上供學生編程搭建方案,兩三人一組很快就能上手,這增加了我們對其易用性的信心」。

不同於大多數AI芯片在強調芯片研發和快速迭代的能力,出身於傳統半導體行業的耐能更強調芯片的通用性,尤其在分散的物聯網市場。

「我們發現IoT、機器人、無人機,都是量小但雜的市場,所以我們的打法就是用一顆通用化的芯片來支持更多應用。同時強調軟件平臺開放包容,讓體量較小的開發者自己做開發以支持自己的量。」劉峻誠談道。「我們不可能做一顆芯片賣無人機,再做一顆芯片賣給機器人,那公司一定會垮掉。」

劉峻誠表示,團隊都是芯片領域的老將,打從一開始就深知AI芯片的能力和侷限性,當市場不是很清楚的時候,我們會先賣IP,有一定量才決定流片,再判斷什麼樣的製程合適。

「我們是高通出來,對半導體產業非常熟悉,不能做一顆不賺錢的芯片,至少我們公司不會這樣幹,我們做的這顆就是一定要賺錢,所以纔會打磨這麼久,纔會強調其通用性,可以做3D人臉支付、做語音的家電控制、可以做掃地機器人,做門禁打卡機。」

2

理論值不夠驚豔,但實際利用率靠譜

在算力能耗比方面,耐能二代KL520對比市面上較爲經典的架構,能夠提升3-4倍。

MAC利用率是劉峻誠引以爲豪的性能優勢之一,他表示,我們找到過市面上所有能買到的AI芯片進行對比,目前還沒有能達到25%以上的,「我們應該是世界最好的」。

所謂MAC,既乘積累加運算算子,目前大部分AI芯片的核心都是由MAC組成。理論上,MAC數越多,AI芯片算力會越大。但實際上還有MAC使用率的影響。如果MAC堆積很多,但如果使用率不高,也無用。一顆AI芯片的核心性能指標之一就是MAC的利用率。

爲什麼塞進去大量計算單元后可能利用率不高?

劉峻誠表示,MAC利用率跟I/O(進出速度)、存儲數有關,需要很強的芯片設計經驗。比如,一臺跑車馬力非常強,但輪胎不好,或者轉軸算得不好,協調性不夠,導致實際上跑起來速度並不快。可以說,MAC利用率更大層面考驗的是團隊對於芯片底層架構的設計能力。

正是基於此,劉峻誠透露,在談客戶時,因爲耐能的價格能做到大廠的1/4至1/5,並且性能更優,所以具備十分強勁的競爭力。

劉峻誠認爲,AI芯片不能只看算力。因爲算力的提升可以簡單通過MAC數的堆積、製程工藝的提升實現;但與之相對應的代價是芯片功耗和麪積的提升,成本的增加。

成功的終端AI芯片應具備足夠的算力、最有競爭力的成本、最高的兼容性、最低的功耗的基本條件。

3

落地開枝散葉

目前,耐能已經展開合作的客戶有高通、格力、搜狗、奧比中光等。此前,耐能的第二代IP,KDP系列已經落地國內知名家電品牌的空調產線中。在技術方案上,與Synopsys、鈺創科技、Himax(奇景光電)展開合作。

爲應對3D攝像頭模組貴、芯片成本高、硬件功耗高等3D傳感行業痛點,耐能通過和奇景光電、高通合作推出輕量級3D傳感方案,將傳統的3D傳感模組ToF/結構光/雙目+GPU/DSP芯片方案簡化爲,普通RGB攝像頭+普通NIR(近紅外光)+KL520,在芯片和模組兩個層面降低成本。

在智能門鎖市場,耐能與大唐半導體合作,將3D方案落地在輕量級AI芯片上,誤識率僅爲數十萬分之一。同時,對室內外的光線環境均能很好適應,有效的防止多種材質的相片、顯示屏甚至人臉模型的攻擊。

在產品線路圖規劃上,耐能在2018年已經實現KDP300、KDP500兩代協處理器IP的研發和落地,目前已經落定到國際大廠的產品線中。

2019年,低功耗 IP版本KDP320已經和國內前三大家電巨頭之一達成合作,近期將由該大廠發佈。KL520目前已經量產,KL720將在第四季度發佈。

更長遠地,2020年,耐能將相繼推出KL330、KL530(28nm)、KL730(16nm)等三代IP,其中KL530將採用28nm製程、KL730的製程則爲16nm。

文章來源:知乎