專訪 | 驀然認知:只有做得重一些,我們才能活下來

 2017-12-21 12:38:00.0

原標題:專訪 | 驀然認知:只有做得重一些,我們才能活下來

在各家公司都在談技術壁壘,聊垂直場景的當下,驀然認知 CEO 戴帥湘的觀點很明確——公司建立的真正壁壘絕對不止是技術,也不僅僅是某個垂直場景,而是這個場景背後的產業鏈條。

撰文 | 宇多田

1 年後,戴帥湘仍然不看好音箱市場。

雖然想以「語義理解」確立行業優勢的驀然認知早在年初推出一個名叫 Mor 的人機對話引擎時,就意在對標 Alexa 這類語音助手;而硬件,也被戴帥湘看作是技術優勢最直觀最靠譜的展現形式。

然而音箱,卻沒有在他們當下考慮的接入產品範疇裏。

或許作爲一名曾在百度任職 9 年的 NLP 科學家,他完全有能力帶領團隊在短時間內搭建出一整個基於多輪對話的技術框架;

但作爲一家創業公司的 CEO,他首先考慮的,是要爲公司找到一條能夠存活下來,而且活得長久的業務模式。換句話說,就是如何將技術優勢轉化爲一門可行的生意。

「你看亞馬遜做雲計算,BAT 也做雲計算;亞馬遜做音箱,BAT 也做音箱。對於阿里他們來說,follow 就夠了,一個是風險小,市場有被驗證過,另一方面他們也有足夠的資本和精力去 follow。」

「但是」,他聲音拔高了一度,「對於小公司來說,選擇去 follow 音箱這種新興的,產業鏈條都不清晰的硬件市場,不是找死嗎?你做 2B 的業務也要找一個存量相對較大的 B 呀。」

這種思路使驀然認知做出了一個在面對「將自身技術接入哪類硬件」時的必然選擇:

電視與汽車,是他們率先切入的存量市場。

「以我自己的性格,我不會選擇一個從未被驗證的市場。或許賣點是有,但音箱有明確的銷售渠道,有清晰的產業鏈條嗎?雖然現階段它可能有教育市場的意義,但這個新興產業相對較輕,且存在太多不確定性。」

他認爲,「讓公司活的長久」的第一個條件,就是不能首先切入較輕的市場。

「我們也可以給一個移動 app,譬如貓眼電影,做語音對話系統,但是他們的鏈條實在太短了;做 2B 生意,靠這種『輕量級改造』,能賺到什麼錢呢?」

「我認爲,只有做的重一些,才能活下來。」

當下語音市場的痛點,是他們口中的技術優勢

在當下較爲活躍的語音商業化嘗試中,有一個較爲尷尬的真相:

語音識別已經相對成熟了,各家都在吹噓的 96%~98% 識別率在市場中其實已經比較普遍了。但是它的下一步驟——語義理解,也就是建立在自然語言理解(NLP)基礎上的交互模型纔是最大的障礙。

用更通俗的表述來說,市面上所有音箱都有能力將這些模擬音頻信號進行數字化處理(語音識別),但接下來的關鍵一步——對轉化成本文的信息進行分析,然後「讀懂」這些信息,進而對你的指令進行正確反饋的能力,纔是當下解決智能硬件普遍存在「智障問題」的技術痛點。

而驀然認和所強調的「技術門檻」,就集中在這一個「點」上。

舉個例子,你可以跟這個名叫 Mor 的人機對話系統(小驀)進行多輪連續對話(一般是在 5 輪以上,不需喚醒詞)。

譬如「我想聽周杰倫的歌」,「要近期的(歌)」,「冷門的(歌)」,這三個基於首個問題建立的需求,可以連續向系統提出,不需要反覆喊出喚醒詞。

此外,在創建一套完整常識知識表達機制的基礎上,驀然認知構建的機器推理模型能夠滿足跨內容維度的多輪對話。譬如:

問:「小驀,深圳天氣怎麼樣?」

答:「深圳今天天氣…」

問:「那給我定張去北京的機票」

答:「好的,從深圳到北京的機票有……」

某種程度上,如果把「語音識別」比作機器的識字能力,那麼語義理解就是衡量它們「智商」的標準。

但是,技術優勢僅僅是技術優勢。

從產品設計角度來說,無論是單一的語音交互界面(VUI),還是純粹的圖形交互界面(GUI,視覺),驀然認知都不認爲是一個智能硬件應該具備的最好用戶體驗形式。

「從人性化的角度來講,圖形界面更擅長在交互的操縱感和隱私保護髮揮作用,這些也會同時體現在信息量和瀏覽效應上面。因此,VUI 的崛起並不是說要替換原來的其他交互方式,而是兩者建立一個融合、共生的關係。」

產品經理楊平的這個觀點也是驀然認知選擇切入電視市場的一個支撐點——因爲電視的畫面形態,以及在某些場景下對語音交互的必然訴求,是實現「GUI+VUI」用戶體驗的絕佳場景。

在這次語音引擎 Mor2.0 發佈會上,現場用戶體驗通過電視大屏買買買

然而,在爲電視廠商做語音交互界面的過程中,他們發現,這種混合場景中的語音交互系統的設計難度比純語音場景難了不止一個等次。

「無論是技術架構,還是產品體驗,都不是兩種場景簡單的疊加,你需要模擬出一個用戶在拿着遙控器或不拿遙控器,看着電視畫面和不看電視畫面場景中,任何可能性習慣動作。」

他舉了個例子,很久之前一位經驗還不是很成熟的產品經理在跟研發設計人員一起討論如何爲某品牌電視的遙控指令做成語音時,提了這樣一個需求:

我想給電視增加一個『語音說關機』。

但馬上這個提議就被 UI 設計師批評了,因爲他只考慮到了能不能做成語音交互,而完全忽略了電視機的使用場景。

「在遙控器上面,關機鍵和語音鍵就挨着,你按語音鍵說一聲「關機」,然後電視收到指令再關機;但是那個物理按鍵就在那裏,按一下就結束了呀,這個過程不就是多此一舉的事情嗎?」

楊平反覆強調,在給廠商設計語音交互系統的時候,不能純粹爲了語音而語音。有時候,可視化的點擊操作會比語音快方便很多。

因此,從消費級用戶的體驗角度考慮,他認爲硬件廠商需要的不是某一個聽起來很黑科技的交互,而是一個「更加自然,用戶方根本不用 care 到底是語音還是視覺的交互」。

從點到面,用語音技術切入全生產鏈

首先,驀然認知是一個典型的 2B2C 公司。也就是說,他要考慮的是能夠爲 B 端硬件提供點什麼。

既然手中掌握着具備一定技術門檻的語音交互技術,那麼這家公司的業務模式就很好理解了,簡而言之,就是:

  • 從點(NLP、知識圖譜等技術)到面(完整語音解決方案),公司都能提供;

  • 從硬件生產鏈的某一環到這件產品的生命全週期,公司都要切入。

從第一點來看,這其實在語音創業公司中是一個並不少見的選擇。而這樣做的好處是,能夠針對廠商的具體需求進行定製化語音改造。

換句話說,驀然認知提供的「套餐」有大有小,他們把一套以語音交互技術爲基礎的界面化改造方案,分了好幾層,完全取決於下游的客戶需要什麼。

  • 如果這家廠商很傳統,一直專注於硬件製造,沒有過多開發經驗,可以把驀然認知這套完整方案直接拿過去;此外,也可以直接使用他們剛剛發佈的產品——語音交互和決策引擎 Mor2.0 的前端 SDK。

  • 如果你只需要知識圖譜和 NLP 技術,那他們也可以提供一個開放性的技術架構。

  • 再或者你想做一些定製化開發,他們可以把這套 UI 給你的同時,再根據你的品牌特點做一些調整。

但需要注意的是,這套方案裏的」技術提供方,只有「語義理解」這一塊是驀然認知自己做的,語音識別還有內容服務等方面都是接入的第三方廠商。

驀然認知的技術 VP 張偉萌把這種資源整合與集成的方式比作是「集中力量擊痛點」:

「技術上,我們做的只有語義這一塊。其他包括語音識別,內容資源都是其他廠商提供的;其實語音方面我們完全可以做,但是我們覺得沒必要,因爲這方面各家識別率都很高了,也沒有太多門檻了。

還有,在這個完整方案裏,內容服務我們也可以爲廠商對接,但廠商一般都是有自己的媒資。」

雖然 BAT 等技術巨頭未必不能提供這些產品和服務,但楊平認爲,在與客戶對接時,創業公司具備的靈活性與高效率優勢就會體現地淋漓盡致:

「大廠商或許有品牌優勢,但是他們的開放平臺是需要你去遵循他們平臺設立的規定,完全不能給你的需求進行細節化調整,相對來說比較強勢;還有就是,大平臺的效率真的那麼高嗎?」

他拿風行舉了一個例子。這種出身互聯網的公司做電視,效率其實是更喜歡遵循自己互聯網的快節奏的,但是他們之前對接的國內某語音巨頭,就交互界面細節調整和時間方面出現了矛盾。

「他們跟這家語音廠商說,能否改一下我現在這個 UI?但這家廠商說了,你要改可以,那我整個行業裏的全都得改,你得等。」

語音交互大公司的產品缺陷在他看來就是驀然認知的優勢。他們現在對接的諸多電視廠商,都明確表示希望自己的交互界面能夠「被差異化」。

譬如跟暴風的合作,驀然認知提供的服務就是比較隱藏性的。他們就是需要我們交互對話等核心技術跟他們自己這一套 UI 做整合,其他的東西都是自己做的,或者找別人做的。

而某日本著名電器廠商,做硬件或許非常強,但在軟件上面還仍然是逐步壯大的一個過程。因此它需要驀然認知提供一整套 UI 方案。

「我們可以明確說,沒有一家下游硬件廠商不希望自己不一樣的。

像風行這種出身互聯網的公司,賣硬件更需要從軟件方面尋找差異化;跟前者相比,那家日本廠商本來就在供應鏈和硬件上具備優勢,他們可能需要全方位補足內容、技術上的差距。」

正是由於差異化,他才認爲精明的硬件廠商們絕不會選擇一家語音技術供應商,這也是驀然認知切入市場的機會:

「所有廠商自己都是有想法的,現在 AI 技術公司都只能接入硬件廠商產品的一兩個型號。SKU(單品型號)多的硬件公司可以去實現產品取證,可以利用各家提供的技術和服務去做實驗,做對比;

而 SKU 少的廠商,那就很慘,可能只能去細分說我 43 寸用這家技術公司的,55 寸再用那個公司的。」

除了電視,汽車領域是驀然認知當下最覬覦的一個龐大產業。

這個行業更長且複雜的生產鏈條,以及一輛汽車身上所必須的千百個零部件,都爲太多技術廠商提供了進入市場的可能性。

但與普通消費級硬件公司不同,這個生命週期很長的重工業,是從供應鏈角度是管理的,譬如一級供應商與二級供應商,而不是單純去區分軟件和硬件。

因此,戴帥湘才針對自己的兩個汽車客戶(某國內著名 A 股上市汽車公司與某德系著名品牌,客戶信息暫不透露)組建了獨立且規模不小的項目團隊:

「爲了拿到這個採購訂單,我們需要給他們很多渠道,前端後端都要做很多事情的。這需要做好準備,付出更多,做的更長。因此我們才成了他們的一級供應商,直接給他們的某個車型做系統。

此外,我們還在上海建了一個新的研發中心,會擴充到 40~50 人,專門爲汽車客戶進行定製化服務。」

戴帥湘在這裏提到的「做的更長」,就是剛纔我們總結的驀然認知業務模式的第二個特點——從生產鏈某一環節切入,逐漸擴散至全鏈條。

也就是說,對於汽車廠商,車載交互系統只是一個適合的切入點,而「基於語音技術,提升效率的同時,提升賣點,降低企業的人力成本」,是驀然認知設定的一個終極目標。

很顯然,這個目標是一個全生命週期的投入。

「我們不是爲了拿汽車項目而拿項目,而是爲了更加深入瞭解他們的生產全鏈條。汽車鏈條太長了,我們鑽研和分析了很長時間,是爲了探尋語音交互到底可以爲這個行業做到哪一步,而不是隻停留在一些車載信息方面的常規使用場景中。」

當然,從目前來看,車廠普遍對待 AI 的態度雖然「積極」但是從產品改造層面則比較審慎。譬如大多隻把一些車載語音交互系統交給第三方技術廠商去做。

但戴帥湘卻希望把這些「零星的點」,慢慢擴散至汽車生產線上的全生命週期:

「舉個例子,你做語音交互,往前想,是不是可以給汽車降噪,以及麥克風陣列方面做一些處理?

那往後擴,語音交互是否可以跟他們的 CRM 系統,客服系統以及生產管理製造系統聯繫在一起?

總之,就是最好幫他們把鏈條分析清楚,然後告訴他們,我真的能提升你的效率,提升你的價值。」

但與汽車廠商進行合作,或者取得他們的信任,並不是一件容易的事情。而讓戴帥湘最頭痛的事情,是車廠複雜的決策邏輯與超長的決策週期。

「其實更多是理念的問題,他們從調研,到分析,再到選誰,然後最終到方案確定,時間花的太長了。這可能是我們技術公司或者互聯網公司很難想象的事情。」

他不希望解決方案的確定花費較長時間,因爲除了慣有的思維方式,還要考慮到公司競爭力的問題。

等到一個系統真正做好,可能市面上就會有更好的技術或者廠商有了新的訴求,那時候如果不做任何準備,廠商就會另謀新歡。

「技術型公司對技術和產品迭代的訴求很高。你想想,你用了這麼多人,在這麼長時間裏只做了一小部分事情,說不過去。

因此,通常來講,爲了提升做事效率,在他們提某種需求的時候,我們同時要想更多東西。如果這家車廠不要,我可以進行行業內外的拓展,推給其他汽車或硬件廠商。」

換句話說,車廠要做 5%,那麼技術公司就要做出 80%。在下一步需求來之前,他們就要處於完成準備的狀態。

因此,這也是驀然認知想從車載往全生產鏈延伸的一個重要原因。

他認爲,高明的技術商業化,一定是基於一個點迅速在行業上下游擴充。如果僅憑這項技術,你可能只有暫時的時間優勢;但是過了 1 年,人家也能做到了,你要怎麼辦?

因此,在這個技術壁壘還能保持的「1 年」裏,你要做出關鍵性選擇:

「對很多公司來說,可能一個是選擇快速鋪用戶,另一個就是把這個點做的更深更重一些,解決更大的問題。很明顯,你看語音識別,某很有名的廠商雖然已經把自己語音技術撒到很多硬件上了,但現在,有實力紛紛表示要替換掉它。」

最終,戴帥湘帶着團隊選擇了第二種形式——去某行業上下游擴充整套方案,與那些行業內已有技術進行整合並串聯起來。

在各家公司都在談技術壁壘,聊垂直場景的當下,他的觀點很明確——公司建立的真正壁壘絕對不止是技術,也不僅僅是某個垂直場景,而是這個場景背後的產業鏈條。

「其實 AI 創業到了現在這個階段,已經非常殘酷了,不是說你跑得快就能行。

我們選擇了『做的更重』這條路,其實有利有弊吧,因爲你的各方面投入會比較大,將來萬一覺得這方面不對想轉型,難度也很大。」

「怎麼說呢,」他沒有把自己當下做的事情說得太滿,

「我不敢說自己眼光有多準,把鏈條做的更長更重,是我們成立之初就設立的目標,當前的做的事,只是從沒有偏離過公司目標而已。」

文章來源:機器之心