關注「FightingCV」公眾號
回覆「AI」即可獲得超100G人工智慧的教程
點選進入→FightingCV交流群
作者:車萬翔(哈工大)
整理:李rumor
最近幾天被OpenAI推出的ChatGPT[1]刷屏了,其影響已經不僅侷限於自然語言處理(NLP)圈,就連投資圈也開始蠢蠢欲動了,短短几天ChatGPT的使用者數就超過了一百萬。
通過眾多網友以及我個人對其測試的結果看,ChatGPT的效果可以用驚豔來形容,具體結果在此就不贅述了。
不同於GPT-3剛推出時人們的反應,對ChatGPT大家發出更多的是讚歎之詞。
聊天、問答、寫作、程式設計等等,樣樣精通。
因此也有人驚呼,「通用人工智慧(AGI)即將到來」「Google等傳統搜索引擎即將被取代」,所以也對傳說中即將釋出的GPT-4更加期待。
從技術角度講,ChatGPT還是基於大規模預訓練語言模型(GPT-3.5)強大的語言理解和生成的能力,並通過在人工標註和反饋的大規模資料上進行學習,從而讓預訓練語言模型能夠更好地理解人類的問題並給出更好的回覆。
在這一點上,ChatGPT和OpenAI於今年3月份推出的InstructGPT[2]是一樣的,即通過引入人工標註和反饋,解決了自然語言生成結果不易評價的問題,從而就可以像玩兒遊戲一樣,利用強化學習技術,通過嘗試生成不同的結果並對結果進行評分,然後鼓勵評分高的策略、懲罰評分低的策略,最終獲得更好的模型。
不過說實話,我當時並不看好這一技術路線,因為這仍然需要大量的人工勞動,本質上還是一種「人工」智慧。
不過ChatGPT通過持續投入大量的人力,把這條路走通了,從而更進一步驗證了那句話,「有多少人工,就有多少智慧」。
不過,需要注意的是,ChatGPT以及一系列超大規模預訓練語言模型的成功將為自然語言處理帶來新的正規化變遷,即從以BERT為代表的預訓練+精調(Fine-tuning)正規化,轉換為以GPT-3為代表的預訓練+提示(Prompting)的正規化[3]。
所謂提示,指的是通過構造自然語言提示符(Prompt),將下游任務轉化為預訓練階段的語言模型任務。
例如,若想識別句子「我喜歡這部電影」的情感傾向性,可以在其後拼接提示符「它很 」。如果預訓練模型預測空格處為「精彩」,則句子大概率為褒義。這樣做的好處是無須精調整個預訓練模型,就可以調動模型內部的知識,完成「任意」的自然語言處理任務。
當然,在ChatGPT出現之前,這種正規化轉變的趨勢並不明顯,主要有兩個原因:
第一,GPT-3級別的大模型基本都掌握在大公司手裏,因此學術界在進行預訓練+提示的研究時基本都使用規模相對比較小的預訓練模型。由於規模不夠大,因此預訓練+提示的效果並不比預訓練+精調的效果好。而只有當模型的規模足夠大後,纔會涌現(Emerge)出「智慧」[4]。最終,導致之前很多在小規模模型上得出的結論,在大規模模型下都未必適用了。
第二,如果僅利用預訓練+提示的方法,由於預訓練的語言模型任務和下游任務之間差異較大,導致這種方法除了擅長續寫文字這種預訓練任務外,對其他任務完成得並不好。因此,爲了應對更多的任務,需要在下游任務上繼續預訓練(也可以叫預精調),而且現在的趨勢是在眾多的下游任務上預精調大模型,以應對多種、甚至未曾見過的新任務[5]。所以更準確地說,預訓練+預精調+提示將成為自然語言處理的新正規化。
不同於傳統預訓練+精調正規化,預訓練+預精調+提示範式將過去一個自然語言處理模型擅長處理一個具體任務的方式,轉換爲了用一個模型處理多個任務,甚至未曾見過的通用任務的方式。
所以從這個角度來講,通用人工智慧也許真的即將到來了。
這似乎也和我幾年前的預測相吻合,我當時曾預測,「結合自然語言處理歷次正規化變遷的規律(圖1),2018年預訓練+精調的正規化出現之後5年,即2023年自然語言處理也許將迎來新的正規化變遷」。
那麼,接下來如何進一步提升預訓練+預精調+提示新正規化的能力,並在實際應用中將其落地呢?
首先,顯式地利用人工標註和反饋仍然費時費力,我們應該設法更自然地獲取並利用人類的反饋。也就是在實際應用場景中,獲取真實使用者的自然反饋,如其回覆的語句、所做的行為等,並利用這些反饋資訊提升系統的效能,我們將這種方式稱為互動式自然語言處理。不過使用者的互動式反饋相對稀疏,並且有些使用者會做出惡意的反饋,如何克服稀疏性以及避免惡意性反饋都將是亟待解決的問題。
其次,目前該正規化生成的自然語言文字具有非常好的流暢性,但是經常會出現事實性錯誤,也就是會一本正經地胡說八道。當然,使用上面的互動式自然語言處理方法可以一定程度上解決此類問題,不過對於使用者都不知道答案的問題,它們是無法對結果進行反饋的。此時又回到了可解釋性差,這一深度學習模型的老問題上。如果能夠像寫論文時插入參考文獻一樣,在生成的結果中插入相關資訊的出處,則會大大提高結果的可解釋性。
最後,該正規化依賴超大規模預訓練語言模型,然而這些模型目前只掌握在少數的大公司手中,即便有個別開源的大模型,由於其過於龐大,小型公司或研究組也無法下載並使用它們。所以,線上呼叫是目前使用這些模型最主要的模式。在該模式下,如何針對不同使用者面對的不同任務,使用使用者私有的資料對模型進行進一步預精調,並且不對公有的大模型造成影響,成為該正規化實際應用落地所迫切需要解決的問題。此外,爲了提高系統的執行速度,如何通過線上的大模型獲得離線的小模型,並且讓離線小模型保持大模型在某些任務上的能力,也成為模型能實際應用的一種解決方案。
未來已來,讓我們共同期待!
注:有幸在車老師的朋友圈學習到了他對於最近ChatGPT的一些見解,徵得老師同意後分享給大家,轉載請註明作者。
參考文獻:
[2] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe. Training language models to follow instructions with human feedback. https://arxiv.org/abs/2203.02155
[3] Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, Graham Neubig. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing. https://arxiv.org/abs/2107.13586
[4] Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, William Fedus. Emergent Abilities of Large Language Models. https://arxiv.org/abs/2206.07682
[5] Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, Quoc V. Le. Finetuned Language Models Are Zero-Shot Learners. https://arxiv.org/abs/2109.01652
往期回顧
基礎知識
【CV知識點彙總與解析】|損失函式篇
【CV知識點彙總與解析】|啟用函式篇
【CV知識點彙總與解析】| optimizer和學習率篇
【CV知識點彙總與解析】| 正則化篇
【CV知識點彙總與解析】| 引數初始化篇
【CV知識點彙總與解析】| 摺積和池化篇 (超多圖警告)
最新論文解析
NeurIPS2022 Spotlight | TANGO:一種基於光照分解實現逼真穩健的文字驅動3D風格化
ECCV2022 Oral | 微軟提出UNICORN,統一文字生成與邊框預測任務
NeurIPS 2022 | VideoMAE:南大&騰訊聯合提出第一個視訊版MAE框架,遮蓋率達到90%
NeurIPS 2022 | 清華大學提出OrdinalCLIP,基於序數提示學習的語言引導有序迴歸
SlowFast Network:用於計算機視覺視訊理解的雙模CNN
WACV2022 | 一張圖片只值五句話嗎?UAB提出影象-文字匹配語義的新視角!
CVPR2022 | Attention機制是爲了找最相關的item?中科大團隊反其道而行之!
ECCV2022 Oral | SeqTR:一個簡單而通用的 Visual Grounding網路
如何訓練用於影象檢索的Vision Transformer?Facebook研究員解決了這個問題!
ICLR22 Workshop | 用兩個模型解決一個任務,義大利學者提出維基百科上的高效檢索模型
See Finer, See More!騰訊&上交提出IVT,越看越精細,進行精細全面的跨模態對比!
MM2022|兼具低階和高階表徵,百度提出利用顯式高階語義增強視訊文字檢索
MM2022 | 用StyleGAN進行資料增強,真的太好用了
MM2022 | 在特徵空間中的多模態資料增強方法
ECCV2022|港中文MM Lab證明Frozen的CLIP 模型是高效視訊學習者
ECCV2022|只能11%的引數就能優於Swin,微軟提出快速預訓練蒸餾方法TinyViT
CVPR2022|比VinVL快一萬倍!人大提出互動協同的雙流視覺語言預訓練模型COTS,又快又好!
CVPR2022 Oral|通過多尺度token聚合分流自注意力,程式碼已開源
CVPR Oral | 谷歌&斯坦福(李飛飛組)提出TIRG,用組合的文字和影象來進行影象檢索