訂閱
糾錯
加入自媒體

預(yù)訓(xùn)練大模型最新統(tǒng)一范式

       本文重點要講的這篇論文是:

·Unifying Language Learning Paradigms

·Google

·2022年5月

·構(gòu)建一種獨立于模型架構(gòu)以及下游任務(wù)類型的預(yù)訓(xùn)練策略,可以統(tǒng)一的靈活地適配不同類型的下游任務(wù)

·architecture-agnostic、task-agnostic

·也就是說,作者們提出的是一套統(tǒng)一框架/方法論,可以適用于任何一個task。

       這篇文章放出后引出了不小的水花,可以說是LM領(lǐng)域的一個重磅炸彈

·一部分學(xué)者對這篇文章的態(tài)度是「好哇,終于大統(tǒng)一了,開啟了PLM新紀元了吧,以后用起來也更方便了」

·另一部分學(xué)者對這篇文章的態(tài)度是「天吶,大統(tǒng)一了,這不是斷了大家的路了,別人還怎么玩呀」

這篇文章可以概括為是「預(yù)訓(xùn)練模型訓(xùn)練范式的統(tǒng)一」

·有、東西,值得一講

其實在本篇文章出現(xiàn)之前,業(yè)界就已經(jīng)有很多工作在或多或少的研究模型結(jié)構(gòu)/任務(wù)統(tǒng)一的問題了

·所以本次分享同時會帶大家對這些前人工作進行簡單的回顧,因此前半部分可能會有一些像綜述,但我們的重點還是會放在這篇文章上。

目錄

大模型現(xiàn)存問題

大模型統(tǒng)一趨勢

前人工作:Overview

本篇文章:UL2:統(tǒng)一的語言模型范式

參考文獻

背景

大模型現(xiàn)存問題

各種各樣的模型

                      “不完全展示”

各種各樣的范式

PLM Structure

·decoder-only(如GPT)

·encoder-only(如BERT)

·encoder-decoder(如T5)

Pre-train Paradigms

·language model(單向文本建模的 CausalLM,如GPT)

·span corruption(雙向文本建模,如Bert、T5)

·prefix learning(前綴文本建模的 PrefixLM,如UniLM)

Learning Paradigms

·supervised NLP tasks

·in-context learning /few-shot

·Zero-Shot

Task

·language generation

·language understanding

otext classification

oquestion answering

·reasoning

ocommonsense reasoning

olong text reasoning

·structured knowledgegrounding(基于結(jié)構(gòu)化知識數(shù)據(jù)的任務(wù)可以統(tǒng)稱為 StructuredKnowledgeGrounding (SKG))

·information retrieval

task-specific LM

需要根據(jù)下游任務(wù)類型選用特定的預(yù)訓(xùn)練范式/策略

目前大家依舊在延續(xù)根據(jù)任務(wù)選擇PLM的習(xí)慣,比如:

·生成任務(wù):AR/ encoder-decoder / decoder-only /(language model)

·判別任務(wù):AE/ encoder /(span corruption)

不同的范式建模了不同的上下文關(guān)系,也正是因為如此,不同的預(yù)訓(xùn)練范式適配不同類型的下游任務(wù)。

·也就是說,具體的下游任務(wù)類型需要選用特定的預(yù)訓(xùn)練策略。

·LM : -> task-specificLM

·也就是說,我們在PLM的使用中,已經(jīng)潛移默化的把LM變成了task-specificLM

                          比如

雖然前文展示的是一種基于經(jīng)驗的面向task的模型選用方法,但是到目前為止,對于不同task如何選擇正確的architecturepre-training策略(自監(jiān)督目標),似乎仍然沒有達成共識。

這就引發(fā)了一種思考:

··為什么“ pre-trained LM的選擇要取決于下游的任務(wù)?”

··我們能不能,以及 “如何能在許多任務(wù)中普遍有效的預(yù)訓(xùn)練模型?”

缺點&問題

問題:

·PLM的選擇,在一定程度上牽制了研究者的精力和資源;

·而且,在應(yīng)用場景上也會受硬件環(huán)境限制,為不同的下游任務(wù)部署特定的模型,是一個很消耗資源的方式。

因此,「一個統(tǒng)一的大模型」是必然的。

·研究:集中精力改進和擴展單個模型,而不是在 N 個模型上分散資源。

·應(yīng)用:在資源受限的環(huán)境下,有一個可以在多種任務(wù)上表現(xiàn)良好的預(yù)訓(xùn)練模型。

大模型統(tǒng)一趨勢

在這種背景下,「模型大一統(tǒng)」是趨勢

·其最終目的都是為了面對不同的任務(wù)時,能夠使用統(tǒng)一的PLM,不再被PLM架構(gòu)/訓(xùn)練策略的選擇牽制精力/資源

·task-specific LM ->Task-Agnostic LM

o(Agnostic:無感知的,不被牽制的)

·所謂Task-Agnostic 包括

oTask-Agnostic PLM Structure

§•decoder-only

§•encoder-decoder

oTask-Agnostic 的 Pre-train Paradigms

§·language model

§·span corruption

§·prefix learning

優(yōu)點&好處

通用模型的優(yōu)勢是顯而易見的

·有了通用模型,研究者就可以集中精力改進和擴展單個模型,而不是在 N 個模型上分散資源。

·此外,在只能為少數(shù)模型提供資源的受限環(huán)境下,最好有一個可以在多種任務(wù)上表現(xiàn)良好的預(yù)訓(xùn)練模型。

前人工作

我們也在近些年的論文中看到了一種未來趨勢:模型大一統(tǒng)「Unified」,目前的論文中的統(tǒng)一可以概括為以下兩種角度:

·結(jié)構(gòu)統(tǒng)一:通過一些對PLM結(jié)構(gòu)或策略的改動,統(tǒng)一不同PLM結(jié)構(gòu)的優(yōu)點,規(guī)避缺點問題,如XLNet

·任務(wù)統(tǒng)一:改變PLM結(jié)構(gòu)或任務(wù)表示(multi-task learning),使一種模型具備處理多種不同任務(wù)的能力,如T5

·模態(tài)統(tǒng)一:同時進行單模態(tài)和多模態(tài)的內(nèi)容理解和生成任務(wù),如Unimo(已有的預(yù)訓(xùn)練模型主要是單獨地針對單模態(tài)或者多模態(tài)任務(wù),但是無法很好地同時適應(yīng)兩類任務(wù)。同時,對于多模態(tài)任務(wù),目前的預(yù)訓(xùn)練模型只能在非常有限的多模態(tài)數(shù)據(jù)(圖像-文本對)上進行訓(xùn)練。)

我們首先回顧一下近幾年來的幾個相關(guān)論文,這些論文大家都比較熟悉了,這里就帶大家從另一個角度簡單回顧一下。

·簡單回顧這幾個模型的原因,

o一是:因為他們確實在模型統(tǒng)一上做了一些工作并且效果也是很好的,

o二是:雖然這幾篇工作在完成一些模型統(tǒng)一的事情,但卻都并沒有站在一個相對比較高的角度對現(xiàn)有“大模型們”進行完全的統(tǒng)一。

模型

作者

思想

模型架構(gòu)

預(yù)訓(xùn)練策略

任務(wù)類型

XLNet

MS2019

融合AR/AE兩類模型的優(yōu)點,解決BERT中pretrain和finetune階段mask存在不一致的問題

基于bert的encoder-only

提出 Permuted  Language Modeling

主要做理解任務(wù)

MPNet

MS2022

繼承了MLM和PLM的優(yōu)點,避免了它們的局限性

基于bert的encoder-only

采用Permutaion  language modeling

主要做理解任務(wù)

MASS

MS2019

整合了transformer的Encoder和Decoder部分,相當(dāng)于BERT和GPT的結(jié)合體

encoder-decoder

與bert-mask一樣,加大mask為句子長度的0.5,decoder時進行預(yù)測

主要做生成任務(wù)

BART

Facebook2019

提出了一個結(jié)合雙向LM和自回歸LM的預(yù)訓(xùn)練模型

encoder-decoder

不同于MASS的是,BART對decoder沒有進行改變。

理解任務(wù)/生成任務(wù)

UniLM

MS2019

調(diào)整不同的attention  mask,實現(xiàn)NLU與NLG的統(tǒng)一預(yù)訓(xùn)練模型

基于bert的encoder-only

提出Prefix LM使用3種語言模型優(yōu)化目標

理解任務(wù)/生成任務(wù)

T5

MS2019

把所有任務(wù)都轉(zhuǎn)化成Text-to-Text任務(wù)

encoder-decoder

通過大量實驗最終選出corruption  rate

理解任務(wù)/生成任務(wù)

XLNetMPNet

XLNet、MPNet采用Permutaion languagemodeling,兼顧上下文與自回歸,融合兩者優(yōu)點,避免局限性。

XLNet

·2019.06

·arxiv.org/abs/1906.0823...

       做法

·針對AE與AR的優(yōu)缺點:

oAE能夠看到上下文但忽略了[Mask]之間的相關(guān)性

oAR天然的適合生成任務(wù)但只能看到單向信息

·提出了PLM

oPermutaion languagemodeling:一個序列隨機換位方法,并以自回歸的方式預(yù)測右邊部分(predictedpart)的token

o融合了AR模型(類GPT,ELMo)和AE模型各自的優(yōu)點,既能建模概率密度,適用于文本生成類任務(wù),又能充分使用雙向上下文信息。

·XLNet實現(xiàn)AR和AE融合的主要思路為,對輸入文本進行排列組合,然后對于每個排列組合使用AR的方式訓(xùn)練,不同排列組合使每個token都能和其他token進行信息交互,同時每次訓(xùn)練又都是AR的。

優(yōu)點:

·融合了BERT和GPT這兩類預(yù)訓(xùn)練語言模型的優(yōu)點,

·并且解決了BERT中pretrain和finetune階段存在不一致的問題(pretrain階段添加mask標記,finetune過程并沒有mask標記)

       MPNet

·2020.04

·arxiv.org/abs/2004.0929...

·針對MLM和PLM的優(yōu)缺點:

oMLM可以看到全句的位置信息,但不能對預(yù)測token之間的依賴關(guān)系進行建模,不能很好地學(xué)習(xí)復(fù)雜的語義關(guān)系;

oPLM可以通過自回歸預(yù)測對predicted tokens之間的依賴關(guān)系進行建模,但不能看到全句的位置信息,由于在下游任務(wù)中可以看到全句的位置信息,會造成預(yù)訓(xùn)練和微調(diào)的不匹配。

·為了繼承了MLM和PLM的優(yōu)點,避免它們的局限性

基于bertencoder-only結(jié)構(gòu),對預(yù)訓(xùn)練的目標進行改動

這兩個任務(wù)雖然在努力的融合不同LM,但是他們的重點依然在LM結(jié)構(gòu)的優(yōu)化上(融合現(xiàn)有結(jié)構(gòu)的優(yōu)點&規(guī)避缺點),并非在統(tǒng)一不同任務(wù)對應(yīng)的PLM上。

MASSBART

·MASS:ICML 2019

·BART:ACL2020

BART

·提出了一種新的預(yù)訓(xùn)練范式,包括兩個階段:首先原文本使用某種noise function進行破壞,然后使用sequence-to-sequence模型還原原始的輸入文本。

·下圖中左側(cè)為Bert的訓(xùn)練方式,中間為GPT的訓(xùn)練方式,右側(cè)為BART的訓(xùn)練方式。

·首先,將原始輸入文本使用某些noise function,得到被破壞的文本。這個文本會輸入到類似Bert的Encoder中。在得到被破壞文本的編碼后,使用一個類似GPT的結(jié)構(gòu),采用自回歸的方式還原出被破壞之前的文本。

MASS專注于生成任務(wù),BART在保證理解任務(wù)性能的前提下,生成任務(wù)的結(jié)果也得到提升。

·總體來看,這兩個模型有相似也有不同,MASK的方式對預(yù)訓(xùn)練模型的結(jié)果影響很大。

·BART和MASS對生成任務(wù)的效果都有提升。

基于Transformerencoder-decoder結(jié)構(gòu),對encodermask方式進行改動

主要貢獻:BART提出了一個結(jié)合雙向LM和自回歸LM的預(yù)訓(xùn)練模型。

但其僅僅將「雙向如BERT」與「自回歸如GPT」結(jié)合在一起,而PLM的范式除此之外還有單向LM              left2right/right2left/left2right+right2leftELMO等)。

并不能稱作「統(tǒng)一」。

UniLM結(jié)構(gòu)統(tǒng)一)

UniLM是一種BERT-based的生成模型

·NeurIPS2019

·arxiv.org/abs/1905.0319...

本文提出了采用BERT的模型,使用三種特殊的Mask的預(yù)訓(xùn)練目標,從而使得模型可以用于NLG,同時在NLU任務(wù)獲得和BERT一樣的效果。模型使用了三種語言模型的任務(wù):

·unidirectional prediction

·bidirectional prediction

·seuqnece-to-sequenceprediction

認為EMLo采用前向+后向LSTM、GPT采從左至右的單向Transformer、BERT采用雙向Attention都有優(yōu)缺點。

·融合了3種語言模型優(yōu)化目標,通過控制mask在一個模型中同時實現(xiàn)了3種語言模型優(yōu)化任務(wù),在pretrain過程交替使用3種優(yōu)化目標。

·三種:unidirectional(left2right/right2left)/seq2seq/bidiectional

·采用的Multi-tasktraining,

基于bertencoder-only結(jié)構(gòu),使用三種特殊的Mask的預(yù)訓(xùn)練目標控制attention,使得3種類型可以存在于同一個LM 中,并可以同時訓(xùn)練。從而使得模型可以用于NLG,同時在NLU任務(wù)獲得和BERT一樣的效果。

核心思路是利用mask控制生成每個token時考慮哪些上下文的信息。

相對上面的幾篇文章來說,個人認為UniLM可以算是LM的「小」統(tǒng)一 ‍♂?(把不同的優(yōu)化目標統(tǒng)一在同一個LM中)。

T5任務(wù)統(tǒng)一)

arxiv.org/abs/1910.1068...

本文的重要貢獻

·以一種統(tǒng)一的思想研究PLM,并用了大量實驗來驗證效果。把所有的NLP問題都可以定義成“text-to-text”問題,即輸入text,輸出text,一個模型干所有。(還得是有錢)

·順便貢獻了個語料庫C4(Colossal Clean Crawled Corpus)

下游任務(wù)

·machine translation:WMT English to German, French, and Romanian translation

·question answering:SQuAD

·abstractive summarization:CNN/Daily Mail

·text classification:GLUE and SuperGLUE

      三種Model structures:Encoder-decoder、Language model、Prefix LM

·代表分別有 MASS(BERT 可以看作是其中 Encoder 部分)/ GPT2 / UniLM

·在同一種模型結(jié)構(gòu)下,這三種架構(gòu)依舊是通過注意力機制的 Mask 控制

·其實就是介紹了三種attention mask:

  ·Fully-visible(transformer的encoder那種mask),BERT-style

  ·Causal(transformer的decoder那種mask),LM,GPT-style

  ·Causal with prefix(前兩種的結(jié)合,前半段是fully-visible,后半段是causal)。

    ·在同樣運算復(fù)雜度的情況下,Encoder-decoder結(jié)構(gòu)的參數(shù)量是其他結(jié)構(gòu)的兩倍左右。

三種Unsupervised objectives

·LM(GPT從左到右)/BERT-style(denoising還原)/Deshuffing(XLNet文本打亂還原) -> BERT(Table4)

·BERT-style 的三種 variant 中 span wins。═able 5)

·corruption rate 15% wins!(Table 6)

·ResultsEncoder-decoder配合denoisingobjective達到了最好的效果。詳見原文Table 2。

T5這篇論文如果只從技術(shù)上來講,他其實是沒有太多的idea創(chuàng)新的,但他的一個重要作用在:將NLP 任務(wù)都轉(zhuǎn)換成 Text-to-Text 形式,然后使用同樣的模型,同樣的損失函數(shù),同樣的訓(xùn)練過程,同樣的解碼過程來完成所有 NLP 任務(wù)。

可以簡單概括為:

·基于標準encoder-decoderTransformer結(jié)構(gòu)(在不同的具體任務(wù)上有不同的prefix指導(dǎo)模型),對預(yù)訓(xùn)練目標進行大范圍探索,(類似這樣的大型實驗探索論文也有一些:首先提出一個通用框架,接著進行了各種比對實驗)最后獲得一套建議參數(shù),最后得到一個很強的 baseline。而我們之后做這方面實驗就能參考它的一套參數(shù)。

T5通過提出一套通用方法并進行大量實驗,確實提出了一套統(tǒng)一的大模型結(jié)構(gòu)(大量實驗下的到的一套經(jīng)驗參數(shù)以及一個 baseline:denoising+replacespan+corruption rate 15%)。

但是,這一套參數(shù)一定就比其他的參數(shù)要好呢?在任何情況下都適用嗎?

我們追求的「模型大一統(tǒng)」應(yīng)該不僅僅是使用「同樣的模型,同樣的損失函數(shù),同樣的訓(xùn)練過程,同樣的解碼過程」就可以,而是統(tǒng)一的模型/損失函數(shù)/訓(xùn)練目標/解碼過程是真的具備解決各類任務(wù)(生成/理解/推理等)的能力或者可以靈活適配。

重點比較:T5 & UniLM & UL2

前面都比較好理解

但在講UL2這篇文章之前,大家會覺得T5(那么多的實驗,那么多的),UniLM也貌似統(tǒng)一了NLU和NLG。

他們或許都已經(jīng)足夠“統(tǒng)一”了,那為什么還需要UL2呢?

其實他們還是有很大不同的,所以這里先提前提及一下他們的區(qū)別:

·T5:將 NLP 任務(wù)都轉(zhuǎn)換成 Text-to-Text 形式,然后使用同樣的模型(encoder-decoder),同樣的損失函數(shù),同樣的訓(xùn)練過程,同樣的解碼過程來完成所有 NLP 任務(wù)。

·UniLM:通過控制mask在一個模型中同時實現(xiàn)3種語言模型優(yōu)化任務(wù),使encoder-only模型可以同時完成NLG任務(wù)。

·UL2:構(gòu)建一種 獨立于模型架構(gòu) 以及 下游任務(wù)類型 的預(yù)訓(xùn)練策略(自監(jiān)督目標),可以靈活地適配不同類型的下游任務(wù)。

·【從這里看起來,UL2工作的落點是要比現(xiàn)有的這些工作更高的,并且分離了arch和pretrain-obj】

模型結(jié)構(gòu)

預(yù)訓(xùn)練策略(自監(jiān)督目標)

T5

encoder-decoder

在各種現(xiàn)有策略中實驗,最終選定表現(xiàn)最好的策略為span corruption

UniLM

Encoder-only

BERT模型+三種特殊的Mask的預(yù)訓(xùn)練目標,使得模型可以用于NLG,同時在NLU任務(wù)獲得和BERT一樣的效果。

UL2

普遍適配

提出Mixture-of-Denoisers  (MoD)融合了Prefix LM/span corruption/CLM不同的模型能力

然后我們再來展開講一下這篇論文

UL2(該論文所提出的方法叫法)

2022年5月,Google提出一種“無關(guān)architecture”“無關(guān)task”的預(yù)訓(xùn)練策略,即,此策略無論什么PLM architecture 什么task 都可以靈活適配。

·architecture-agnostic

·task-agnostic

論文:Unifying Language Learning Paradigms

·arxiv.org/pdf/2205.0513

·zhuanlan.zhihu.com/p/51

·也就是說,作者們提出的是一套框架(方法論),可以適用于任何一個task,并且可以適配任何architecture。

趨勢及問題

通過前面的介紹,我們可以看出,其實從UniLM、T5甚至更早,大模型統(tǒng)一的趨勢已經(jīng)非常清晰明了,

但由于上述問題,我們還是沒辦法心甘情愿的稱之為「模型大一統(tǒng)」(不再依賴任務(wù)選擇PLM)。

論文講解

跳轉(zhuǎn):

*重點在此*

本文內(nèi)容有點多了,關(guān)于這篇論文的細節(jié),打算再開一篇文章細寫

占坑占坑占坑占坑占坑占坑占坑占坑占坑占坑占坑占坑占坑占坑

總結(jié)

本文貢獻「邁向建立普遍適用的語言模型的一步」

•將architectural archetypes與pre-training目標分開

•預(yù)訓(xùn)練策略比預(yù)訓(xùn)練架構(gòu)更重要(這兩個概念通常是合并在一起的)

•提出了一個pre-training目標:Mixture-of-Denoisers(MoD)

•提出了一個廣義統(tǒng)一的NLP自監(jiān)督視角,通過不同的pre-training目標相互轉(zhuǎn)換,將不同的pre-trainingparadigms結(jié)合在一起

•引入了模式切換的概念

•其中下游fine-tuning與特定的pre-training schemes相關(guān)。

•最后,通過將模型擴展到20B參數(shù),在50個已建立的監(jiān)督NLP任務(wù)上實現(xiàn)了SOTA性能

•這些任務(wù)包括語言生成(帶有自動化和人工評估)、語言理解、文本分類、問題回答、常識推理、長文本推理、結(jié)構(gòu)化知識基礎(chǔ)和信息檢索。

總結(jié)&思考&工作啟發(fā)

本文UL2的重點在:

·「提出一種“無關(guān)architecture”“無關(guān)task”的預(yù)訓(xùn)練策略,即使用此策略訓(xùn)好的PLM無論什么architecture什么task都可以靈活適配」

·即:不需要再根據(jù)任務(wù)去選擇 architecture 預(yù)訓(xùn)練策略(自監(jiān)督目標)

·architecture-agnostic& task-agnostic

在解決 task-specific LM 的問題上,還有一種常用做法:Massive Multi-tasking

·后Prompt的產(chǎn)物,Fintune范式+Prompt范式的綜合體

·重點在:對下游任務(wù)形成拿來即用的模型,可直接進行zero-shot測試,也可進一步提升few-shot性能。

·是統(tǒng)一場景下的解決方案之一

·更多推薦閱讀:zhuanlan.zhihu.com/p/46...

參考文獻

論文

·Unified Language ModelPre-training for Natural Language Understanding and Generation

·GeneralizedAutoregressive Pretraining for Language Understanding

·DenoisingSequence-to-Sequence Pre-training for Natural Language Generation, Translation,and Comprehension

·Unifying LanguageLearning Paradigms

博客

·https://zhuanlan.zhihu.com/p/513800476

·https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650845731&idx=1&sn=24617480239384699ed9ab91da561739&chksm=84e5765db392ff4b2608d4c9726c9403ababd30dff2e5225e8731c05efe1523f8d4631317236&mpshare=1&scene=1&srcid=0515lVkpTYBe5aJHZkEZF3t7&sharer_sharetime=1652546097545&sharer_shareid=12c0d348dc52e0610c03a370c1241fe3&version=4.0.0.6007&platform=win#rd

·https://zhuanlan.zhihu.com/p/501841063

·https://zhuanlan.zhihu.com/p/482465145

·https://zhuanlan.zhihu.com/p/386470305

·https://zhuanlan.zhihu.com/p/465130047

·https://zhuanlan.zhihu.com/p/89719631

·https://zhuanlan.zhihu.com/p/88377084

·http://www.360doc.com/content/22/0110/07/7673502_1012609753.shtml

       原文標題 : 預(yù)訓(xùn)練大模型最新統(tǒng)一范式

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號