2020 年 10 篇必讀的 NLP 突破論文 LIST
盡管 2020 年是充滿挑戰(zhàn)的一年,但人工智能學(xué)術(shù)研究并未因此停滯,仍然誕生了許多有意義的技術(shù)突破。在 NLP 領(lǐng)域,OpenAI 的 GPT-3 可能是其中最 “出圈” 的,但除它之外,肯定還有很多其他研究論文值得關(guān)注。
整體來看,2020 年的主要 NLP 研究進(jìn)展仍以大型預(yù)訓(xùn)練語言模型為主,特別是 transformers。今年出現(xiàn)了許多有趣的更新,使得 transformers 架構(gòu)更加高效,更適用于長(zhǎng)文檔。
另一個(gè)熱點(diǎn)話題與 NLP 模型在不同應(yīng)用中的評(píng)估有關(guān)。業(yè)界仍然缺乏普適的評(píng)估方法以清晰定義一個(gè)模型究竟哪里失敗了,以及如何修復(fù)這些問題。
另外,隨著 GPT-3 等語言模型能力的不斷增強(qiáng),對(duì)話式人工智能正受到新一輪的關(guān)注。聊天機(jī)器人正在不斷改進(jìn),今年頂級(jí)技術(shù)公司推出的多款聊天機(jī)器人(例如 Meena 和 Blender 等)令人印象深刻。
在 2020 年年尾,國(guó)外 AI 技術(shù)博客 topbots.com 總結(jié)了 2020 年的 10 篇重要機(jī)器學(xué)習(xí)研究論文,入選論文也多為今年的頂會(huì)論文獎(jiǎng)斬獲者,具有較高的權(quán)威度,“數(shù)據(jù)實(shí)戰(zhàn)派” 在此基礎(chǔ)上有所延伸,以便讓讀者對(duì)今年的 NLP 研究進(jìn)展有一個(gè)大致的了解,當(dāng)然,名單之外,也仍有很多突破性的論文值得閱讀。也歡迎讀者后臺(tái)留言與我們交流反饋。
2020 年 10 篇必讀的 NLP 突破論文 LIST:
1.WinoGrande: An Adversarial Winograd Schema Challenge at Scale
2.Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
3.Reformer: The Efficient Transformer
4.Longformer: The Long-Document Transformer
5.ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
6.Language Models are Few-Shot Learners
7.Beyond Accuracy: Behavioral Testing of NLP models with CheckList
8.Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics
9.Towards a Human-like Open-Domain Chatbot
10.Recipes for Building an Open-Domain Chatbot
1、WinoGrande 挑戰(zhàn)
WSC 挑戰(zhàn)是一個(gè)人類常識(shí)推理的測(cè)評(píng)集。它包含了 273 個(gè)由專家設(shè)計(jì)的問題,這些問題無法單純依靠統(tǒng)計(jì)模型來解決。但是,最近的語言模型在這個(gè)測(cè)試集上取得了 90% 的準(zhǔn)確率。這就提出了一個(gè)問題,即語言模型是真正學(xué)會(huì)了推理,還是僅僅依靠一些對(duì)數(shù)據(jù)集的偏好?
為回答這個(gè)問題,華盛頓大學(xué)艾倫人工智能研究所的一支團(tuán)隊(duì)提出了一個(gè)新的挑戰(zhàn) ——WINOGRANDE,一個(gè)用于常識(shí)推理的新的大規(guī)模數(shù)據(jù)集。WINOGRANDE 是對(duì) WSC 挑戰(zhàn)的升級(jí),同時(shí)增加了問題的難度和規(guī)模。
WINOGRANDE 的開發(fā)有兩大關(guān)鍵:在眾包設(shè)計(jì)過程中,眾包人員需要寫出符合 WSC 要求并包含某些 anchor words 的雙句子,最終收集的問題會(huì)通過一組眾包工作者進(jìn)行驗(yàn)證。在收集的 77,000 個(gè)問題中,有 53K 被視為有效。
另一個(gè)關(guān)鍵在于研究人員開發(fā)用于系統(tǒng)減少偏差的新穎算法 AfLite,將出現(xiàn)的人類可檢測(cè)偏差巧妙轉(zhuǎn)換為了基于嵌入的機(jī)器可檢測(cè)的偏差。應(yīng)用 AfLite 算法后,去除偏見的 WinoGrande 數(shù)據(jù)集包含 44K 樣本。
在 WINOGRANDE 測(cè)試集上,現(xiàn)在最好的方法只能達(dá)到 59.4 – 79.1% 的準(zhǔn)確率,比人類表現(xiàn)(94.0%)低 15%-35%。
一句話總結(jié)現(xiàn)實(shí)影響:有助于探索減少系統(tǒng)偏差的新算法,并避開其他 NLP 基準(zhǔn)的偏差。
這篇文章獲得了 AAAI2020 的最佳論文獎(jiǎng) (Outstanding Paper Award)。
2、打造更強(qiáng)大的 Transformer
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 一文中,谷歌研究團(tuán)隊(duì)建議在 NLP 中采用統(tǒng)一的轉(zhuǎn)移學(xué)習(xí)方法,目標(biāo)是在該領(lǐng)域樹立一個(gè)新的標(biāo)準(zhǔn)。為此,他們提出將每個(gè) NLP 問題都視為一個(gè) "文本到文本" 的問題,這樣的框架將允許在不同的任務(wù)中使用相同的模型、目標(biāo)、訓(xùn)練過程和解碼過程,包括總結(jié)、情感分析、問題回答和機(jī)器翻譯。
研究人員將他們?yōu)榇舜蛟斓哪P,稱為文本到文本傳輸轉(zhuǎn)化器 (Transfer Text-to-Text Transformer,T5),并在大量網(wǎng)絡(luò)抓取數(shù)據(jù)的語料庫(kù)上對(duì)其進(jìn)行訓(xùn)練。
通過探索和比較現(xiàn)有的技術(shù),T5 的誕生為 NLP 領(lǐng)域的發(fā)展提供一個(gè)全面的視角。特別是提出把每個(gè) NLP 問題都當(dāng)作文本到文本的任務(wù)來處理,為 NLP 的遷移引入了新的方法。由于在原始輸入句子中添加了特定任務(wù)的前綴(例如,"將英語翻譯成德語:","總結(jié):"),T5 可以理解應(yīng)該執(zhí)行哪些任務(wù)。
伴隨著 T5 的誕生,還有一個(gè)名為 C4 的數(shù)據(jù)集。研究團(tuán)隊(duì)從 Common Crawl(一個(gè)公開的網(wǎng)頁存檔數(shù)據(jù)集,每個(gè)月大概抓取 20TB 文本數(shù)據(jù)) 里整理出了 750 GB 的訓(xùn)練數(shù)據(jù),取名為 “Colossal Clean Crawled Corpus (超大型干凈爬取數(shù)據(jù))”,用來訓(xùn)練 T5.
最終,文中提到的 24 個(gè)任務(wù)中,擁有 110 億個(gè)參數(shù)的 T5 模型在 17 個(gè)任務(wù)上取得了最先進(jìn)的性能,包括:GLUE 得分 89.7 分,在 CoLA、RTE 和 WNLI 任務(wù)上的性能大幅提升;在 SQuAD 數(shù)據(jù)集上的精確匹配得分 90.06 分;SuperGLUE 得分 88.9,比之前最先進(jìn)的結(jié)果 (84.6) 有非常顯著的提高,非常接近人類的表現(xiàn) (89.8);在 CNN/Daily Mail 抽象總結(jié)任務(wù)中,ROUGE-2-F 得分 21.55。
一句話總結(jié)現(xiàn)實(shí)影響:即使該研究引入的模型仍具有數(shù)十億個(gè)參數(shù),并且可能過于笨重而無法在業(yè)務(wù)環(huán)境中應(yīng)用,但是所提出的思想,仍有助于改善不同 NLP 任務(wù)的性能,包括摘要、問題回答和情感分析。
3、更高效的 Reformer
因?yàn)閰?shù)數(shù)量非常大、需要存儲(chǔ)每一層的激活以進(jìn)行反向傳播、中間前饋層占內(nèi)存使用的很大一部分等諸多原因,Transformer 模型需要大量的計(jì)算資源。
面對(duì)這樣一個(gè) “龐然大物”,往往只有大型研究實(shí)驗(yàn)室才有條件對(duì)其進(jìn)行實(shí)際訓(xùn)練。
為了解決這個(gè)問題,谷歌的研究團(tuán)隊(duì)在 Reformer: The Efficient Transformer 一文中,介紹了幾種可提高 Transformer 效率的技術(shù)。
特別是,他們建議,使用可逆層以僅對(duì)每個(gè)層而不是每個(gè)層存儲(chǔ)一次激活,以及通過局部敏感散列來避免昂貴的 softmax 計(jì)算。在多個(gè)文本任務(wù)上進(jìn)行的實(shí)驗(yàn)表明,該論文引入的 Reformer 模型可以與完整的 Transformer 的性能相匹配,但是運(yùn)行速度更快,內(nèi)存效率更高。Reformer 在表現(xiàn)出更高的速度和內(nèi)存效率的同時(shí),可以與完整的 Transformer 模型媲美,例如,在將機(jī)器從英語翻譯成德語的 newstest2014 任務(wù)上,Reformer 基本模型的 BLEU 得分為 27.6 ,而 Transformer 的 BLEU 得分為 27.3 。
一句話總結(jié)現(xiàn)實(shí)影響:Reformer 實(shí)現(xiàn)的效率改進(jìn)可以助推更廣泛的 Transformer 應(yīng)用程序,特別是對(duì)于依賴于大上下文數(shù)據(jù)的任務(wù),例如文字生成、視覺內(nèi)容生成、音樂的產(chǎn)生、時(shí)間序列預(yù)測(cè)。
該論文被選為 ICLR 2020 的 oral presentation 。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-10.29立即報(bào)名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會(huì)
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
-
11月14日立即報(bào)名>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
推薦專題
- 1 Intel宣布40年來最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價(jià)骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國(guó)產(chǎn)AI芯片公司破產(chǎn)!白菜價(jià)拍賣
- 5 具身智能火了,但規(guī)模落地還需時(shí)間
- 6 國(guó)產(chǎn)英偉達(dá)們,抓緊沖刺A股
- 7 三次錯(cuò)失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來
- 9 英偉達(dá)的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實(shí)力拉滿
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市