无码AV大香线蕉伊人久久APP,亚洲呦AV一区二区三区,在线日本va午夜中文字幕

2020 年 10 篇必讀的 NLP 突破論文 LIST

2020-12-30 15:27

盡管 2020 年是充滿挑戰(zhàn)的一年，但人工智能學(xué)術(shù)研究并未因此停滯，仍然誕生了許多有意義的技術(shù)突破。在 NLP 領(lǐng)域，OpenAI 的 GPT－3 可能是其中最 “出圈” 的，但除它之外，肯定還有很多其他研究論文值得關(guān)注。

整體來看，2020 年的主要 NLP 研究進(jìn)展仍以大型預(yù)訓(xùn)練語言模型為主，特別是 transformers。今年出現(xiàn)了許多有趣的更新，使得 transformers 架構(gòu)更加高效，更適用于長(zhǎng)文檔。

另一個(gè)熱點(diǎn)話題與 NLP 模型在不同應(yīng)用中的評(píng)估有關(guān)。業(yè)界仍然缺乏普適的評(píng)估方法以清晰定義一個(gè)模型究竟哪里失敗了，以及如何修復(fù)這些問題。

另外，隨著 GPT－3 等語言模型能力的不斷增強(qiáng)，對(duì)話式人工智能正受到新一輪的關(guān)注。聊天機(jī)器人正在不斷改進(jìn)，今年頂級(jí)技術(shù)公司推出的多款聊天機(jī)器人（例如 Meena 和 Blender 等）令人印象深刻。

在 2020 年年尾，國(guó)外 AI 技術(shù)博客 topbots．com 總結(jié)了 2020 年的 10 篇重要機(jī)器學(xué)習(xí)研究論文，入選論文也多為今年的頂會(huì)論文獎(jiǎng)斬獲者，具有較高的權(quán)威度，“數(shù)據(jù)實(shí)戰(zhàn)派” 在此基礎(chǔ)上有所延伸，以便讓讀者對(duì)今年的 NLP 研究進(jìn)展有一個(gè)大致的了解，當(dāng)然，名單之外，也仍有很多突破性的論文值得閱讀。也歡迎讀者后臺(tái)留言與我們交流反饋。

2020 年 10 篇必讀的 NLP 突破論文 LIST：

1．WinoGrande： An Adversarial Winograd Schema Challenge at Scale

2．Exploring the Limits of Transfer Learning with a Unified Text－to－Text Transformer

3．Reformer： The Efficient Transformer

4．Longformer： The Long－Document Transformer

5．ELECTRA： Pre－training Text Encoders as Discriminators Rather Than Generators

6．Language Models are Few－Shot Learners

7．Beyond Accuracy： Behavioral Testing of NLP models with CheckList

8．Tangled up in BLEU： Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics

9．Towards a Human－like Open－Domain Chatbot

10．Recipes for Building an Open－Domain Chatbot

1、WinoGrande 挑戰(zhàn)

WSC 挑戰(zhàn)是一個(gè)人類常識(shí)推理的測(cè)評(píng)集。它包含了 273 個(gè)由專家設(shè)計(jì)的問題，這些問題無法單純依靠統(tǒng)計(jì)模型來解決。但是，最近的語言模型在這個(gè)測(cè)試集上取得了 90％的準(zhǔn)確率。這就提出了一個(gè)問題，即語言模型是真正學(xué)會(huì)了推理，還是僅僅依靠一些對(duì)數(shù)據(jù)集的偏好？

為回答這個(gè)問題，華盛頓大學(xué)艾倫人工智能研究所的一支團(tuán)隊(duì)提出了一個(gè)新的挑戰(zhàn) ——WINOGRANDE，一個(gè)用于常識(shí)推理的新的大規(guī)模數(shù)據(jù)集。WINOGRANDE 是對(duì) WSC 挑戰(zhàn)的升級(jí)，同時(shí)增加了問題的難度和規(guī)模。

WINOGRANDE 的開發(fā)有兩大關(guān)鍵：在眾包設(shè)計(jì)過程中，眾包人員需要寫出符合 WSC 要求并包含某些 anchor words 的雙句子，最終收集的問題會(huì)通過一組眾包工作者進(jìn)行驗(yàn)證。在收集的 77，000 個(gè)問題中，有 53K 被視為有效。

另一個(gè)關(guān)鍵在于研究人員開發(fā)用于系統(tǒng)減少偏差的新穎算法 AfLite，將出現(xiàn)的人類可檢測(cè)偏差巧妙轉(zhuǎn)換為了基于嵌入的機(jī)器可檢測(cè)的偏差。應(yīng)用 AfLite 算法后，去除偏見的 WinoGrande 數(shù)據(jù)集包含 44K 樣本。

在 WINOGRANDE 測(cè)試集上，現(xiàn)在最好的方法只能達(dá)到 59．4 – 79．1％的準(zhǔn)確率，比人類表現(xiàn)（94．0％）低 15％－35％。

一句話總結(jié)現(xiàn)實(shí)影響：有助于探索減少系統(tǒng)偏差的新算法，并避開其他 NLP 基準(zhǔn)的偏差。

這篇文章獲得了 AAAI2020 的最佳論文獎(jiǎng) （Outstanding Paper Award）。

2、打造更強(qiáng)大的 Transformer

Exploring the Limits of Transfer Learning with a Unified Text－to－Text Transformer 一文中，谷歌研究團(tuán)隊(duì)建議在 NLP 中采用統(tǒng)一的轉(zhuǎn)移學(xué)習(xí)方法，目標(biāo)是在該領(lǐng)域樹立一個(gè)新的標(biāo)準(zhǔn)。為此，他們提出將每個(gè) NLP 問題都視為一個(gè) ＂文本到文本＂的問題，這樣的框架將允許在不同的任務(wù)中使用相同的模型、目標(biāo)、訓(xùn)練過程和解碼過程，包括總結(jié)、情感分析、問題回答和機(jī)器翻譯。

研究人員將他們?yōu)榇舜蛟斓哪Ｐ�，稱為文本到文本傳輸轉(zhuǎn)化器（Transfer Text－to－Text Transformer，T5），并在大量網(wǎng)絡(luò)抓取數(shù)據(jù)的語料庫(kù)上對(duì)其進(jìn)行訓(xùn)練。

通過探索和比較現(xiàn)有的技術(shù)，T5 的誕生為 NLP 領(lǐng)域的發(fā)展提供一個(gè)全面的視角。特別是提出把每個(gè) NLP 問題都當(dāng)作文本到文本的任務(wù)來處理，為 NLP 的遷移引入了新的方法。由于在原始輸入句子中添加了特定任務(wù)的前綴（例如，＂將英語翻譯成德語：＂，＂總結(jié)：＂），T5 可以理解應(yīng)該執(zhí)行哪些任務(wù)。

伴隨著 T5 的誕生，還有一個(gè)名為 C4 的數(shù)據(jù)集。研究團(tuán)隊(duì)從 Common Crawl（一個(gè)公開的網(wǎng)頁存檔數(shù)據(jù)集，每個(gè)月大概抓取 20TB 文本數(shù)據(jù)）里整理出了 750 GB 的訓(xùn)練數(shù)據(jù)，取名為 “Colossal Clean Crawled Corpus （超大型干凈爬取數(shù)據(jù)）”，用來訓(xùn)練 T5．

最終，文中提到的 24 個(gè)任務(wù)中，擁有 110 億個(gè)參數(shù)的 T5 模型在 17 個(gè)任務(wù)上取得了最先進(jìn)的性能，包括：GLUE 得分 89．7 分，在 CoLA、RTE 和 WNLI 任務(wù)上的性能大幅提升；在 SQuAD 數(shù)據(jù)集上的精確匹配得分 90．06 分；SuperGLUE 得分 88．9，比之前最先進(jìn)的結(jié)果（84．6）有非常顯著的提高，非常接近人類的表現(xiàn) （89．8）；在 CNN／Daily Mail 抽象總結(jié)任務(wù)中，ROUGE－2－F 得分 21．55。

一句話總結(jié)現(xiàn)實(shí)影響：即使該研究引入的模型仍具有數(shù)十億個(gè)參數(shù)，并且可能過于笨重而無法在業(yè)務(wù)環(huán)境中應(yīng)用，但是所提出的思想，仍有助于改善不同 NLP 任務(wù)的性能，包括摘要、問題回答和情感分析。

3、更高效的 Reformer

因?yàn)閰?shù)數(shù)量非常大、需要存儲(chǔ)每一層的激活以進(jìn)行反向傳播、中間前饋層占內(nèi)存使用的很大一部分等諸多原因，Transformer 模型需要大量的計(jì)算資源。

面對(duì)這樣一個(gè) “龐然大物”，往往只有大型研究實(shí)驗(yàn)室才有條件對(duì)其進(jìn)行實(shí)際訓(xùn)練。

為了解決這個(gè)問題，谷歌的研究團(tuán)隊(duì)在 Reformer： The Efficient Transformer 一文中，介紹了幾種可提高 Transformer 效率的技術(shù)。

特別是，他們建議，使用可逆層以僅對(duì)每個(gè)層而不是每個(gè)層存儲(chǔ)一次激活，以及通過局部敏感散列來避免昂貴的 softmax 計(jì)算。在多個(gè)文本任務(wù)上進(jìn)行的實(shí)驗(yàn)表明，該論文引入的 Reformer 模型可以與完整的 Transformer 的性能相匹配，但是運(yùn)行速度更快，內(nèi)存效率更高。Reformer 在表現(xiàn)出更高的速度和內(nèi)存效率的同時(shí)，可以與完整的 Transformer 模型媲美，例如，在將機(jī)器從英語翻譯成德語的 newstest2014 任務(wù)上，Reformer 基本模型的 BLEU 得分為 27．6 ，而 Transformer 的 BLEU 得分為 27．3 。

一句話總結(jié)現(xiàn)實(shí)影響：Reformer 實(shí)現(xiàn)的效率改進(jìn)可以助推更廣泛的 Transformer 應(yīng)用程序，特別是對(duì)于依賴于大上下文數(shù)據(jù)的任務(wù)，例如文字生成、視覺內(nèi)容生成、音樂的產(chǎn)生、時(shí)間序列預(yù)測(cè)。

該論文被選為 ICLR 2020 的 oral presentation 。

1 2 3 4 下一頁>