訂閱
糾錯
加入自媒體

深蘭科技多條推理任務(wù)解決方案分享

2021-06-09 10:44
AI世界
關(guān)注

2021年6月6日-11日,自然語言處理(NLP)領(lǐng)域的頂級會議NAACL在線上舉辦。深蘭科技DeepBlueAI團隊參加了Multi-Hop Inference Explanation Regeneration (TextGraphs-15) 共享任務(wù)比賽,并獲得了第一,該方案多用于科學(xué)知識問答等領(lǐng)域。同賽道競技的還有騰訊、哈爾濱工業(yè)大學(xué)組成的團隊以及新加坡科技設(shè)計大學(xué)團隊等。

圖1 成績排名

NAACL全稱為 Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies,與ACL、EMNLP并稱NLP領(lǐng)域的三大頂會。

冠軍方案分享


任務(wù)介紹

多條推理(Multi-Hop Inference)任務(wù)是結(jié)合多條信息去解決推理任務(wù),如可以從書中或者網(wǎng)絡(luò)上選擇有用的句子,或者集合一些知識庫的知識去回答他人提出的問題。如下圖所示,如需回答當前問題,要結(jié)合圖中所示三種信息才能完成推理,得到正確的答案。而解釋再生(Explanation Regeneration)任務(wù)是多條推理任務(wù)的基礎(chǔ),其目的是構(gòu)建科學(xué)問題的解釋,每個解釋都表示為一個“解釋圖”,一組原子事實(每個解釋包含1-16個,從9000個事實的知識庫中提。,它們一起構(gòu)成了對回答和解釋問題進行推理解析的詳細解釋。

圖2 任務(wù)示例

對于當前任務(wù),舉辦方將其定義為一個排序任務(wù),輸入的是問題及其對應(yīng)的正確答案,要求系統(tǒng)能夠?qū)μ峁┑陌虢Y(jié)構(gòu)化知識庫中的原子事實解釋進行排序,以便排名靠前的原子事實解釋能夠為答案提供更加詳細和確切的說明。

數(shù) 據(jù)

此共享任務(wù)中使用的數(shù)據(jù)包含從 AI2 推理挑戰(zhàn) (ARC) 數(shù)據(jù)集中提取的大約 5,100 道科學(xué)考試題,以及從 WorldTree V2.1[2] 解釋中提取的正確答案的事實解釋語料庫,并在此基礎(chǔ)上增加了專家生成的相關(guān)性評級。支持這些問題及其解釋的知識庫包含大約 9,000 個事實,知識庫既可以作為純文本句子(非結(jié)構(gòu)化)也可以作為半結(jié)構(gòu)化表格使用。

方 案

該任務(wù)為一個排序任務(wù),具體表現(xiàn)為給定問題和答案,將知識庫中的9,000個原子事實解釋進行排序,評價方式為NDCG。方案主要由召回和排序兩部分組成,第一步先召回Top-K(k> 100)個解釋,第二步對召回的Top-K個解釋進行排序。針對召回和排序任務(wù),如果直接采用 Interaction-Based(交互型,即問題文本和事實解釋在模型中存在信息交互) 類型的網(wǎng)絡(luò),計算量將巨大,因此交互型網(wǎng)絡(luò)在當前的任務(wù)中無法使用,團隊最終采用了向量化檢索的方式進行排序。

為了提取更深的語義信息生成比較好的特征向量,團隊沒有采用TF-IDF、BM25、DSSM[3]等常用的排序模型,而是采用了當前比較流行的預(yù)訓(xùn)練模型作為特征提取器,結(jié)合Triplet loss[4]訓(xùn)練了一個Triplet Network來完成向量化排序,其中在召回部分和排序部分均采用Triplet Network。

圖3 Triplet loss

Triplet loss如圖3所示,輸入樣本對是一個三元組,這個三元組

由一個錨點樣本

,一個正樣本

,一個負樣本組成

。其目標是錨點樣本與負樣本之間的距離

與錨點樣本和正樣本之間的距離

之差大于一個閾值m ,可以表示為:

。

對于簡單容易學(xué)習的樣本

,對比于正樣本來說,負樣本和錨點樣本已經(jīng)有足夠的距離了(即是大于m ),此時loss為0,網(wǎng)絡(luò)參數(shù)將不會繼續(xù)更新,對于其他樣本loss>0 網(wǎng)絡(luò)參數(shù)可以正常更新。

模 型

針對當前任務(wù),如下圖所示,錨點(Anchor)樣本為問題和答案連接的文本,正樣本(Positive)為問題對應(yīng)的解釋文本,負樣本(Negative)為其他隨機選擇與正樣本不同的解釋文本,其中他們?nèi)齻輸入共享一套預(yù)訓(xùn)練語言模型(Pre-trained language model :PLM)參數(shù)。訓(xùn)練時將上述三個文本輸入到PLM模型中,選取PLM模型的所有Token 向量平均作為輸出,將三個輸入向量經(jīng)過Triplet Loss 得到損失值完成模型的訓(xùn)練。

圖4 模型圖

負 采 樣

為了更好地訓(xùn)練模型,團隊在召回階段采用了三種不同的負采樣方式:

全局隨機負采樣,即在9,000個解釋文本中隨機選取一個不是正樣本的樣本作為負樣本;

Batch內(nèi)負采樣,即在當前Batch內(nèi)選取其他問題的對應(yīng)的解釋正樣本,作為當前問題的負樣本;

相近樣本負采樣,在同一個表中隨機選取一個樣本作為負樣本,因為同一個表中的樣本比較相近。

在排序階段同樣采取了三種不同的負采樣方式:

Top-K 隨機負采樣,即在在召回的Top-K個樣本中隨機選取一個負樣本;

Batch內(nèi)負采樣,和召回階段相同;

Top-N 隨機負采樣,為了強化前面一些樣本的排序效果,增大了前面N個樣本的采樣概率(N遠遠小于K)。

實 驗

團隊采用了兩種預(yù)訓(xùn)練模型RoBERTa[5] 和ERNIE 2.0[6],并將兩個模型的預(yù)測結(jié)果進行了融合。在召回和排序階段,采用了同樣的參數(shù),主要參數(shù)如采用三種負采樣方式,每種負采樣方式選取16個樣本,最終的batch size為48,epoch為15。同時,使用了Adam優(yōu)化器并采用了學(xué)習率衰減策略,從1e-5衰減到0。

團隊分別評測了NDCG @100、NDCG @500、NDCG @1000、NDCG @2000的結(jié)果,最終效果如下表所示,其中Baseline為TFIDF模型、Recall為召回階段、Re-ranker為針對召回的結(jié)果重新排序的結(jié)果。從表中可以看出基于預(yù)訓(xùn)練模型的方法對比Baseline有著很大的提升,同時重排也有著顯著的提升,同時從排行榜中可以看出DeepBlueAI團隊的模型對比他人也有著較大的領(lǐng)先。

Table 1 The final results compared with different models

參考文獻

[1] Clark P, Cowhey I, Etzioni O, et al. Think you have solved question answering? try arc, the ai2 reasoning challenge[J]. arXiv preprint arXiv:1803.05457, 2018.

[2] Xie Z, Thiem S, Martin J, et al. Worldtree v2: A corpus of science-domain structured explanations and inference patterns supporting multi-h(huán)op inference[C]//Proceedings of The 12th Language Resources and Evaluation Conference. 2020: 5456-5473.

[3] Huang, Po-Sen, et al. "Learning deep structured semantic models for web search using clickthrough data." *Proceedings of the 22nd ACM international conference on Information & Knowledge Management*. 2013.

[4] Schroff, Florian, Dmitry Kalenichenko, and James Philbin. "Facenet: A unified embedding for face recognition and clustering." *Proceedings of the IEEE conference on computer vision and pattern recognition*. 2015.

[5] Liu Y, Ott M, Goyal N, et al. Roberta: A robustly optimized bert pretraining approach[J]. arXiv preprint arXiv:1907.11692, 2019.

[6] Sun Y, Wang S, Li Y, et al. Ernie 2.0: A continual pre-training framework for language understanding[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(05): 8968-8975.

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號