近日,微軟亞研院NLP團隊和微軟Redmond語音對話團隊,在斯坦福大學的會話問答(CoQA)挑戰賽中取得佳績,三項評分全面超越人類水平
媲美人類對話水平
由微軟亞洲研究院(MSRA)的自然語言處理(NLP)團隊和Microsoft Redmond的語音對話團隊的研究人員在斯坦福大學的會話問答(CoQA)挑戰賽中處于領先地位。
在CoQA挑戰中,通過理解文本段落,并回答對話中出現的一系列相互關聯的問題,來衡量機器的性能。微軟目前是唯一一個在模型性能方面達到人類水平的團隊。
CoQA是一個大規模的會話式問答數據集,由來自不同領域的一組文章的對話式問題組成。 MSRA的NLP團隊之前使用斯坦福問題答疑數據集(SQuAD)在單輪問答上達到了人類水平。與SQuAD相比,CoQA中的問題更具會話性,答案可以是自由格式的文本,確保對話中答案的自然性。
CoQA中的問題很短,更傾向于模仿人類對話。此外,第一個問題之后的每個問題都取決于過去的對話內容,使得這些簡短問題對于機器而言更難解析。例如,假設你曾問過系統,“微軟的創始人是誰?”當提出后續問題“他什么時候出生的?”時,其實仍然在談論同一話題。
來自CoQA數據集的一組對話,可以看到新問題與過去的問題之間的邏輯聯系
CoQA,追求對話答案的
自然性和問答系統魯棒性
CoQA是面向建立對話式問答系統的大型數據集,CoQA挑戰的目標是衡量機器對文本的理解能力,以及機器面向對話中出現的彼此相關的問題的回答能力的高低(CoQA的發音是“扣卡”)。
CoQA包含12.7萬個問題和答案,這些內容是從8000多個對話中收集而來的。每組對話都是通過眾籌方式,以真人問答的形式在聊天中獲取的。
CoQA的獨特之處在于:
數據集中的問題是對話式的
答案可以是自由格式的文本
每個答案還附有對話段落中相應答案的理由
這些問題收集自七個不同的領域
CoQA 數據集旨在體現人類對話中的特質,追求答案的自然性和問答系統的魯棒性。在CoQA 中,答案沒有固定的格式,在問題中頻繁出現指代詞,而且有專門用于跨領域測試的數據集。
CoQA具備了許多現有閱讀理解數據集中不存在的挑戰,比如共用參照和實用推理等。因此,CoQA Challenge 也更能反映人類真實對話的場景。
此前,斯坦福大學的自然語言處理小組已經先后發表了 SQuAD 和 SQuAD2.0 數據集。該數據集包含一系列文本和基于文本的問題、答案。針對該數據集提出的任務要求系統閱讀文本后判斷該問題是否可以從文本中得出答案,如果可以回答則從文本中截取某一片段做出回答。
CoQA 與 SQuAD 兩個數據集對比:SQuAD 中約一半都是what型,CoAQ種類更多;SQuAD中沒有共識推斷,CoQA幾乎每組對話都需要進行上下文理解推斷;SQuAD中所有答案均可從原文本中提取,CoQA中這一比例僅為66.8%。
3項評分全面超越人類
為了更好地測試現有模型的泛化能力,CoQA從七個不同的領域收集數據:兒童故事、文學作品、初高中英語試題、新聞、維基百科、Reddit和科學文獻。前五個來源用于訓練、開發和測試集,后兩個僅用于測試集。
CoQA使用F1指標來評估性能。該指標衡量預測答案和Ground truth答案之間的詞匯平均重疊度。域內F1根據與訓練集相同域的測試數據進行評分,此外還會對來自與訓練集不同的域內的測試數據給出域外F1。總體F1是整個測試集的最終得分。
微軟的研究人員采用了一種特殊策略,將機器從其他幾個相關任務中學習的信息用于改進目標機器閱讀理解(MRC)任務的表現。在這種多階段、多任務的微調方法中,研究人員首先在多任務設置下從相關任務中學習MRC的相關背景信息,然后在目標任務上對模型進行微調。
在這兩個階段中都使用了語言建模來輔助任務,以減少會話式問答模型的過擬合。實驗結果證明這種方法是有效的,模型在CoQA挑戰賽中的出色表現進一步證明了這一點。
多級多任務微調模型原理示意圖
在CoQA排行榜上,微軟研究人員于2019年3月29日提交的集合系統的域內、域外和整體F1得分分別達到了89.9 / 88.0 / 89.4。同一會話問答下的人類表現為89.4 / 87.4 / 88.8。
這項成就標志著微軟在Bing等搜索引擎和Cortana等智能助手與人們更自然地互動和提供信息方面取得了重大進展,這些互動更接近于真人之間的交流。盡管如此,一般的機器閱讀理解和問答仍然是自然語言處理中尚未解決的問題。
為了進一步突破機器的能力界限,理解和生成自然語言,微軟團隊表示將繼續致力于打造更強大的預訓練模型。
參考鏈接:
https://www.microsoft.com/en-us/research/blog/machine-reading-systems-are-becoming-more-conversational/?from=groupmessage&isappinstalled=0
相關論文:
https://arxiv.org/abs/1808.07042
文章來源:microsoft
IEEE Spectrum
《科技縱覽》
官方微信公眾平臺
往期推薦