亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

蟲蟲首頁| 資源下載| 資源專輯| 精品軟件
登錄| 注冊

您現在的位置是:首頁 > 技術閱讀 >  讓大模型像學生一樣解數學題,正確率提升14%,微軟的MathPrompter了解一下

讓大模型像學生一樣解數學題,正確率提升14%,微軟的MathPrompter了解一下

時間:2024-02-07
算不對就用各種方法多算幾遍,中間步驟也檢查一下,原來這套教學方法對大模型也管用。
大型語言模型在解決算術推理任務時性能欠佳,經常提供錯誤的答案。與自然語言理解不同,數學問題通常只有一個正確答案,這使得生成準確解決方案的任務對大型語言模型來說更具挑戰性。
為了在一定程度上解決這類問題,來自微軟的研究者從人類解決數學問題的方式中獲得靈感,將其分解為更簡單的多步驟程序,并在每個步驟中利用多種方式來驗證他們的方法。
論文鏈接:
https://arxiv.org/pdf/2303.05398.pdf
具體來說,給定一個問題Q,然后執行以下幾個步驟:
1、生成代數模板:研究者首先生成其對應的代數表達式Q_t,用變量替換數字項。
2、Math-prompt:然后,他們向大型語言模型提供多個prompt P,這些prompt可以以不同的方式分析解決Q_t。例如,P可以是「推導出一個代數表達式」或「編寫一個 Python 函數」等等。按照這個程序,我們最終會得到P的表達式,它根據 Q_t 的變量解析地求解Q_t。
3、計算驗證:通過給Q_t變量分配多個隨機值來評估P的解析解。
4、統計學意義:如果P的解析函數的解在N~5個不同的變量選擇上處于「一致」狀態,那么將Q中的原始值替換為最終解。如果不「一致」,重復步驟(II)、(III)和(IV)。
這篇論文提出的方法 ——MathPrompter,使用了175B參數量的大型語言模型 ——GPT3 DaVinci  completion engine,能夠將模型在MultiArith數據集上的準確率從78.7%提升到92.5%。

方法

由于大型語言模型是生成模型,要確保生成的答案是準確的就變得非常棘手,特別是對于數學推理任務。研究者從學生解決算術問題的過程中獲得啟發。他們縮小了學生為驗證他們的解決方案而采取的幾個步驟,即:
  • 與已知結果相一致。通過將解決方案與已知的結果進行比較,可以評估其準確性并進行必要的調整。當問題是一個有既定解的標準問題時,這一點尤其有用。
  • 多重驗證。從多個角度處理問題并比較結果有助于確認解的有效性,確保其既合理又準確;
  • 交叉檢查。解決問題的過程與最終的答案一樣必要。核實過程中的中間步驟的正確性,可以清楚地了解解的背后的思維過程。
  • 計算驗證。利用計算器或電腦進行算術計算可以幫助驗證最終答案的準確性。
MathPrompter
本文提出的方法——MathPrompter,就是試圖將這種思維過程的一部分轉移到大型語言模型答案生成過程中。圖1概述了MathPrompter解決一個數學推理問題所遵循的步驟。

研究者使用最先進的GPT-3 DaVinci completion engine來完成問答任務。他們使用MultiArith數據集中的以下問題「Q」來演示MathPrompter的解題過程:
問:在一家餐廳,每份成人餐的價格是5美元,兒童免費用餐。如果有一個15人的團體進來,其中8個是兒童,那么這個團體要花多少錢吃飯?
第一步:生成代數模板。首先將問題轉化為代數形式,通過使用鍵值映射將數字替換為變量。在這個例子中,修改后的問題「Q_t」變成了:
Q_t:在一家餐廳,每份成人餐的價格是 A 美元,兒童免費用餐。如果有一個B人的團體進來,其中C個是兒童,那么這個團體要花多少錢吃飯?
映射:{A:5, B:15, C:8} 
第二步:Math-prompt。受到上面提到的多重驗證和交叉檢查思維過程的啟發,研究者使用兩種不同的方法生成Q_t的解析解,即代數方式和Python方式。他們給大型語言模型以下prompt,以便為Q_t生成額外的上下文:
代數prompt:寫一個數學方程并生成以 “answer =” 格式開頭的答案。
Python prompt:編寫一個返回答案的Python函數。
大型語言模型在回應上述prompt時產生了以下輸出表達式: 
上面生成的解析解給用戶提供了一些信息,讓他們了解大型語言模型的「中間思維過程」。加入額外的 prompt 將提高結果的準確性和一致性。這將反過來提高MathPrompter生成更精確和有效的解的能力。
第三步:計算驗證。研究者使用Q_t中輸入變量的多個隨機鍵值映射來評估上一步生成的表達式。為了評估這些表達式,研究者使用了Python的eval ()方法。他們比較輸出結果,看能否在答案中找到一個共識。這也提高了他們對答案正確性、可靠性的信心。一旦表達式在輸出上達成一致,他們就使用輸入Q中的變量值來計算最終的答案,如下所示:
第四步是統計重要性。為了確保在各種表達式的輸出中都能達成共識,研究者在實驗中對第二、三步重復N~5次,并報告觀察到的最頻繁的答案值。

實驗結果

表1比較了MathPrompter與基線模型的性能,顯示了基于few-shot和zero-shot學習的方法的效果。

結果顯示,MathPrompter可以達到92.5%的準確率,遠遠高于其他SOTA模型。
表2列出了一組樣本問題及其各自的輸出、中間步驟和由MathPrompter和SOTA模型產生的最終答案。
該表顯示了Kojima et al. (2022) 技術的不足之處,以及可以用MathPrompter補救的地方,而MathPrompter就是為了解決這些問題而設計的。例如,生成答案的某個步驟有時會出錯,這可以通過多次運行模型并報告共識結果來避免。此外,Kojima et al. (2022) 的推理步驟可能過于冗長,但Pythonic或Algebraic方法可以解決這個問題,通常需要較少的token。此外,在推理步驟正確的情況下,最終的計算結果可能不正確。MathPrompter通過使用Python的eval () 方法函數解決這個問題。
更多細節請參見原論文。

文章來源:機器之心

IEEE Spectrum

《科技縱覽》

官方微信公眾平臺






往期推薦
IBM的量子飛躍
這家公司能稱霸綠氫領域嗎?

AI大模型出現了人們不可預測的能力

亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频
亚洲最新在线视频| 国产亚洲一区二区在线观看| 国产视频在线观看一区二区| 夜夜嗨av色一区二区不卡| 激情另类综合| 亚洲国内自拍| 在线成人激情黄色| 在线观看中文字幕不卡| 亚洲国产99| 亚洲色图综合久久| 性色av一区二区三区在线观看| 日韩一区二区免费高清| 夜夜嗨av色一区二区不卡| aⅴ色国产欧美| 欧美综合二区| 嫩草伊人久久精品少妇av杨幂| 欧美.日韩.国产.一区.二区| 欧美日韩另类综合| 黑人一区二区三区四区五区| 夜夜爽www精品| 女人香蕉久久**毛片精品| 欧美高清视频免费观看| 欧美伦理在线观看| 欧美片在线播放| 国产一区二区三区高清| 91久久国产综合久久91精品网站| 亚洲综合日韩| 欧美四级伦理在线| 亚洲精品在线一区二区| 久久综合999| 国产日韩欧美另类| 亚洲一区三区在线观看| 欧美日韩一区二区三区在线看| 国产亚洲人成a一在线v站| 亚洲美女毛片| 欧美国产日本| 亚洲精品久久7777| 欧美激情二区三区| 亚洲第一黄色网| 欧美国产日韩在线| 亚洲免费大片| 国产美女精品视频| 久久久久国产精品一区二区| 韩国三级在线一区| 欧美人与禽猛交乱配视频| 一区二区欧美日韩视频| 国内成人精品视频| 媚黑女一区二区| 亚洲丝袜av一区| 韩国三级在线一区| 国产精品久久亚洲7777| 久久精品电影| 亚洲欧美日韩系列| 亚洲欧洲一级| 尤物99国产成人精品视频| 国产精品久久久久久妇女6080 | 亚洲婷婷综合久久一本伊一区| 欧美日韩一区二| 久久免费视频网| 欧美激情中文字幕乱码免费| 欧美国产视频一区二区| 欧美激情中文字幕一区二区| 久久婷婷丁香| 日韩午夜在线播放| 亚洲高清影视| 亚洲国产裸拍裸体视频在线观看乱了中文| 欧美日韩第一区日日骚| 欧美电影免费观看大全| 久久国产加勒比精品无码| 亚洲夜晚福利在线观看| 一区二区不卡在线视频 午夜欧美不卡在 | 国产精品国产成人国产三级| 欧美影院视频| 欧美精品一区二区三区在线看午夜 | 亚洲一区免费观看| 亚洲视频导航| 亚洲一区三区视频在线观看| 国产精品99久久久久久久久| 一区二区三区波多野结衣在线观看| 在线电影国产精品| 日韩小视频在线观看专区| 一区二区免费在线视频| 亚洲欧美日韩精品久久久久| 久久久久久久久久久久久女国产乱| 亚洲欧美变态国产另类| 久久久久久久波多野高潮日日| 久久久综合免费视频| 欧美久久一区| 永久91嫩草亚洲精品人人| 亚洲精品在线观看视频| 亚洲免费综合| 欧美黄色影院| 伊人精品在线| 久久精品欧美日韩| 国产精品久久久久av免费| 亚洲国产天堂久久综合网| 免费一区二区三区| 国产一区二区丝袜高跟鞋图片| 一区二区三区 在线观看视频| 久久精品1区| 国产午夜精品美女视频明星a级 | 亚洲国产一区二区a毛片| 99精品免费| 欧美激情女人20p| 黄色成人91| 蜜桃视频一区| 亚洲国产日韩综合一区| 久久综合久久综合久久综合| 好男人免费精品视频| 欧美专区一区二区三区| 亚洲福利视频二区| 蜜乳av另类精品一区二区| 亚洲网站视频| 欧美午夜免费| 亚洲自拍偷拍一区| 国产一区二区主播在线| 久久精品亚洲热| 亚洲国产精品久久| 欧美日韩专区| 久久av一区二区三区| 影音先锋亚洲一区| 欧美日韩国产在线播放网站| 久久午夜国产精品| 国产一级精品aaaaa看| 久久久国产精品一区二区中文| 激情综合自拍| 国产精品盗摄久久久| 久久久7777| 亚洲一区二区三区成人在线视频精品 | 久久久欧美一区二区| 亚洲茄子视频| 国产视频丨精品|在线观看| 欧美成人午夜激情视频| 新67194成人永久网站| 亚洲精品乱码久久久久久日本蜜臀| 国产美女精品免费电影| 欧美日韩第一区| 欧美成人免费全部| 久久另类ts人妖一区二区| 亚洲免费视频在线观看| 国产精品99久久99久久久二8| 亚洲成色777777女色窝| 国产亚洲欧美色| 国产女主播视频一区二区| 欧美午夜精品久久久久久人妖 | 久久久久九九九九| 亚洲欧美国产日韩中文字幕| 亚洲欧洲另类| 亚洲高清视频一区二区| 亚洲电影欧美电影有声小说| 国产综合婷婷| 亚洲第一精品夜夜躁人人躁| 精品动漫3d一区二区三区| 在线精品一区二区| 亚洲精选在线观看| 午夜激情久久久| 久久国产一区二区三区| 老司机免费视频久久| 欧美高清一区二区| 欧美日韩一区二区三区免费| 国产精品午夜春色av| 狠狠v欧美v日韩v亚洲ⅴ| 一区二区三区在线观看欧美| 最新国产成人在线观看 | 日韩一级成人av| 正在播放亚洲| 欧美.www| 国产综合久久久久久鬼色| 一区二区三区成人| 欧美寡妇偷汉性猛交| 国产婷婷色综合av蜜臀av| 夜夜嗨av色综合久久久综合网| 久久精品一区二区国产| 国产精品magnet| 亚洲精品国久久99热| 久久精品30| 国产欧美91| 毛片一区二区三区| 国产在线精品成人一区二区三区| 一区二区三区波多野结衣在线观看| 久久日韩粉嫩一区二区三区| 国产精品另类一区| 亚洲精品免费电影| 亚洲影院免费观看| 国产精品久久999| 亚洲欧美日韩精品久久奇米色影视| 欧美激情视频一区二区三区在线播放 | 欧美日韩国产bt| 在线精品国产欧美| 毛片av中文字幕一区二区| 在线国产日韩| 欧美不卡视频一区发布| 亚洲电影天堂av| 欧美破处大片在线视频| 亚洲图片欧洲图片日韩av| 国产亚洲永久域名| 免费观看久久久4p| 在线视频一区观看| 国产精品日韩久久久| 久久久久免费|