亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

蟲蟲首頁(yè)| 資源下載| 資源專輯| 精品軟件
登錄| 注冊(cè)

您現(xiàn)在的位置是:首頁(yè) > 技術(shù)閱讀 >  AAAI 2019 四個(gè)杰出論文獎(jiǎng)?wù)撐慕視?/h2>

AAAI 2019 四個(gè)杰出論文獎(jiǎng)?wù)撐慕視?/h1>
時(shí)間:2024-01-12

人工智能頂級(jí)學(xué)術(shù)會(huì)議 AAAI 2019 (第 33 屆 AAAI)即將在美國(guó)夏威夷開幕,會(huì)議時(shí)間是 1 月 27 日到 2 月 1 日,其中正會(huì)內(nèi)容從 1 月 29 日開始。近日,AAAI 組委會(huì)在官網(wǎng)公布了幾個(gè)論文獎(jiǎng)獎(jiǎng)項(xiàng)的獲獎(jiǎng)情況。

AAAI 2019 杰出論文獎(jiǎng)

How to Combine Tree-Search Methods in Reinforcement Learning

  • 如何把樹搜索方法結(jié)合進(jìn)強(qiáng)化學(xué)習(xí)中

  • 論文地址:

  • https://arxiv.org/abs/1809.01843

  • 論文摘要:有限時(shí)長(zhǎng)的前瞻策略方法在強(qiáng)化學(xué)習(xí)中有著廣泛的應(yīng)用,這類方法在實(shí)證研究中展現(xiàn)出了優(yōu)秀的表現(xiàn)。通常,前瞻策略方法在應(yīng)用的時(shí)候都會(huì)搭配一些具體的規(guī)劃方法,比如蒙特卡洛樹搜索(AlphaZero 中就是這樣做的)。對(duì)于看作是樹搜索的規(guī)劃問題,算法實(shí)現(xiàn)中的一種合理做法是只在葉子節(jié)點(diǎn)上備份值,同時(shí)在根節(jié)點(diǎn)上獲得的值只會(huì)用來更新策略。在這篇論文中,作者們質(zhì)疑了這種方法的表現(xiàn)。具體來說,這種做法并不具備一般化的收縮性,也無法保證收斂。作者們提出的改進(jìn)方法思路直接而且簡(jiǎn)單:用最優(yōu)的樹路徑的返回值備份根節(jié)點(diǎn)的子節(jié)點(diǎn)的值。這會(huì)帶來 γh的收縮過程,其中 γ 是折扣系數(shù),h 是樹的深度。為了表明這種方法的效果,作者們首次提出了一個(gè)名為「多步貪婪持續(xù)性」的想法。作者們編寫了兩個(gè)以上改進(jìn)的算法實(shí)例,并在樹搜索階段和值估計(jì)階段都注入噪聲的狀況下提供了收斂速率結(jié)果。

AAAI 2019 杰出論文獎(jiǎng)榮譽(yù)提名

Solving Imperfect-Information Games via Discounted Regret Minimization

  • 通過折扣后悔最小化解決非完全信息博弈

  • 論文地址:

  • https://arxiv.org/abs/1809.04040

  • 論文摘要:反事實(shí)后悔最小化(CFR)是一類最為火熱的迭代算法,而且在實(shí)際應(yīng)用中也是可以最快逼近解決大規(guī)模非完全信息博弈的方法。這篇論文中作者們提出了一種新的 CFR 變體,它的特點(diǎn)是,1,通過多種不同的方式,給較早的迭代中的后悔值打上折扣(在某些情況下,正值和負(fù)值的折扣比例會(huì)有所不同);2,迭代得到輸出策略的過程中,通過多種不同的方式給不同的迭代賦予不同的權(quán)重;3,使用了一個(gè)非標(biāo)準(zhǔn)的后悔最小化優(yōu)化器;4,使用了「樂觀后悔匹配」。在多種設(shè)定下,這些改進(jìn)都可以讓方法的表現(xiàn)得到大幅度提高。具體來說,作者們提出的某一種變體在所有測(cè)試了的博弈中都比此前的最佳表現(xiàn)算法 CFR+ 表現(xiàn)更好,包括在一些大規(guī)模的真實(shí)設(shè)定中。而此前,CFR+ 一直是一個(gè)令人敬畏的基準(zhǔn)模型,沒有任何別的模型表現(xiàn)比它更好。最后作者們也展示了,與 CFR+ 不同,根據(jù)作者們提出的改進(jìn)點(diǎn)設(shè)計(jì)的新 CFR 變體與現(xiàn)有的許多非完全信息博弈中的剪枝策略都是兼容的,而且其中也有一種和博弈樹中的采樣兼容。

AAAI 2019 杰出學(xué)生論文獎(jiǎng)

Zero Shot Learning for Code Education: Rubric Sampling with Deep Learning Inference

  • 用于編程學(xué)習(xí)的零樣本學(xué)習(xí):通過深度學(xué)習(xí)界面進(jìn)行提示采樣

  • 論文地址:

  • https://arxiv.org/abs/1809.01357

  • 論文摘要:在現(xiàn)代計(jì)算機(jī)科學(xué)教育中,大規(guī)模開放在線課程(MOOCs)在提供在線教育的同時(shí)也會(huì)記錄下數(shù)千小時(shí)的學(xué)習(xí)過程,其中包括了學(xué)生如何解決編程題目的過程。既然手握這么多數(shù)據(jù),這些平臺(tái)也就引起了機(jī)器學(xué)習(xí)領(lǐng)域的研究人員們的興趣,他們開發(fā)了許多新的算法,嘗試以提供自動(dòng)化反饋的方式幫助未來的學(xué)生們更好地學(xué)習(xí)。不過,提供了最初的幾十萬小時(shí)的訓(xùn)練數(shù)據(jù)的學(xué)生們?cè)趺崔k呢?在大多數(shù)教學(xué)場(chǎng)景下(比如教室),想要為課后作業(yè)設(shè)計(jì)監(jiān)督學(xué)習(xí)系統(tǒng)都會(huì)遇到歷史數(shù)據(jù)不足的問題。在這篇論文中,作者們提出了一種人參與其中的「提示采樣」方法,專門用來處理早期的「無樣本學(xué)習(xí)」問題。對(duì)于在入門難度的編程作業(yè)中提供自動(dòng)反饋的任務(wù),相比于以往的需要數(shù)據(jù)喂養(yǎng)的方法,作者們提出的新方法為第一批學(xué)生們提供的反饋有顯著的質(zhì)量提高,而且接近了人類級(jí)別的可信度。提示采樣需要老師付出的精力最小,可以提供和學(xué)生的回答的具體部分相關(guān)的反饋,而且可以使用指導(dǎo)者的語言指出學(xué)生的誤解之處。深度學(xué)習(xí)推理的使用,讓指示采樣在未來有更多基于不同的作業(yè)的學(xué)生數(shù)據(jù)可用時(shí)也能發(fā)揮出更好的表現(xiàn)。作者們從全世界最大的編程教育平臺(tái) Code.org 采集了一個(gè)新數(shù)據(jù)集并在上面展示了方法的表現(xiàn)。

AAAI 2019 杰出學(xué)生論文獎(jiǎng)榮譽(yù)提名

Learning to Teach in Cooperative Multiagent Reinforcement Learning

  • 在多智能體合作強(qiáng)化學(xué)習(xí)中學(xué)習(xí)如何教學(xué)

  • 論文地址:

  • https://arxiv.org/abs/1805.07830

  • 論文摘要:人類個(gè)體的創(chuàng)新行為可以通過溝通教會(huì)別的人,人類集體智慧的提升顯然從這種做法中受益匪淺。與人類社會(huì)群體類似,分布式學(xué)習(xí)系統(tǒng)中的智能體也許也可以從溝通中獲益,可以分享知識(shí)、教授技能。此前已經(jīng)有工作研究過如何通過教學(xué)的方式幫助智能體學(xué)習(xí),但是這些方法做出的假設(shè)讓它們無法在一般的多智能體問題中進(jìn)行教學(xué),又或者先需要它們要解決的問題的領(lǐng)域知識(shí)。這種學(xué)習(xí)教學(xué)的問題本身就有很高的復(fù)雜度,而且還要測(cè)量教學(xué)的長(zhǎng)期影響,這在標(biāo)準(zhǔn)的多智能體協(xié)調(diào)問題上又增加了許多難度。與現(xiàn)有研究不同,這篇論文首次為多智能體環(huán)境中的智慧智能體學(xué)習(xí)教學(xué)問題提出了一個(gè)通用的框架和算法。作者們提出的算法,「學(xué)習(xí)協(xié)調(diào)與學(xué)習(xí)強(qiáng)化」(LeCTR),針對(duì)的是合作多智能體強(qiáng)化學(xué)習(xí)中的點(diǎn)對(duì)點(diǎn)(peer2peer)教學(xué)。方法中的每個(gè)智能體都要學(xué)習(xí)如何指導(dǎo)、指導(dǎo)什么內(nèi)容,然后使用接收到的建議改進(jìn)自己的學(xué)習(xí)。重要的是,這些角色并不是固定的;智能體們會(huì)學(xué)習(xí)在不同的時(shí)間決定別的智能體是學(xué)生還是老師的角色,對(duì)應(yīng)地提供指導(dǎo)或者接受指導(dǎo),以便提高整個(gè)團(tuán)體范圍內(nèi)的表現(xiàn)和學(xué)習(xí)能力。與當(dāng)前最好的方法之間的比較表明,作者們提出的教學(xué)智能體不僅顯著地學(xué)習(xí)更快,而且也可以在現(xiàn)有方法無法解決的問題中學(xué)會(huì)協(xié)調(diào)。

AAAI 2019 經(jīng)典論文獎(jiǎng)

Content-Boosted Collaborative Filtering for Improved Recommendations

  • 內(nèi)容加速的合作式篩選帶來更好的推薦

  • 這篇論文來自第 18 屆 AAAI,即 AAAI 2002

  • 獲獎(jiǎng)理由:這篇論文展示的方法是推薦系統(tǒng)中基于內(nèi)容的和合作式過濾方法的補(bǔ)充

  • 論文一作 Prem Melville 將在大會(huì)中發(fā)表演講

  • 論文地址:

  • https://www.cs.utexas.edu/~ml/papers/cbcf-aaai-02.pdf

完整 AAAI 2019 會(huì)議秩序冊(cè)參見:

https://aaai.org/Conferences/AAAI-19/wp-content/uploads/2019/01/AAAI19.Program.pdf

文章來源:雷鋒網(wǎng)


IEEE Spectrum

《科技縱覽》

官方微信公眾平臺(tái)



往期推薦

2019丘成桐中學(xué)科學(xué)獎(jiǎng)報(bào)名啟動(dòng)

清華NLP實(shí)驗(yàn)室劉知遠(yuǎn):如何寫一篇合格的NLP論文

ICCV 2019論文投稿數(shù)量破紀(jì)錄,中科院、清華名列前茅

主站蜘蛛池模板: 略阳县| 宜城市| 凯里市| 武汉市| 陆河县| 盱眙县| 都昌县| 龙江县| 巴楚县| 龙陵县| 汤阴县| 桐梓县| 塘沽区| 姜堰市| 湖口县| 五华县| 淮阳县| 凤山市| 桑日县| 阳西县| 无为县| 泾源县| 兴化市| 麻阳| 大同县| 修水县| 金山区| 米林县| 沧州市| 天等县| 紫云| 旬邑县| 老河口市| 都江堰市| 江达县| 和顺县| 克东县| 嘉义县| 张北县| 明水县| 双桥区|