久久99青青,香蕉久久夜色精品国产,国产精品久久久久久妇女 ,激情丁香综合

首頁 > 科技原創(chuàng) > 科技原創(chuàng) > 科學(xué)家用STEM數(shù)據(jù)集評測神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ),加快人工智能實現(xiàn)進(jìn)程

科學(xué)家用STEM數(shù)據(jù)集評測神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ),加快人工智能實現(xiàn)進(jìn)程

發(fā)布時間:2024-05-01 15:08:46

理工科 STEM 技能,是解決真實世界中諸多問題的基礎(chǔ)。譬如,探索蛋白質(zhì)結(jié)構(gòu)、證明數(shù)學(xué)定理、發(fā)現(xiàn)新藥物等。(編者注:STEM,即科學(xué)、技術(shù)、工程和數(shù)學(xué)四門學(xué)科英文首字母的縮寫。)

 

而對于人工智能領(lǐng)域來說,理解視覺-文本的多模態(tài)信息,則是掌握 STEM 技能的關(guān)鍵。

 

可是,現(xiàn)有的數(shù)據(jù)集主要集中在檢驗?zāi)P徒鉀Q專家級別難題的能力上,難以反映模型在基礎(chǔ)知識方面的掌握情況。并且,其往往只考慮文本信息而忽略視覺信息,又或者只關(guān)注 STEM 中某單一學(xué)科的能力。

 

另外,由于缺少細(xì)粒度的信息,該領(lǐng)域的科學(xué)家也無法更好地分析與改進(jìn)神經(jīng)網(wǎng)絡(luò)模型存在的薄弱之處。

 

所以,模型在這種情況下生成的內(nèi)容,既無法讓人充分信任,又不能幫助指導(dǎo)未來模型開發(fā)的方向。

 

更重要的是,由于缺乏和人類表現(xiàn)相關(guān)的數(shù)據(jù),因此科學(xué)家也不可能獲取到更具實際意義的模型表現(xiàn)參考,嚴(yán)重阻礙了人工智能的健康發(fā)展。

 

為了攻克上述局限性,近期,來自北京大學(xué)和美國圣路易斯華盛頓大學(xué)的研究團(tuán)隊,不僅成功完成了首個多模態(tài) STEM 數(shù)據(jù)集的構(gòu)建,還在此基礎(chǔ)上實現(xiàn)對大語言模型與多模態(tài)基礎(chǔ)模型的評測。

 

結(jié)果發(fā)現(xiàn),即使是目前最先進(jìn)的人工智能模型,其 STEM 基礎(chǔ)水平也存在較大的提升空間,尚不具備解決更有難度的現(xiàn)實問題的能力。也就是說,與人類智能相比,目前人工智能的水平還有一定差距。

 

 

圖丨綜合評測效果(來源:ICLR 2024)

 

近日,相關(guān)論文以《測量神經(jīng)網(wǎng)絡(luò)模型的視覺-語言理工科技能》(Measuring Vision-Language STEM Skills of Neural Models)為題收錄于 2024 國際表征學(xué)習(xí)大會(ICLR 2024,International Conference on Learning Representations 2024)上[1]。

 

據(jù)悉,該會議將于今年 5 月 7 日至 5 月 11 日在奧地利的首都維也納召開。

 

STEM 數(shù)據(jù)集相關(guān)資源如下。

 

評測鏈接:
https://huggingface.co/spaces/stemdataset/stem-leaderboard

數(shù)據(jù)集頁面:
https://huggingface.co/datasets/stemdataset/STEM

代碼 GitHub:
https://github.com/stemdataset/STEM

 

北京大學(xué)博士研究生沈劍豪和袁野是共同第一作者,圣路易斯華盛頓大學(xué)王晨光助理教授和北京大學(xué)張銘教授擔(dān)任共同通訊作者。王晨光助理教授博士畢業(yè)于北京大學(xué),導(dǎo)師是張銘教授。

 

圖丨相關(guān)論文(來源:ICLR 2024)

 

 

搭建 STEM 數(shù)據(jù)集,全方位評測神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)理工科能力

 

據(jù)王晨光介紹,課題組在確定研究目標(biāo)和題目之后,便開始著手收集數(shù)據(jù)。

 

一向擅長于算法研究的團(tuán)隊成員,在面對爬蟲編寫、數(shù)據(jù)清洗和去重等工作時不免有些犯難。盡管如此,他們還是迎難而上,設(shè)計了多種用于數(shù)據(jù)清洗和去重的規(guī)則,最終成功獲得了首個多模態(tài) STEM 數(shù)據(jù)集。

 

圖丨左起;王晨光、張銘、沈劍豪、袁野、Srbuhi Mirzoyan(來源:課題組)

 

值得一提的是,該數(shù)據(jù)集包含 448 個 STEM 技能,共 1073146 道題目,是目前涵蓋面最廣、包含題目最多的多模態(tài) STEM 題目數(shù)據(jù)集。

 

圖丨相關(guān)論文(來源:ICLR 2024)

 

接著,他們開始針對數(shù)據(jù)集進(jìn)行評測與分析。

 

由于該數(shù)據(jù)集包含科目(科學(xué)、技術(shù)、工程、數(shù)學(xué))、技能和年級三個維度標(biāo)簽,因此研究人員選擇從這三個維度切入,對每個維度的數(shù)據(jù)數(shù)量分布、問題類型分布、問題長度分布等信息進(jìn)行了詳盡分析。

 

與此同時,他們也針對每個科目,按照 6:2:2 的比例,劃分了訓(xùn)練集、驗證集與未公開標(biāo)簽的測試集。

 

隨后,研究人員又設(shè)計了模型評測方案。

 

其中,在選擇評測指標(biāo)時,他們除了關(guān)注準(zhǔn)確率,還重點使用全球范圍內(nèi)最被認(rèn)可的在線習(xí)題網(wǎng)站之一(https://www.ixl.com/)的考試分?jǐn)?shù)。

 

后者是基于該網(wǎng)站千萬用戶的真實考試成績得出的,與學(xué)生對知識的掌握程度呈正相關(guān)。當(dāng)分?jǐn)?shù)達(dá)到 90 以上(通常是小學(xué)生水平)時,就代表學(xué)生掌握了該技能。

 

“我們讓模型模仿考生在線答題,再將得到的考試分?jǐn)?shù)與真實人類的考試結(jié)果進(jìn)行比較。”王晨光表示。

 

這也正是該工作的一大亮點。原因在于,過去將人類的表現(xiàn)與人工智能做比較時,前者都是由相對較小的樣本(例如幾百到幾千人)總結(jié)出的,而該團(tuán)隊的結(jié)果卻是基于千萬量級的數(shù)據(jù)得到的,可信度更高。

 

然后,在模型評測環(huán)節(jié),研究人員選擇使用當(dāng)前主流的大基礎(chǔ)模型,包括 OpenAI 的多模態(tài) CLIP 模型,以及大語言模型 ChatGPT 的 GPT3.5-Turbo 版本。

 

前者根據(jù)模型判斷問題選項與圖片的匹配程度來做出選擇,后者則利用字幕模型為圖片生成描述,并利用語言模型選擇回答。

 

“我們評測了不同規(guī)模的 CLIP 模型與 GPT3.5-Turbo 模型,發(fā)現(xiàn)在 0 樣本的設(shè)置下,模型的錯誤率很高。這表明現(xiàn)有模型無法直接真正地掌握這些知識。”王晨光表示。

 

進(jìn)一步地,他們又利用劃分出的訓(xùn)練數(shù)據(jù)集,對 CLIP 模型進(jìn)行了微調(diào),發(fā)現(xiàn)微調(diào)后的模型取得了顯著的效果提升,綜合準(zhǔn)確率從 54.4% 提升至 76.3%。不過,這離 90 分依然有一定差距。

 

除此之外,該課題組還對模型結(jié)果的各個側(cè)面進(jìn)行了分析。

 

具體來說,首先,在年級層面,他們發(fā)現(xiàn)模型的測驗分?jǐn)?shù)隨著題目所屬年級的升高而降低,這符合年級越高的題目難度就越高的預(yù)期。

 

圖丨測驗分?jǐn)?shù)隨年級變化(來源:ICLR 2024)

 

其次,通過模型在不同技能上的評測表現(xiàn),他們發(fā)現(xiàn)模型在抽象知識與復(fù)雜推理任務(wù)上的表現(xiàn)欠佳。

 

另外,過去的經(jīng)驗表明,模型應(yīng)該對正確答案有著較高的預(yù)測置信度,這代表著模型的校準(zhǔn)度較好。

 

“我們發(fā)現(xiàn)在我們的數(shù)據(jù)集上微調(diào)過的模型,表現(xiàn)出了良好的校準(zhǔn)性,模型的置信度與準(zhǔn)確率呈現(xiàn)清晰的相關(guān)性。”王晨光說。

 

另一方面,他們在研究模型規(guī)模與效果之間關(guān)系的過程中,也發(fā)現(xiàn)了清晰的正相關(guān)關(guān)系。

 

與此同時,他們還分析了模型表現(xiàn)與問題長度、問題類型、選項數(shù)量等其它因素之間的關(guān)系,發(fā)現(xiàn)隨著問題變長、選項數(shù)量變多和樣例數(shù)量變少,模型的表現(xiàn)都會下降。

 

除此之外,他們也評估了準(zhǔn)確率與測驗考試分?jǐn)?shù)這兩種指標(biāo)的相關(guān)性,發(fā)現(xiàn)它們同樣呈現(xiàn)出顯著的正相關(guān)。

 

“最終,在整體的評價指標(biāo)上,我們確認(rèn)即使是微調(diào)過的模型,與人類對應(yīng)年級學(xué)生水平相比也有顯著差距。基于此,我們?nèi)匀恍枰獙ふ腋行У姆椒?,使模型掌?STEM 知識技能。”王晨光說。

 

圖丨與人類表現(xiàn)比較(來源:ICLR 2024)

 

 

嘗試推出更多評測大語言模型的數(shù)據(jù)集,加快通用人工智能實現(xiàn)的進(jìn)程

 

顯而易見,在該項研究中,STEM 數(shù)據(jù)集發(fā)揮了關(guān)鍵作用。

 

它不僅有利于模型增強 STEM 的基礎(chǔ)知識,還能幫助研究人員評估模型對于基礎(chǔ) STEM 技能掌握的程度,并通過細(xì)粒度的數(shù)據(jù)分析有針對性地改進(jìn)模型。

 

王晨光表示,他和團(tuán)隊期待該數(shù)據(jù)集可以進(jìn)一步推動當(dāng)前多模態(tài)大模型的研究,朝著模型能夠充分理解 STEM 技能、解決真實場景下 STEM 問題的目標(biāo)更進(jìn)一步。

 

并且,也希望發(fā)布的測試集可以作為評測人工智能基礎(chǔ)模型能力的標(biāo)準(zhǔn)評測之一,得到社區(qū)的廣泛使用。

 

“更重要的是,我們提供的與大規(guī)模人類(主要是小學(xué)生)真實水平的比較,可以作為未來模型開發(fā)的目標(biāo)和參考,以加快通用人工智能目標(biāo)實現(xiàn)的進(jìn)程。”他說。

 

目前,基于該數(shù)據(jù)集,該課題組已經(jīng)成功評測了神經(jīng)網(wǎng)絡(luò)模型在基礎(chǔ)教育中的理工科能力。

 

接下來,他們一方面計劃繼續(xù)收集數(shù)據(jù),并嘗試推出諸如人文學(xué)科、社會學(xué)科等領(lǐng)域的數(shù)據(jù)集,以更好地評測大語言模型在其他關(guān)鍵學(xué)科上的能力。

 

在這方面值得關(guān)注的是,該團(tuán)隊最近已經(jīng)提出了一個新的社會學(xué)科數(shù)據(jù)集 Social,包含較大規(guī)模的文本評估數(shù)據(jù),可用來評測大語言模型的社會學(xué)科基礎(chǔ)能力。

 

進(jìn)一步地,還設(shè)計了一種多智能體交互的方法,能夠增強大語言模型在 Social 數(shù)據(jù)集上的表現(xiàn)。

 

相關(guān)論文以《衡量大語言模型的社會規(guī)范》(Measuring Social Norms of Large Language Models)為題收錄于計算語言學(xué)協(xié)會北美分會 2024 年年會(NAACL 2024,2024 Annual Conference of the North American Chapter of the Association for Computational Linguistics)上[2]。

 

據(jù)悉,該會議將于今年 6 月 16 日至 6 月 21 日在墨西哥的首都墨西哥城召開。

 

另一方面,他們也打算通過研究模型在細(xì)粒度數(shù)據(jù)集上的表現(xiàn),找出模型能力不足的部分,并研究如何改進(jìn)。

 

此外,還希望通過結(jié)合檢索的 RAG 方法、設(shè)計特殊的模型架構(gòu)和訓(xùn)練方法,來進(jìn)一步增強模型的基礎(chǔ)能力。

 

“我們相信,只有先在基礎(chǔ)理工科和文科領(lǐng)域?qū)崿F(xiàn)突破,扎實打好基礎(chǔ),人工智能才有被進(jìn)一步應(yīng)用的可能性。”王晨光如是說。

科技原創(chuàng)更多>>

小米汽車官方披露1月交付數(shù)據(jù),單月交付量突破39000臺,行業(yè)多家權(quán)威媒體同步確認(rèn)該數(shù)據(jù) 欣旺達(dá)重新提交港股招股書申請:核心經(jīng)營穩(wěn)健,IPO進(jìn)程穩(wěn)步推進(jìn) 天齊鋰業(yè)終審敗訴!全球最大鋰鹽湖保衛(wèi)戰(zhàn)敗了 增幅近20%,科思創(chuàng)大幅提升在華TDI產(chǎn)能 福特與通用汽車就向破產(chǎn)供應(yīng)商First Brands提供預(yù)付款融資展開談判 2025款寶騰X50中期改款發(fā)布:換裝1.5T四缸發(fā)動機 FF阿聯(lián)酋工廠交付兩臺FX Super One 新測試表明AI實際辦公準(zhǔn)確率不足25%,但進(jìn)展比想象更快 三菱汽車宣布下任社長人選岸浦惠介,2026年4月1日正式生效 階躍星辰完成超50億人民幣B+輪融資 印奇出任董事長 38歲姚班天才,又有了新身份 王傳福、魏建軍、李斌、李想們,將在2026年進(jìn)入“超級智力”競賽周期 商業(yè)航天搶灘2026:藍(lán)箭航天、星河動力、中科宇航三大總工程師同臺披露最新時間表 韓國工業(yè)機器人安裝量全球第四 零部件主要從中國進(jìn)口 蔚來樂道已增投超7309塊全新電池,電池翻倍進(jìn)度超90% 2025全球汽車集團(tuán)銷量榜:比亞迪躋身前五 吉利增長飛速 特斯拉申請F(tuán)SD自動駕駛相關(guān)缺陷調(diào)查5周寬限期,美監(jiān)管機構(gòu)批準(zhǔn) 小米18/18 Pro發(fā)布節(jié)奏確認(rèn):9月見 官方確認(rèn)!ChatGPT答案底部將現(xiàn)廣告,付費用戶免打擾 Steam面向開發(fā)者提出新規(guī):應(yīng)說明游戲中哪些玩家可見內(nèi)容使用AI 蘋果App Store測試新設(shè)計:移除廣告藍(lán)色背景 夸爆小米SU7的福特CEO,要花300億梭哈電車 OpenAI全面上線“廉價版”ChatGPT Go訂閱方案:每月8美元 2025年手機銷量基本確定:VIVO第1、小米第2、蘋果第3 日本車企認(rèn)輸:中國車像智能手機,日本車像翻蓋手機 馬斯克萬萬沒想到,華為吹的牛又實現(xiàn)了,激光雷達(dá)降至1000元內(nèi) 12月新勢力最大黑馬誕生:直接進(jìn)前3,比小米汽車銷量還高 壁仞虧大了?跑到香港上市,市值僅摩爾線程、沐曦三分之一 被高估的特斯拉:銷量為比亞迪三分之一,市值卻是11倍 感謝華為、寒武紀(jì)等廠商努力,中國市場“一英獨大”時代終結(jié)
久久99青青,香蕉久久夜色精品国产,国产精品久久久久久妇女 ,激情丁香综合
国产精品日本一区二区三区在线| 日韩欧美另类一区二区| 91青青国产在线观看精品| 国产精品入口久久| 欧美a在线观看| 韩国久久久久久| 午夜一区在线| 91精品婷婷色在线观看| 日韩在线免费| 噜噜噜久久亚洲精品国产品小说| 欧美伊人影院| 国产aⅴ精品一区二区三区久久| 国产精品亚洲二区| 欧美三级网址| 婷婷精品在线观看| 国产精品s色| 91成人超碰| 久久激情综合网| 精品国产乱码| 久久福利影视| 亚洲黄色中文字幕| 久色成人在线| 日本午夜精品一区二区三区电影| 国产精品白浆| 91久久久久| 欧美久久香蕉| 97精品中文字幕| 伊人久久婷婷| 国产精品久久久亚洲一区| 丝袜美腿一区| 国产精品一国产精品| 综合色一区二区| 成人精品天堂一区二区三区| 热久久国产精品| 久久青草久久| 久久99精品久久久野外观看| 2023国产精品久久久精品双| 麻豆精品视频在线观看视频| 99香蕉国产精品偷在线观看| 国产日韩欧美一区在线| 久久亚洲二区| 中国女人久久久| 中文在线资源| 精品日本视频| 日韩成人午夜精品| 日韩精品第二页| 石原莉奈一区二区三区在线观看| 欧美日韩一区二区综合| 国产一区二区三区精品在线观看| 日韩一区精品| 日韩高清不卡在线| 国产精品腿扒开做爽爽爽挤奶网站| 欧美亚洲国产日韩| 香蕉成人久久| 欧美1区免费| 黑丝一区二区三区| 午夜国产精品视频| 日韩欧美另类一区二区| 色婷婷亚洲mv天堂mv在影片| 欧美国产专区| 你懂的亚洲视频| 国产精品自在| 久久精品免视看国产成人| 国产精品色婷婷在线观看| 精品一区二区三区中文字幕| 人人爱人人干婷婷丁香亚洲| 欧美日一区二区在线观看| 中文亚洲免费| 一区二区电影| 久久成人精品| 欧美精品三级在线| 欧美激情五月| 日韩在线网址| 国产激情久久| 国产一区二区三区探花| 在线人成日本视频| 欧美/亚洲一区| 久久av一区二区三区| 国产一区二区高清| 精品深夜福利视频| 首页国产欧美久久| 日韩国产在线观看| 美女免费视频一区| 精品久久精品| 91亚洲无吗| 国产日本亚洲| 久久99高清| 91av亚洲| 欧美黑人巨大videos精品| 国产综合激情| 国产精品啊v在线| 成人国产精品一区二区网站| 久久av在线| 中文字幕在线看片| 亚洲免费影视| 日本免费久久| 老司机精品视频在线播放| 久久久久久美女精品| 久久久久久久久久久9不雅视频| 国产精品试看| 国产精品伦一区二区| 欧美日韩一二| 国产伦精品一区二区三区在线播放 | 亚洲成人三区| 国产精品亚洲人成在99www| 91久久国产| 精品美女视频| 久久国产免费看| 香蕉国产精品| 日韩在线中文| 日韩欧美中文在线观看| 精品成人免费一区二区在线播放| 欧美亚洲国产日韩| 国产精品最新| 欧美天堂一区| 欧美日韩国产高清| 国产成人久久| 欧美精品97| 亚洲+小说+欧美+激情+另类| 久久久久美女| 成人欧美一区二区三区的电影| 国产亚洲高清在线观看| 91精品国产一区二区在线观看| 性色一区二区| 视频一区国产视频| 99精品视频在线| 99视频精品| 亚洲天堂久久| 午夜亚洲精品| 美女精品网站| 蜜臀久久99精品久久久久宅男| 欧美国产视频| 免费黄色成人| 亚洲福利一区| 精品在线91| 伊人成人网在线看| 日韩午夜在线| 亚洲欧洲日韩| 老司机久久99久久精品播放免费| 91成人精品| 99久久亚洲精品蜜臀| 国产一区一一区高清不卡| 国产福利91精品一区二区| 久久久久97| 欧美国产美女| 日韩免费一区| 国户精品久久久久久久久久久不卡 | 尤物在线精品| 在线视频精品| 久久精品免费看| 亚洲精品三级| 久久婷婷国产| 日本不卡高清| 日韩福利视频网| 精品五月天堂| 欧美中文字幕一区二区| re久久精品视频| 水野朝阳av一区二区三区| 日本91福利区| 日韩电影免费网站| 婷婷精品在线观看| 欧美激情aⅴ一区二区三区| 午夜av不卡| 日韩中出av| 电影91久久久| 久久久久国产一区二区| 99视频在线精品国自产拍免费观看| 亚洲欧美在线专区| 国产美女久久| 99精品美女| 欧美成人精品午夜一区二区| 色乱码一区二区三区网站| 99精品99| 欧美freesex黑人又粗又大| 日本一区二区中文字幕| 日韩三区在线| 欧美激情视频一区二区三区免费 | 成人国产精品一区二区网站| 黄页网站一区| 欧美亚洲网站| 午夜国产精品视频| 99久久视频| 国产精品久久久久久久免费观看 | 久久久精品网| 超碰超碰人人人人精品| 美女毛片一区二区三区四区| 久久毛片亚洲| 国产精品美女久久久浪潮软件| 久久国产99| 日韩国产专区| 九九九精品视频| 麻豆精品在线播放| 麻豆久久一区| 久久亚洲资源中文字| 久久免费影院| 久久免费黄色| 日本在线一区二区三区| 欧美理论视频| 久久精品免费一区二区三区 | 亚洲精品小说|