為何同一個(gè)中文大模型,不同評(píng)測(cè)標(biāo)準(zhǔn)打分差異大?
2023-05-10 17:14:23 來(lái)源:雪球網(wǎng) 小 中
5月9日中文通用大模型綜合性評(píng)測(cè)基準(zhǔn)SuperCLUE正式發(fā)布。經(jīng)過(guò)一天時(shí)間的發(fā)酵,論壇上對(duì)該評(píng)測(cè)標(biāo)準(zhǔn)質(zhì)疑的聲音越發(fā)多了,這是為什么?大模型評(píng)測(cè)標(biāo)準(zhǔn)設(shè)立的難度又在哪里?
(資料圖)
中文評(píng)測(cè)標(biāo)準(zhǔn)為何重要?
科大訊飛董事長(zhǎng)劉慶峰認(rèn)為:如果要努力追趕OpenAI的進(jìn)度,需要一套科學(xué)系統(tǒng)的評(píng)測(cè)體系;用這一套科學(xué)系統(tǒng),來(lái)判定技術(shù)迭代到底到了什么程度,還有哪些任務(wù)是不達(dá)標(biāo)的。
第一、數(shù)據(jù)集的差異性。中文和英文的文本數(shù)據(jù)集在種類、規(guī)模、質(zhì)量等方面存在很大的差異,需要針對(duì)中文特點(diǎn)開(kāi)發(fā)相應(yīng)的數(shù)據(jù)集,以確保評(píng)測(cè)結(jié)果的準(zhǔn)確性和公正性。
第二、語(yǔ)言結(jié)構(gòu)和語(yǔ)法的差異。例如中文是一種“主謂賓”結(jié)構(gòu)的語(yǔ)言,而英文則是“主語(yǔ)動(dòng)詞賓語(yǔ)”結(jié)構(gòu)的語(yǔ)言。這些差異導(dǎo)致了中英文之間在語(yǔ)言處理任務(wù)上存在很大的區(qū)別,需要不同的評(píng)測(cè)標(biāo)準(zhǔn)和方法。
第三、中文詞匯量和歧義性。中文的詞匯量非常大,而且存在很多歧義性,需要更復(fù)雜的處理方法和技術(shù),如分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等。
但從當(dāng)下來(lái)看,這貌似又是一個(gè)在短期內(nèi)非常難以兌現(xiàn)的預(yù)期。
中文大模型評(píng)測(cè)標(biāo)準(zhǔn)化很難,SuperCLUE被吐槽選擇題方式單一
剛剛發(fā)布的文通用大模型基準(zhǔn)(SuperCLUE),是針對(duì)中文可用的通用大模型的一個(gè)測(cè)評(píng)基準(zhǔn)。它主要回答的問(wèn)題是:在當(dāng)前通用大模型大力發(fā)展的情況下,中文大模型的效果情況。
SuperCLUE從三個(gè)不同的維度評(píng)價(jià)模型的能力:基礎(chǔ)能力、專業(yè)能力和中文特性能力。
,該評(píng)測(cè)是由中國(guó)科學(xué)院計(jì)算技術(shù)研究所自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室(簡(jiǎn)稱“計(jì)算所NLP”)開(kāi)發(fā)和維護(hù)的。
JioNLP評(píng)測(cè)還提供了多種評(píng)測(cè)指標(biāo)和計(jì)算工具,以幫助研究者和開(kāi)發(fā)者客觀地評(píng)估模型的性能和效果,并比較不同模型的優(yōu)缺點(diǎn)和適用范圍。
JioNLP評(píng)測(cè)方式目前的總下載量達(dá)到2.4萬(wàn)次,近三十天下載量為1634次。
通過(guò)JioNLP評(píng)測(cè),研究者和開(kāi)發(fā)者可以獲取實(shí)時(shí)的評(píng)測(cè)結(jié)果和排名,以及相應(yīng)的源代碼和技術(shù)報(bào)告,為中文自然語(yǔ)言處理的研究和應(yīng)用提供參考和支持。
從JioNLP評(píng)測(cè)的結(jié)果來(lái)看:文心一言的得分卻又高于星火大模型。
這背后的原因是
SuperCLUE是只通過(guò)選擇題對(duì)模型能力進(jìn)行測(cè)試,而JioNLP采用的是客觀選擇題+主觀題(生成題、翻譯題和聊天題)進(jìn)行測(cè)試。
但相同的是,在官網(wǎng)留言區(qū)對(duì)于兩個(gè)測(cè)試標(biāo)準(zhǔn)都出現(xiàn)很多質(zhì)疑聲音。
如:對(duì)SuperCLUE評(píng)測(cè)方法如何限定測(cè)試題目數(shù)量,生成和創(chuàng)作類評(píng)測(cè)用選擇題測(cè)試是否合理,以及建議SuperCLUE像中文Alpaca一樣適度公開(kāi)評(píng)測(cè)說(shuō)明和標(biāo)準(zhǔn)。JioNLP也同樣存在測(cè)試精度、樣本量小等問(wèn)題。
常用的機(jī)器學(xué)習(xí)模型評(píng)估標(biāo)準(zhǔn)有7個(gè)比較重要的方向:
包括準(zhǔn)確度(針對(duì)分類能力)、精確度和召回率(模型正確預(yù)測(cè)的內(nèi)容占該樣本的比例)、對(duì)抗攻擊魯棒性(模型在受到輸入干擾時(shí)保持穩(wěn)定的能力)、計(jì)算效率、均方誤差、R方值以及數(shù)據(jù)隱私。
從當(dāng)下來(lái)看,SuperCLUE的評(píng)測(cè)方式單一性確實(shí)存在一定的弊端,但是該模型采用的人工評(píng)價(jià)的精度也曾被市場(chǎng)認(rèn)可確實(shí)在精度和靈活度上面高于系統(tǒng)的自動(dòng)評(píng)價(jià)方法。
總的來(lái)說(shuō),大模型測(cè)試標(biāo)準(zhǔn)化是行業(yè)所需要的,但同樣也是非常難實(shí)現(xiàn)的。
$科大訊飛(SZ002230)$$百度(BIDU)$$昆侖萬(wàn)維(SZ300418)$
歡迎大家在評(píng)論區(qū)評(píng)論互動(dòng)~
關(guān)注見(jiàn)智研究Pro,獲取更多行業(yè)熱點(diǎn)解析
關(guān)鍵詞:
相關(guān)文章
- 為何同一個(gè)中文大模型,不同評(píng)測(cè)標(biāo)準(zhǔn)打分差異大?
- 當(dāng)前要聞:【學(xué)無(wú)“指”境·03期】中證500進(jìn)入“擊球區(qū)”,你準(zhǔn)備好“揮棒”了嗎?
- 管住你的性格弱點(diǎn),賺錢(qián)才有可能
- “烏龍”?大V出手,基金瞬間直逼漲停-每日熱文
- 港交所陳翊庭:港交所將推動(dòng)多項(xiàng)市場(chǎng)制度改革 持續(xù)拓展和優(yōu)化互聯(lián)互通機(jī)制
- 【天天速看料】寧德時(shí)代成立私募基金合伙企業(yè)
- *ST雪發(fā):雪松實(shí)業(yè)等關(guān)聯(lián)方事項(xiàng)不會(huì)對(duì)公司產(chǎn)生重大不利影響|世界快資訊
- 理想汽車:第一季度營(yíng)收187.9億元 全球熱門(mén)
- 新西蘭航空首創(chuàng)飛機(jī)臥鋪,但最多只能睡4小時(shí),預(yù)計(jì)費(fèi)用約1700至2600元
- 理想汽車-W(02015)發(fā)布一季度業(yè)績(jī),凈利潤(rùn)為9.34億元,同比扭虧為盈
- 環(huán)球焦點(diǎn)!吉林省“鄉(xiāng)村振興 萬(wàn)人圓夢(mèng)”工程啟動(dòng)
- 呼和浩特市圖書(shū)館延長(zhǎng)館內(nèi)自助圖書(shū)館開(kāi)放時(shí)間|世界報(bào)資訊
- 數(shù)據(jù)剖析更靈活、更快捷,火山引擎DataLeap動(dòng)態(tài)探查全面升級(jí) 全球看點(diǎn)
- 2023青羊區(qū)教辦幼兒園招生計(jì)劃表(名單+人數(shù))
- 環(huán)球短訊!江鈴汽車漲停
- 苦杏仁的吃法_怎么吃苦杏仁好呢
- 女子自曝被鄭州大學(xué)教授性侵,警方:她未報(bào)警,被指控者已報(bào)警
- 淤青是怎么產(chǎn)生的(淤青的產(chǎn)生原因有哪些)
- 阿里系淘天集團(tuán)首次亮相,定調(diào)“三新”變革
- 昇興股份:擬金堂縣投建制罐產(chǎn)線 完善西南地區(qū)業(yè)務(wù)布局
- 環(huán)球熱消息:硅業(yè)分會(huì):多晶硅短期需求減少 價(jià)格擴(kuò)大跌幅
- 首鋼股份:4月新能源汽車用電工鋼銷量同比增長(zhǎng)約97%
- 簡(jiǎn)訊:大金重工:全資子公司蓬萊大金與某歐洲能源開(kāi)發(fā)企業(yè)簽署了某海風(fēng)項(xiàng)目供貨合同
- 【時(shí)快訊】棕櫚股份:中標(biāo)1.2億元生態(tài)修復(fù)工程項(xiàng)目
- 速遞!新致軟件:上海仰岳等擬合計(jì)減持不超0.88%股份
- 中核鈦白:金星鈦白的鈦白粉產(chǎn)線已全面恢復(fù)正常生產(chǎn) 全球速看
- 宗申動(dòng)力:宗申航發(fā)公司擬引入戰(zhàn)略投資者對(duì)其增資擴(kuò)股
- 國(guó)家區(qū)塊鏈技術(shù)創(chuàng)新中心落地中關(guān)村
- “索羅斯戰(zhàn)友”密集唱空美國(guó)經(jīng)濟(jì),但稱未來(lái)幾年機(jī)會(huì)難以置信-當(dāng)前通訊
- 觀速訊丨太可怕了!今天A股又大跌46點(diǎn),為啥主力卻抄底了?原因是這樣
熱文推薦

為何同一個(gè)中文大模型,不同評(píng)測(cè)標(biāo)準(zhǔn)打分差異大?
5月9日中文通用大模型綜合性評(píng)測(cè)基準(zhǔn)SuperCLUE正式發(fā)......更多>

當(dāng)前要聞:【學(xué)無(wú)“指”境·03期】中證500進(jìn)入“擊球區(qū)”,你準(zhǔn)備好“揮棒”了嗎?
剛剛過(guò)去的周末,看到不少投資者在談?wù)撍赜?ldquo;投資界春......更多>
排行推薦

港交所陳翊庭:港交所將推動(dòng)多項(xiàng)市場(chǎng)制度改革 持續(xù)拓展和優(yōu)化互聯(lián)互通機(jī)制

【天天速看料】寧德時(shí)代成立私募基金合伙企業(yè)

*ST雪發(fā):雪松實(shí)業(yè)等關(guān)聯(lián)方事項(xiàng)不會(huì)對(duì)公司產(chǎn)生重大不利影響|世界快資訊

理想汽車:第一季度營(yíng)收187.9億元 全球熱門(mén)
熱點(diǎn)聚焦:接下來(lái)需求弱勢(shì)輪動(dòng)到晶圓代工、設(shè)備、零部件了。
為什么看好網(wǎng)宿科技300017?|當(dāng)前快報(bào)
每日投顧發(fā)車信息匯總:大盤(pán)回調(diào)看投顧機(jī)構(gòu)都在買(mǎi)什么 全球熱推薦
阿里系淘天集團(tuán)首次亮相,定調(diào)“三新”變革
全球觀點(diǎn):硅業(yè)分會(huì):多晶硅短期需求減少 價(jià)格擴(kuò)大跌幅
熱門(mén)看點(diǎn):倫敦金屬交易所(LME):鋁庫(kù)存增加8700噸
環(huán)球微動(dòng)態(tài)丨交通銀行副行長(zhǎng)周萬(wàn)阜:預(yù)計(jì)二季度對(duì)公信貸增速較一季度將放緩 項(xiàng)目?jī)?chǔ)備總體較為充裕
首鋼股份:4月新能源汽車用電工鋼銷量同比增長(zhǎng)約97% 焦點(diǎn)觀察
新城鎮(zhèn)鄧善沽村:幫扶慰問(wèn)困境群眾 真情關(guān)懷溫暖人心 全球聚焦
5月10日國(guó)內(nèi)黃金期貨漲0.46%-天天最新
萍鄉(xiāng)市蘆溪縣全縣黨建融合工作現(xiàn)場(chǎng)
民生銀行pos機(jī)刷卡手續(xù)費(fèi)標(biāo)準(zhǔn)_刷卡