為何同一個中文大模型,不同評測標準打分差異大?

2023-05-10 17:14:23 來源:雪球網

5月9日中文通用大模型綜合性評測基準SuperCLUE正式發布。經過一天時間的發酵,論壇上對該評測標準質疑的聲音越發多了,這是為什么?大模型評測標準設立的難度又在哪里?


(資料圖)

中文評測標準為何重要?

科大訊飛董事長劉慶峰認為:如果要努力追趕OpenAI的進度,需要一套科學系統的評測體系;用這一套科學系統,來判定技術迭代到底到了什么程度,還有哪些任務是不達標的。

第一、數據集的差異性。中文和英文的文本數據集在種類、規模、質量等方面存在很大的差異,需要針對中文特點開發相應的數據集,以確保評測結果的準確性和公正性。

第二、語言結構和語法的差異。例如中文是一種“主謂賓”結構的語言,而英文則是“主語動詞賓語”結構的語言。這些差異導致了中英文之間在語言處理任務上存在很大的區別,需要不同的評測標準和方法。

第三、中文詞匯量和歧義性。中文的詞匯量非常大,而且存在很多歧義性,需要更復雜的處理方法和技術,如分詞、詞性標注、命名實體識別等。

但從當下來看,這貌似又是一個在短期內非常難以兌現的預期。

中文大模型評測標準化很難,SuperCLUE被吐槽選擇題方式單一

剛剛發布的文通用大模型基準(SuperCLUE),是針對中文可用的通用大模型的一個測評基準。它主要回答的問題是:在當前通用大模型大力發展的情況下,中文大模型的效果情況。

SuperCLUE從三個不同的維度評價模型的能力:基礎能力、專業能力和中文特性能力。

,該評測是由中國科學院計算技術研究所自然語言處理與社會人文計算實驗室(簡稱“計算所NLP”)開發和維護的。

JioNLP評測還提供了多種評測指標和計算工具,以幫助研究者和開發者客觀地評估模型的性能和效果,并比較不同模型的優缺點和適用范圍。

JioNLP評測方式目前的總下載量達到2.4萬次,近三十天下載量為1634次。

通過JioNLP評測,研究者和開發者可以獲取實時的評測結果和排名,以及相應的源代碼和技術報告,為中文自然語言處理的研究和應用提供參考和支持。

從JioNLP評測的結果來看:文心一言的得分卻又高于星火大模型。

這背后的原因是

SuperCLUE是只通過選擇題對模型能力進行測試,而JioNLP采用的是客觀選擇題+主觀題(生成題、翻譯題和聊天題)進行測試。

但相同的是,在官網留言區對于兩個測試標準都出現很多質疑聲音。

如:對SuperCLUE評測方法如何限定測試題目數量,生成和創作類評測用選擇題測試是否合理,以及建議SuperCLUE像中文Alpaca一樣適度公開評測說明和標準。JioNLP也同樣存在測試精度、樣本量小等問題。

常用的機器學習模型評估標準有7個比較重要的方向:

包括準確度(針對分類能力)、精確度和召回率(模型正確預測的內容占該樣本的比例)、對抗攻擊魯棒性(模型在受到輸入干擾時保持穩定的能力)、計算效率、均方誤差、R方值以及數據隱私。

從當下來看,SuperCLUE的評測方式單一性確實存在一定的弊端,但是該模型采用的人工評價的精度也曾被市場認可確實在精度和靈活度上面高于系統的自動評價方法。

總的來說,大模型測試標準化是行業所需要的,但同樣也是非常難實現的。

$科大訊飛(SZ002230)$$百度(BIDU)$$昆侖萬維(SZ300418)$

歡迎大家在評論區評論互動~

關注見智研究Pro,獲取更多行業熱點解析

關鍵詞:

相關文章

熱文推薦

為何同一個中文大模型,不同評測標準打分差異大?
為何同一個中文大模型,不同評測標準打分差異大?

5月9日中文通用大模型綜合性評測基準SuperCLUE正式發......更多>

當前要聞:【學無“指”境·03期】中證500進入“擊球區”,你準備好“揮棒”了嗎?
當前要聞:【學無“指”境·03期】中證500進入“擊球區”,你準備好“揮棒”了嗎?

剛剛過去的周末,看到不少投資者在談論素有“投資界春......更多>

管住你的性格弱點,賺錢才有可能
管住你的性格弱點,賺錢才有可能

巴菲特說,對于投資,最重要的不是你的智商,而是你的......更多>

“烏龍”?大V出手,基金瞬間直逼漲停-每日熱文
“烏龍”?大V出手,基金瞬間直逼漲停-每日熱文

業內有名的投顧大V“E大”,在其官微發文稱買入華寶中......更多>

排行推薦

港交所陳翊庭:港交所將推動多項市場制度改革 持續拓展和優化互聯互通機制
港交所陳翊庭:港交所將推動多項市場制度改革 持續拓展和優化互聯互通機制
5月10日,港交所未來科技峰會在深圳舉行。會上,港交... 更多>
【天天速看料】寧德時代成立私募基金合伙企業
【天天速看料】寧德時代成立私募基金合伙企業
廈門溥泉私募基金管理合伙企業(有限合伙)成立,出資... 更多>
*ST雪發:雪松實業等關聯方事項不會對公司產生重大不利影響|世界快資訊
*ST雪發:雪松實業等關聯方事項不會對公司產生重大不利影響|世界快資訊
*ST雪發(002485)披露股票交易異動公告稱,近期公司... 更多>
理想汽車:第一季度營收187.9億元 全球熱門
理想汽車:第一季度營收187.9億元 全球熱門
理想汽車:第一季度營收187 9億元,市場預期186 8億... 更多>
熱點聚焦:接下來需求弱勢輪動到晶圓代工、設備、零部件了。
剛看到芯片ETF創階段性新低了。再更新一下接下來的風... 更多>
為什么看好網宿科技300017?|當前快報
很多人可能不了解網宿科技的業務,網宿科技是做什么的... 更多>
每日投顧發車信息匯總:大盤回調看投顧機構都在買什么 全球熱推薦
以下是截取的部分投顧主理人的發車觀點:$永動機股票... 更多>
阿里系淘天集團首次亮相,定調“三新”變革
阿里巴巴組織架構調整后,新組建的淘天集團5月10日首... 更多>
全球觀點:硅業分會:多晶硅短期需求減少 價格擴大跌幅
本周國內N型料價格區間在16 0-17 1萬元 噸,成交均... 更多>
熱門看點:倫敦金屬交易所(LME):鋁庫存增加8700噸
倫敦金屬交易所(LME):鋁庫存增加8700噸,銅庫存增加3... 更多>
環球微動態丨交通銀行副行長周萬阜:預計二季度對公信貸增速較一季度將放緩 項目儲備總體較為充裕
對于二季度信貸投放,交通銀行副行長周萬阜今日在“上... 更多>
首鋼股份:4月新能源汽車用電工鋼銷量同比增長約97% 焦點觀察
首鋼股份5月10日晚間公告,4月,公司經營生產順穩。公... 更多>
新城鎮鄧善沽村:幫扶慰問困境群眾 真情關懷溫暖人心 全球聚焦
在4月和5月開展的走訪工作中,新城鎮鄧善沽村黨組織得... 更多>
5月10日國內黃金期貨漲0.46%-天天最新
中國經濟網北京5月10日訊今日,上海期貨交易所日間盤... 更多>

萍鄉市蘆溪縣全縣黨建融合工作現場

每日熱議!李云澤同志任國家金融監督

民生銀行pos機刷卡手續費標準_刷卡

追蹤鯨魚在北極航行

嚴查“靠電吃電”!這家央企,兩高

道氏理論的主要內容和缺陷_道氏理論

世界觀點:摩托羅拉Moto Razr 40

青金石有哪些功效 文章為你講解清

【環球報資訊】深圳本地股尾盤異動

阿里巴巴戴珊:今年會在用戶規模上

午夜精品久久久久久久99蜜桃| 久夜色精品国产一区二区三区| 久久精品综合电影| 好男人视频社区精品免费| 久久久久久久99精品免费观看| 在线精品免费视频| 国産精品久久久久久久| 久久精品日韩一区国产二区| 久久久久久国产精品免费免费男同 | 久久永久免费人妻精品| 国产成人一区二区动漫精品| 亚洲精品乱码久久久久久下载| 中文字幕精品无码亚洲字| 揄拍成人国产精品视频| 日韩人妻无码精品久久久不卡| 国产精品入口麻豆电影网| 日韩精品无码一区二区三区不卡| 国产精品成人观看视频网站| 无码人妻精品一区二区三区不卡| 日韩精品久久久久久久电影蜜臀 | 精品国产_亚洲人成在线高清| 国产av无码久久精品| 国产欧美精品123区发布| 97精品伊人久久久大香线焦| 国产在线精品一区二区不卡| 国产A√精品区二区三区四区| 精品伊人久久大香线蕉网站| 热久久视久久精品18| 久久国产精品无码一区二区三区| 7777精品久久久大香线蕉 | 三上悠亚国产精品一区| 精品理论片一区二区三区| 国产Av一区二区精品久久| 99久久精品午夜一区二区| 久草视频在线这里精品| 亚洲精品国产高清嫩草影院| 国产精品嫩草影院在线看| 国内精品自在自线视频| 99精品一区二区三区无码吞精 | 精品久久久久久久无码久中文字幕 | www.精品国产|