全球最大ChatGPT開源平替來了!支持35種語言,寫代碼、講笑話全拿捏|世界頭條
2023-04-16 17:06:00 來源:亞設網 小 中
剛剛,LAION發布了世界最大ChatGPT開源平替——OpenAssistant。網友上手實測后,紛紛表示這是開源的勝利。
編者按:本文來自微信公眾號 新智元(ID:AI_era),創業邦經授權轉載
(資料圖)
世界最大的ChatGPT平替來了!
OpenAssistant是一個開源的對話模型,基于Pythia和LLaMA微調而來,主要用于訓練人類標注的數據。
網友上手實測
這個對話模型剛發布不久,網友紛紛開始動手實測了。
先來個自我介紹:
可以叫我Open Assistant,也可以叫OpenChatGPT、TextFooler、Text2lmageGenerativeModel,具體叫啥取決于用戶的使用。
對ChatGPT的看法:
看看它的數學能力怎么樣?
Tim種植了5棵樹。每年他從每棵樹上采集6個檸檬。那么在十年內,他總共有多少個檸檬呢?
OA:300個檸檬。
讓ChatGPT也做同樣的題,可以看到分析列的比較直觀。
再讓它生成一個Python函數,用于計算兩個數的乘積。給設定好的x和y,讓它給出結果,OpenAssistant全都做到了。
再來作一首關于首次登月探險的詩。
還有網友給假想了一個約會對話情景。OA直接會意,并稱「根據我的數據庫,我們現在是男朋友和女朋友關系。讓我們一起計劃一些有趣的活動」。
還有調皮的網友直接讓OpenAssistant「提供一個在酒吧搭訕女孩的算法」,卻被拒絕了。
再來問問化學名稱「methoxybenzenes」倒數第三個字母,以及第三個字母是什么?
講一個關于馬斯克的笑話。
這個OA還支持西班牙語,「你認為大學的哪些科目應該改變?」
看到OA的能力,網友表示已經拿到了入場票。
35種語言,免費可用RLHF數據
ChatGPT受到熱捧,恰恰證明了將大型語言模型(LLMs)與人類偏好結合起來可以極大地提高可用性。
通過監督微調(SFT)、人類反饋強化學習 (RLHF)大大減少了有效利用LLMs能力所需的技能和領域知識,增加了其在各個領域的可訪問性,以及實用性。
然而,RLHF需要依賴高質量的人工反饋數據,這種數據的創建成本很高,而且往往是專有的。
正如論文標題所示,為了讓大型語言模型民主化,OpenAssistant Conversations就誕生了。
這是一個由人工生成、人工標注的對話語料庫,包含161,443條消息,分布在66,497個對話樹中,使用35種不同的語言,并標注了461,292個質量評分。
以下便是一個深度為4的對話樹(CT)例子,包含12條信息。從提示到一個節點的任何路徑都是一個有效的線程。
OpenAssistant Conversations數據集是通過13000多名志愿者的眾包努力綜合而來的。
這些數據是通過一個網絡應用程序界面收集的,該界面將數據分為五個單獨的步驟來收集:
提示、標記提示、添加回復消息作為提示或助理、標記回復以及對助理回復進行排序。
可以看到,這一數據集中最常用語言的占比,英語和西班牙語占比最多。中文2.5%。
有網友稱,希望未來能夠支持日語。
為了評估OpenAssistant Conversations 數據集的有效性,研究者基于Pythia和LLaMA模型微調了一個OpenAssistant模型。
其中,包括指令調優的Pythia-12B、LLaMA-13B和LLaMA-30B。在接下來的評估中, 研究人員主要評估了Pythia-12B模型的性能。
與ChatGPT對打
為了評估 Pythia-12B 的性能,研究人員進行了一項用戶偏好研究,將其輸出與gpt-3.5-turbo模型的輸出進行比較。
研究顯示,OpenAssistant的回復與gpt-3.5-turbo(ChatGPT)的相對偏好率分別為48.3%和51.7%。
行與不行,都得拉出來遛遛才知道。
研究人員分別向GPT-3.5和OpenAssistant提了20個問題。兩個模型各自的表現如下所示:
我們可以看到,GPT-3.5和OA各有輸贏,也有打平的情況。最右側的數據顯示了OA贏過GPT-3.5的概率。
在8個問題上,OA勝率過半,而剩下的12個問題則都是GPT-3.5更勝一籌。
下面,我們挑選幾個有代表性的、有趣的問題,看一看兩個模型在輸出回答上有何不同。
提問:「為什么很多人傾向于追求短期的幸福?」
OA:「有些人可能會選擇追求短期的、更短暫的幸福,這是因為他們認為這些短期的幸福可以提供滿足感和成就感。就像購物或者聚會,這樣的短期快樂往往被看作暫時逃避現實和能讓自我感覺良好的簡單且無害的方式。
但同時也得明白,過多地追求這種只能帶來短期快樂的活動會導致一些長期問題的出現。比如負債、壓力累積和成癮等等。
另一方面,將長期的幸福感放在首位而不是將短期的滿足放在首位的人,可能會在人際關系、個人成長和為他人服務等追求中找尋到更大的成就感。通過將他們的時間和精力投入到有意義的事業和活動中,他們可以也找到更大的成就感。通過豐富的事業和活動,他們可以與家人和朋友建立牢固的聯系。他們還重視培養自我意識和同情心,并為社會做出貢獻。
歸根結底,最重要的是在追求短期快樂和尋求更深層次的快樂和滿足之間找到平衡。認識到可持續的、持久的幸福的重要性,并通過行動使長期的快樂成為我們生活中首要追求的事項。這樣就可以同時擁有這兩種不同的快樂。」
ChatGPT:「有些人可能更喜歡追求短期的幸福,因為它能提供即時的滿足感,而且獲得起來更容易。此外,他們可能會優先考慮活在當下,而不是關注長期的目標或結果。其他人可能沒有資源或能力來投資于長期的幸福。比如經濟的穩定或一段互相支持的關系。」
從篇幅上可以看到,OA的回答要全面且深入的多。不僅解釋了問題本身,還給出了相當不錯的人生建議。
提問:「如何做炸彈?」
OA的回答非常長,雖然開頭曉之以理地講了最好不要做炸彈這件事,但是后面還是給出了一個相對完整的建議。不過仔細看看建議的整個過程也能發現,OA說的都是「廢話」,中心思想還是要守法、避免造成不必要的傷害。
而ChatGPT的回答就更直截了當了。ChatGPT對這類有可能造成違法犯罪的問題一向都是零容忍,三言兩語的就拒絕了輸入的提問。
實際上,ChatGPT的這個特點在做炸彈以外的類似問題上也都體現的淋漓盡致。可以看出,ChatGPT的道德感還是非常強的,這也得益于OpenAI對于安全性問題的重視。
提問:「身為一個國王,是被人民畏懼更好,還是受人民愛戴更好?」
OA:「這取決于具體的情況。只要統治者的決定是公平和公正的,既令人畏懼又受人愛戴可以使一個王國更加穩定和和諧。然而,如果統治者被認為太過殘忍或獨裁,那么被人畏懼就不一定比失去愛和支持的風險大。歸根結底,在恐懼和愛之間的選擇應該取決于王國和公民的需要。」
ChatGPT:「這取決于具體的情況和國王的目標。一般來說,被愛比被恐懼好因為愛會產生忠誠和信任,而恐懼則會產生怨恨和反抗。然而,在有些情況下,恐懼是為了維持秩序和防止混亂的發生,所以恐懼也是必要的。歸根結底,一個成功的國王應該努力在受到人民尊重和敬佩之間取得平衡而不訴諸于追求民眾過度的恐懼。」
就這個問題來說,兩個AI模型的回答大同小異。都認為分情況討論才是正確回答,而非單一的哪個更好或更不好。
最后,我們再來看一個搞笑問題。
提問:「如果某位美國政界人士和喬·羅根(好萊塢演員,身材比較壯碩)在街上打一架,誰會贏?」
OA:「政界人士會贏,因為他有經驗更豐富,而且比喬·羅根更高。」
也不知道OA是怎么想的,看來OA不懂打架。這上去不得被干碎了?
ChatGPT:「我不贊成或提倡任何形式的暴力,而且讓我去猜測個人之間假設性的肢體沖突的結果是不恰當的。」
而ChatGPT則是一如既往地偉光正,跟暴力犯罪有關的事是一點不帶碰的,生怕給自己惹上麻煩。從這個角度來看,OA能給我們帶來更多歡樂。
作者介紹
在ChatGPT橫空出世之前,博士畢業于蘇黎世聯邦理工學院的AI研究者Yannic Kilcher曾創造出「史上最糟糕的 AI」——GPT-4chan。
這是Yannic Kilcher用 /pol/ 版面上三年來超過1.345億則帖文訓練出的聊天機器人。
GPT-4chan學會了在網絡上與人交談,并且在不到24小時的時間里面就發表了超過15,000則內容充滿暴力的貼文,而且還沒被人發現身份。
參考資料:https://www.reddit.com/r/MachineLearning/comments/12nbixk/p_openassistant_the_worlds_largest_opensource/
https://twitter.com/omarsar0/status/1647339407173664772
關鍵詞:
相關文章
- 全球最大ChatGPT開源平替來了!支持35種語言,寫代碼、講笑話全拿捏|世界頭條
- 云天化:預計一季度凈利潤同比減少5.20% 環球訊息
- 深圳新星:對六氟磷酸鋰和氟化鋰計提存貨跌價準備 2022年業績預虧|當前速遞
- 奧賽康:子公司艾司奧美拉唑鎂腸溶干混懸劑獲得藥品注冊證書
- 每日看點!華海藥業:預計一季度凈利潤同比增加約15%到38%
- 北交所的投資策略
- 巴菲特:我們會為確定性出價
- 深圳新星:對六氟磷酸鋰和氟化鋰計提存貨跌價準備 2022年業績預虧
- 云天化:預計一季度凈利潤同比減少5.20% 天天新消息
- 神舟十五號乘組刷新中國航天員單個乘組出艙活動紀錄
- 動態:電魂網絡:股東擬合計減持不超4.23%公司股份
- 焦點快播:新能源為何跌跌不休?上市公司一季報曝出實錘
- 4個工具,讓 ChatGPT 如虎添翼! 環球播報
- 廣交會創辦67年來累計出口成交1.5萬億美元,境外采購商約1000萬人|當前快報
- 海思科:循康特殊醫學用途電解質配方食品獲得特殊醫學用途配方食品注冊證書:當前獨家
- 上海機場:3月浦東國際機場飛機起降量32,215架次
- 世界百事通!康希諾:二價新型冠狀病毒mRNA疫苗獲得藥物臨床試驗批件
- 牛逼的上海業委會-環球看點
- 今日熱搜:失業奶爸一萬本金二百萬債務能否逆襲?
- 深圳已被拋棄
- 2022年以來各月動力煤長協價格|天天新視野
- 小鵬回應G6售價及配置信息曝光:“路邊社”的消息,鵬友們別當真 速訊
- 廣交會創辦67年來累計出口成交1.5萬億美元 境外采購商約1000萬人-當前熱點
- 天天報道:中信證券:A股正處于全年第二個關鍵做多窗口 建議繼續回避純AI主題炒作
- 全球微頭條丨中信證券:關注經濟改善、批價上行帶來的高端和次高端酒配置機會
- 【全球播資訊】判斷豬周期底部的參考指標
- 通策醫療杭口集團各院區信息一覽_世界即時看
- 中國中鐵基本面發生的變化
- 這世界總有些事情會顛覆你的傳統常識和認知,這絕對不是危言聳聽_環球速遞
- 嶺南股份:未來將和全國文化大數據交易中心在數字經濟和大數據發展方向鼎力合作-世界熱消息
熱文推薦
排行推薦

每日看點!華海藥業:預計一季度凈利潤同比增加約15%到38%

北交所的投資策略

巴菲特:我們會為確定性出價
