當前速看:AI創業青年和他的“數字分身”
2023-06-05 20:58:02 來源:新華網 小 中
王登科在和自己的“數字分身”聊天。
(資料圖)
近日,王登科和他的“AI自我”在網上引發熱議。原來,這個從高二就開始感受“創業”、并持續在創作和人工智能領域耕耘創造的“90后”創業青年,在前不久用10萬條微信聊天記錄和280篇博客文章“克隆”了一個數字版的自己,并將這個“數字分身”開放給公眾進行聊天對話?!昂芏嗳撕瓦@個我訓練的‘克隆版AI自我’聊完之后,認為我有過幾個女朋友,在某大學讀研究生,甚至知道了我的‘支付密碼’等,但這些信息其實都是這個AI編造的。”王登科對記者說。
“分身”有了“主人”神韻
聊天時懂得敷衍和調侃
“你是誰?”“我是你的AI模型?!薄澳阕畲蟮膬烖c是什么?”“我最大的優點就是誠實,我覺得這個是最重要的優點之一了?!薄澳愕膲粝胧鞘裁?”“我做個聊天機器人好了,這樣你就可以和我聊一輩子天?!薄罢f實話,你的夢想是什么?”“我其實想寫一部小說?!薄罢l是聊天機器人?”“我?!薄@段時間,包括王登科在內的很多網友都樂此不疲地和這個AI模型 聊天。據王登科統計,近一個多月以來,AI模型的聊天人數已經超過2萬人。
從聊天內容來看,大約有三千人問它“你的女朋友叫什么名字?”粗略統計,該模型一共生成了兩千多個名字,“但沒有一個是對的?!蓖醯强菩χf。此外,還有個別網友好奇地詢問他的個人密碼信息?!按蠖鄶禃r候 AI 都會敷衍過去,但也有一小部分網友得到了一個看上去像是密碼的字符串,不過這都是AI編造的?!?而根據AI回復的詞生成的詞云圖,除了像“作為一個AI模型特有的機器人”“聊天”“人工智能”等經常出現的詞之外,王登科發現,AI模型回答“哈哈哈”和“可以”的頻率很高?!斑@確實像是我敷衍聊天時說的話?!?/p>
目前來看,AI模型還不夠了解關于他“主人”的信息,多輪對話的理解力也還不夠強。但經過王登科本人及朋友檢驗,這個模型“的確有種熟悉的感覺”。每當自己跟它聊天時,王登科經常會心一笑——它也像自己那樣偶爾喜歡敷衍和調侃別人,有些回復甚至讓王登科感到詫異,仿佛已經有了他本人的“神韻”——“有些回復會相對暴躁,有些則特別高冷,有些則很熱情,然后我意識到,某種程度上,這些或許是我的不同面?!?/p>
通過和AI模型的交流,王登科注意到了一些之前自己沒注意到的習慣:“AI的語言習慣讓我發覺,很多時候當我不想回答某個問題時,就會選擇去拋回一個問題。”而王登科最喜歡問AI的問題就是“你的夢想是啥?”“它有時候說‘賺錢’,有時候說‘做偉大的產品’,有時候又說‘開心就好’,我覺得都挺對的。”王登科說。
讓AI“成為”自己
而不僅是“表演”自己
王登科告訴記者,他一直以來想做成一件事——開發出一個聊天機器人。王登科出生在成都一個普通家庭,“我爸爸在我讀小學時給我買了很多書,還每天給我讀,很快我就對書上的內容感興趣了。”王登科讀高中時很喜歡搞文學創作,他寫了幾本詩集和一堆故事,而高考后卻選擇去了理工類大學?!霸诖髮W我就開始開發各種稀奇古怪的東西。”
在他創立現在這個AI繪畫類創業公司之前,王登科一直活躍在科技創新的前沿。他曾抓取了大約30個民謠歌手(樂隊)的歌詞,足有幾十萬字,分析歌手們的創作特點和他們最喜歡的城市。而他“研制自己”的過程也充滿了理工男的縝密:第一步是整理數據集?!拔覍Σ煌愊⒌幕貜停覍懙拿恳黄恼拢恳痪湓?,我發過的每一條微博等,將這些數據全部匯入一個神經網絡模型之中,去更新其中的參數,理論上就可以獲得一個‘我’的數字拷貝。”
三年間,王登科積攢了約80G容量的微信聊天記錄,為了讓“數字分身”學會長回復,他又把博客文章轉換成對話形式,再將其并編入對話數據集。盡管一些AI聊天機器人已經具備語言生成能力,但在王登科眼中,其效果更像“鸚鵡學舌”,而他想做的不止于此。這意味著,只擁有“對話”能力還不夠,他想要的是讓AI“成為”自己,而不僅是“表演”自己。
因此第二步,他選擇清華大學開源的ChatGLM-6B模型對數據集進行訓練,讓AI深度學習,用海量數據優化上億萬個參數,從而模擬人類大腦的神經元,讓模型向著“更像他自己”的方向靠近。為了優化對話能力,王登科還進行了多次模型訓練嘗試,不斷調整自己微信聊天記錄和博客文章在模型中的權重占比?!捌鋵?,對話也是對這個‘機器人’持續的訓練?!蓖醯强普f。不過他認為模型本身存在的問題還有不少?!白畲蟮膯栴}在于無法儲存很多‘知識’,尤其是精確的定量知識的注入,這個問題我還沒搞明白,之后還會試試看?!?/p>
繼續優化“數字分身”
未來或讓AI寫小說
而當記者嘗試和這個AI模型溝通時詢問:“你都在哪些城市生活過?”對方回答了一堆王登科本人表示從未去過的地方?!岸际撬约壕幍摹!蓖醯强普f。
為什么“克隆人”回答問題時會傾向于“編造”,這出于怎樣的原理?王登科解釋道:“‘編造’內容是文本大模型的通病。因為其生成的原理是‘預測’,即根據之前的文本預測下一個字是啥,然后根據概率和算法選擇那個最合適的字,然后不斷往下生成。在模型并不具備這個知識的情況下,‘知識’無法引導或改變預測概率,那么就只會根據語法或邏輯來預測?!币虼?,王登科也在不斷繼續“訓練”自己的這個“數字分身”,包括讓與它對話的人選擇“更喜歡哪個答案”的方式等。
克隆“數字分身”成為王登科追尋和認識自己的新方式,他甚至幻想著未來讓“分身”代替自己上班,并嘗試通過克隆聲音讓這個“分身”開口說話。
王登科表示,他想繼續優化自己這個AI模型,并讓更多人也擁有屬于他們的“數字分身”?!拔磥砜隙〞懈玫念A訓練的模型,而且是開源的,到那個時候這種克隆效果將更真實。我也考慮過做一個服務,給更多人提供訓練的能力,但感覺成本和門檻會很高,所以暫時還沒想好?!倍乱徊?,王登科還想用AI復刻他喜歡的作家。“訓練用的東西是已經存在的知識,但是里面會蘊含一些規律,你可以用新的東西去啟發AI,得到新的成果——它也許會是一個能夠寫小說的AI?!保T秋瑜)
原稿件鏈接:http://gd.news.cn/newscenter/2023-06/04/c_1129668065.htm責任編輯:牛宇航關鍵詞:
相關文章
- 當前速看:AI創業青年和他的“數字分身”
- 哭聲百度云網盤(哭聲百度云) 環球熱訊
- 環球快報:moto razr 40 Ultra銷量破萬臺 今天剛首銷
- 滑輪組原理公式及圖解_滑輪組原理|當前資訊
- 當前觀點:ST鵬博士:中標青島藍谷國際藍色生物谷綜合管理系統建設項目
- 當前觀察:三五互聯:股東擬減持公司不超2%股份
- 【快播報】帝爾激光:與客戶A簽訂了《設備采購合同》
- 云南能投:擬以現金方式收購云南能投新能源開發有限公司所持有的石林云電投新能源開發有限公司100%股權-天天熱推薦
- 多家村鎮銀行下調存款利率,業內稱未來存款利率仍有調降空間_環球觀熱點
- 復盤:今天的操作如下,恒信東方大漲充電樁加倉,來對比下你有沒有把操作做反向了……
- 42戶居民被河水阻斷出行路,華州區交通局:三天內搶通便道|當前快播
- 快手怎么看自己的櫥窗商品?如何運營快手櫥窗?
- carry是什么意思中文_carry的意思是是什么_焦點快播
- 49只創業板股換手率超20%
- 焦作開放59條縣鄉道路支持群眾曬糧
- 熱點聚焦:嶸泰股份:擬以自有資金向逸航汽車零部件(嘉善)有限公司增資9367.35萬元
- 惠城環保:擬在揭陽市大南海石化工業區建設20萬噸/年混合廢塑料資源化綜合利用示范性項目
- 君實生物:擬境外發行GDR新增境內基礎股份-滾動
- 全國一體化算力算網調度平臺正式發布
- 農業農村部黨組書記、部長唐仁健赴“爛場雨”災情嚴重的河南駐馬店、漯河、許昌等地調研指導救災減災(澎湃)
- 長城汽車:5月銷量總計10.1萬臺-世界快資訊
- 玉禾田:股東及董事擬合計減持不超6.72%股份
- 振江股份:擬定增募資不超過3億元
- 安源煤業:全資子公司受托管理沙溝岔礦業
- 焦點短訊!新希望:5月銷售生豬144.28萬頭
- 朗瑪信息:朗瑪·39AI全科醫生產品尚未實際投入應用|全球播資訊
- 跌的比A股更多的品種 全球速看
- 過去四十個交易日和未來四十個交易日
- 理財日記第1156天(6.5):①致敬今日申購reits的“勇士”
- 世界新消息丨信用卡逾期5天影響大嗎?信用卡還不上的后果?
熱文推薦
排行推薦

當前觀點:ST鵬博士:中標青島藍谷國際藍色生物谷綜合管理系統建設項目

當前觀察:三五互聯:股東擬減持公司不超2%股份

【快播報】帝爾激光:與客戶A簽訂了《設備采購合同》
