中國科學(xué)院、北大、中國科技大學(xué)、滑鐵盧大學(xué)、01.ai等10家機構(gòu)聯(lián)合推出了,專用于中文的高質(zhì)量指令調(diào)優(yōu)數(shù)據(jù)集——COIG-CQIA。
在大模型領(lǐng)域英語一直是訓(xùn)練數(shù)據(jù)最重要的語言,但由于中英文的結(jié)構(gòu)和文化差異,直接將英文數(shù)據(jù)集翻譯成中文并不理想。所以,為了填補高質(zhì)量中文數(shù)據(jù)集的空白,研究人員開發(fā)出了COIG-CQIA數(shù)據(jù)集。
COIG-CQIA幾乎抓取了中文互聯(lián)網(wǎng)的論壇、網(wǎng)站、百度貼吧、問答社區(qū)等高質(zhì)量數(shù)據(jù)集。用COIG-CQIA對Yi-6B、Yi-34B進行指令調(diào)優(yōu),再用GPT4在BELLE-EVAL上評估在各種數(shù)據(jù)集上訓(xùn)練的大模型性能。
有趣的一幕出現(xiàn)了,“弱智貼吧”的數(shù)據(jù)質(zhì)量,居然大幅度超過知乎、豆瓣、是否等知名知識社區(qū),還真是大智若愚啊~
為了驗證“弱智貼吧”的數(shù)據(jù)質(zhì)量,「AIGC開放社區(qū)」特意去實地考察了一下,果然名不虛傳有將近300萬的“病友”,找?guī)讉典型問答給大家鑒賞一下。
變形金剛買保險,是買車險還是人險?
雷公電母放的是,直流電還是交流電?
禿頭的人洗頭,用洗頭膏還是洗面奶?
如果豬腎虛,那它的腰子還補嗎?
吃止痛藥去打架,算開掛嗎?
鞋子買好了,怎么才能在冰箱里溜冰?
用這樣的數(shù)據(jù)去微調(diào)中文大模型,那還不得穩(wěn)超GPT-4立刻覺醒成為“病友”啊~
COIG-CQIA數(shù)據(jù)集介紹
研究人員從中文互聯(lián)網(wǎng)精心挑選了涵蓋通識百科、STEM、人文領(lǐng)域的22個高質(zhì)量數(shù)據(jù)源,包括問答社區(qū)、百科網(wǎng)站、內(nèi)容創(chuàng)作平臺、考試題庫等種類。
社交媒體、論壇數(shù)據(jù)方面,研究人員從知乎、小紅書、豆瓣、是否等熱門中文社區(qū)精心甄選了高質(zhì)量問答和長文本內(nèi)容。
針對不同社區(qū)的特點,分別采取了篩選高贊回答、評分過濾、人工審核等方式,確保所保留的數(shù)據(jù)貼合真實場景。
通識百科方面,從百科、維基解答等知名中文百科網(wǎng)站收集了廣泛的概念解釋和指導(dǎo)性文章,內(nèi)容涉及自然科學(xué)、人文社科等多個領(lǐng)域。再通過解析HTML并設(shè)計多種提示模板,將原始數(shù)據(jù)得以轉(zhuǎn)化為高質(zhì)量的指令-輸出對。
專業(yè)知識部分則從金融、電子、醫(yī)學(xué)、農(nóng)業(yè)等專業(yè)垂直網(wǎng)站采集了結(jié)構(gòu)化數(shù)據(jù),然后按照人工設(shè)計的提示模板構(gòu)造出專業(yè)性指令-輸出對。
此外,國內(nèi)中學(xué)生、研究生的歷年入學(xué)考試真題也被COIG-CQIA納入在數(shù)據(jù)集中,可顯著提升模型的邏輯推理和知識綜合能力。
在完成數(shù)據(jù)收集和分類整理后,研究人員對每一類數(shù)據(jù)進行深度清洗、重構(gòu)和人工審查,以確保數(shù)據(jù)質(zhì)量、多樣性和對真實人機交互的貼合度。
包括格式規(guī)范、答案審查、無關(guān)內(nèi)容刪除等。最終,精心構(gòu)建了一個包含48,375條指令-輸出對的高質(zhì)量中文指令微調(diào)數(shù)據(jù)集。
為了測試數(shù)據(jù)集性能,用COIG-CQIA對Yi系列、Qwen-72B等國內(nèi)知名模型進行了微調(diào),結(jié)果顯示,COIG-CQIA比現(xiàn)有開源中文數(shù)據(jù)集對大模型的幫助更好。
什么是指令微調(diào)
指令微調(diào)是一種在大模型上進行微調(diào)的方法,通過提供指令和輸出來指導(dǎo)模型更準(zhǔn)確地完成內(nèi)容輸出。
指令微調(diào)通過構(gòu)建專業(yè)的指令格式的實例,通常包含任務(wù)描述、輸入和輸出等,然后以有監(jiān)督的方式對大型語言模型進行精細化微調(diào)。
簡單來說,指令微調(diào)像是一種“媽媽教孩子”的方法,按照特定格式幫助大模型更好地學(xué)習(xí)、輸出擬人化內(nèi)容。
需要注意的是,指令微調(diào)和數(shù)據(jù)預(yù)訓(xùn)練是兩回事。預(yù)訓(xùn)練是大模型在大規(guī)模無監(jiān)督數(shù)據(jù)上進行的基礎(chǔ)數(shù)據(jù)訓(xùn)練,其目的只是讓大模型學(xué)習(xí)通用知識,不會針對任何特定領(lǐng)域進行數(shù)據(jù)微調(diào)。
所以,高質(zhì)量的指令微調(diào)數(shù)據(jù)集對于大模型的擬人化輸出、內(nèi)容的精準(zhǔn)性非常重要。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。