百川智能發(fā)布全鏈路領(lǐng)域增強金融大模型 Baichuan4-Finance年末家電消費觀察:品質(zhì)生活類產(chǎn)品熱賣,將持續(xù)迎來剛需式普及?GPT-5研發(fā)受阻:OpenAI 新一代模型難見突破性進展新一代語言模型ModernBERT發(fā)布,RAG等任務(wù)處理速度快四倍、成本低新研究顯示:Anthropic 的 Claude AI 在合作能力上領(lǐng)先于 OpenAI 和谷歌模型谷歌向投資者保證人工智能本月將迎來“驚人”表現(xiàn)多模態(tài)大模型引爆應(yīng)用場景 階躍星辰完成數(shù)億美元融資星動紀元發(fā)布端到端原生機器人大模型ERA-42 實現(xiàn)機器人復(fù)雜場景操作免費模式強攻下,快手、抖音用“短劇VIP”反擊?低碳存儲助力算力產(chǎn)業(yè) 富士膠片首次亮相IDC大會行業(yè)唯一!海爾熱聲熱泵技術(shù)獲全國顛覆性技術(shù)創(chuàng)新大賽最高獎OPPO A5 Pro首創(chuàng)獵手天線架構(gòu):信號能穿十堵墻一加 Ace 5 Pro首發(fā)電競Wi-Fi芯片G1 帶來「穿墻王」和「搶網(wǎng)王」般的網(wǎng)絡(luò)體驗電視市場又出黑馬!TCL同檔Mini LED音畫王P12K,萬象分區(qū)打造超強控光!零下25℃如何取暖?海爾水暖通溫暖驛站亮相冰雪大世界馬太效應(yīng),強者恒強?——《中國企業(yè)科創(chuàng)力研究報告(2024)》美團年度報告竟然用上了AI和短?這下是真出圈了消息稱上汽大眾正開發(fā)三款新車,技術(shù)分別來自小鵬、智己和榮威鴻蒙智行泊車代駕VPD正式開啟全量推送!升級自動泊車/接駕等多項功能華為官方翻新手機最高降價4000元
  • 首頁 > 云計算頻道 > 大模型

    “弱智貼吧”的數(shù)據(jù),居然是最強中文語料庫

    2024年04月07日 10:59:10   來源:AIGC開放社區(qū)

      中國科學(xué)院、北大、中國科技大學(xué)、滑鐵盧大學(xué)、01.ai等10家機構(gòu)聯(lián)合推出了,專用于中文的高質(zhì)量指令調(diào)優(yōu)數(shù)據(jù)集——COIG-CQIA。

      在大模型領(lǐng)域英語一直是訓(xùn)練數(shù)據(jù)最重要的語言,但由于中英文的結(jié)構(gòu)和文化差異,直接將英文數(shù)據(jù)集翻譯成中文并不理想。所以,為了填補高質(zhì)量中文數(shù)據(jù)集的空白,研究人員開發(fā)出了COIG-CQIA數(shù)據(jù)集。

      COIG-CQIA幾乎抓取了中文互聯(lián)網(wǎng)的論壇、網(wǎng)站、百度貼吧、問答社區(qū)等高質(zhì)量數(shù)據(jù)集。用COIG-CQIA對Yi-6B、Yi-34B進行指令調(diào)優(yōu),再用GPT4在BELLE-EVAL上評估在各種數(shù)據(jù)集上訓(xùn)練的大模型性能。

      有趣的一幕出現(xiàn)了,“弱智貼吧”的數(shù)據(jù)質(zhì)量,居然大幅度超過知乎、豆瓣、是否等知名知識社區(qū),還真是大智若愚啊~

      為了驗證“弱智貼吧”的數(shù)據(jù)質(zhì)量,「AIGC開放社區(qū)」特意去實地考察了一下,果然名不虛傳有將近300萬的“病友”,找?guī)讉典型問答給大家鑒賞一下。

      變形金剛買保險,是買車險還是人險?

      雷公電母放的是,直流電還是交流電?

      禿頭的人洗頭,用洗頭膏還是洗面奶?

      如果豬腎虛,那它的腰子還補嗎?

      吃止痛藥去打架,算開掛嗎?

      鞋子買好了,怎么才能在冰箱里溜冰?

      用這樣的數(shù)據(jù)去微調(diào)中文大模型,那還不得穩(wěn)超GPT-4立刻覺醒成為“病友”啊~

      COIG-CQIA數(shù)據(jù)集介紹

      研究人員從中文互聯(lián)網(wǎng)精心挑選了涵蓋通識百科、STEM、人文領(lǐng)域的22個高質(zhì)量數(shù)據(jù)源,包括問答社區(qū)、百科網(wǎng)站、內(nèi)容創(chuàng)作平臺、考試題庫等種類。

      社交媒體、論壇數(shù)據(jù)方面,研究人員從知乎、小紅書、豆瓣、是否等熱門中文社區(qū)精心甄選了高質(zhì)量問答和長文本內(nèi)容。

      針對不同社區(qū)的特點,分別采取了篩選高贊回答、評分過濾、人工審核等方式,確保所保留的數(shù)據(jù)貼合真實場景。

      通識百科方面,從百科、維基解答等知名中文百科網(wǎng)站收集了廣泛的概念解釋和指導(dǎo)性文章,內(nèi)容涉及自然科學(xué)、人文社科等多個領(lǐng)域。再通過解析HTML并設(shè)計多種提示模板,將原始數(shù)據(jù)得以轉(zhuǎn)化為高質(zhì)量的指令-輸出對。

      專業(yè)知識部分則從金融、電子、醫(yī)學(xué)、農(nóng)業(yè)等專業(yè)垂直網(wǎng)站采集了結(jié)構(gòu)化數(shù)據(jù),然后按照人工設(shè)計的提示模板構(gòu)造出專業(yè)性指令-輸出對。

      此外,國內(nèi)中學(xué)生、研究生的歷年入學(xué)考試真題也被COIG-CQIA納入在數(shù)據(jù)集中,可顯著提升模型的邏輯推理和知識綜合能力。

      在完成數(shù)據(jù)收集和分類整理后,研究人員對每一類數(shù)據(jù)進行深度清洗、重構(gòu)和人工審查,以確保數(shù)據(jù)質(zhì)量、多樣性和對真實人機交互的貼合度。

      包括格式規(guī)范、答案審查、無關(guān)內(nèi)容刪除等。最終,精心構(gòu)建了一個包含48,375條指令-輸出對的高質(zhì)量中文指令微調(diào)數(shù)據(jù)集。

      為了測試數(shù)據(jù)集性能,用COIG-CQIA對Yi系列、Qwen-72B等國內(nèi)知名模型進行了微調(diào),結(jié)果顯示,COIG-CQIA比現(xiàn)有開源中文數(shù)據(jù)集對大模型的幫助更好。

      什么是指令微調(diào)

      指令微調(diào)是一種在大模型上進行微調(diào)的方法,通過提供指令和輸出來指導(dǎo)模型更準(zhǔn)確地完成內(nèi)容輸出。

      指令微調(diào)通過構(gòu)建專業(yè)的指令格式的實例,通常包含任務(wù)描述、輸入和輸出等,然后以有監(jiān)督的方式對大型語言模型進行精細化微調(diào)。

      簡單來說,指令微調(diào)像是一種“媽媽教孩子”的方法,按照特定格式幫助大模型更好地學(xué)習(xí)、輸出擬人化內(nèi)容。

      需要注意的是,指令微調(diào)和數(shù)據(jù)預(yù)訓(xùn)練是兩回事。預(yù)訓(xùn)練是大模型在大規(guī)模無監(jiān)督數(shù)據(jù)上進行的基礎(chǔ)數(shù)據(jù)訓(xùn)練,其目的只是讓大模型學(xué)習(xí)通用知識,不會針對任何特定領(lǐng)域進行數(shù)據(jù)微調(diào)。

      所以,高質(zhì)量的指令微調(diào)數(shù)據(jù)集對于大模型的擬人化輸出、內(nèi)容的精準(zhǔn)性非常重要。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。