艾倫人工智能研究所(AI2)發(fā)布了名為Dolma的開放式文本數(shù)據(jù)集,旨在促進(jìn)AI語言模型的透明度和創(chuàng)新。Dolma作為AI2開放式語言模型(OLMo)計(jì)劃的核心,將為研究人員和開發(fā)者提供免費(fèi)的數(shù)據(jù)資源,以支持更廣泛的AI研究。
在GPT-4和Claude等語言模型的崛起中,人們對(duì)這些模型的強(qiáng)大能力感到驚嘆,但模型背后的數(shù)據(jù)集卻籠罩在神秘的面紗之下,引發(fā)了對(duì)透明度的擔(dān)憂。為了改變這種現(xiàn)狀,AI2決定采取一項(xiàng)突破性舉措,向全球發(fā)布了Dolma數(shù)據(jù)集,以推動(dòng)AI語言模型領(lǐng)域的透明度和協(xié)作。
Dolma作為AI2開放式語言模型(OLMo)計(jì)劃的基石,其名稱縮寫代表“Data to feed OLMo's Appetite”(供養(yǎng)OLMo食欲的數(shù)據(jù))。AI2旨在通過向研究社區(qū)提供免費(fèi)、開放的數(shù)據(jù)資源,鼓勵(lì)更多的創(chuàng)新和研究。該數(shù)據(jù)集的發(fā)布不僅是AI2首次共享關(guān)于OLMo的“數(shù)據(jù)成果”,還是AI2在透明度方面邁出的重要一步。
根據(jù)AI2的Luca Soldaini在詳細(xì)的博文中所述,Dolma數(shù)據(jù)集的來源和處理過程得到了透明記錄。AI2團(tuán)隊(duì)詳細(xì)解釋了將文本還原為原始英語內(nèi)容等決策的方法。AI2強(qiáng)調(diào),他們計(jì)劃發(fā)布更全面的論文,以深入探討數(shù)據(jù)集的細(xì)節(jié)。
與此同時(shí),Dolma不僅僅是一個(gè)規(guī)模龐大的開放數(shù)據(jù)集,擁有驚人的30億標(biāo)記(AI中內(nèi)容量的本地度量),而且使用和許可方面也非常簡(jiǎn)便。AI2采用了“中風(fēng)險(xiǎn)成果的ImpACT許可證”,并鼓勵(lì)用戶:
- 提供聯(lián)系信息和使用情況
- 披露基于Dolma的衍生創(chuàng)作
- 在相同許可下分發(fā)這些衍生創(chuàng)作
- 同意不將Dolma應(yīng)用于禁止領(lǐng)域,如監(jiān)視或虛假信息
AI2還為擔(dān)心個(gè)人數(shù)據(jù)隱私的用戶提供了專門的數(shù)據(jù)刪除請(qǐng)求表單,以確保個(gè)人數(shù)據(jù)的保護(hù)。
Dolma的發(fā)布標(biāo)志著AI2在透明度和協(xié)作方面邁出的重要一步,為AI語言模型的開放和共享知識(shí)設(shè)立了有力的先例。該數(shù)據(jù)集的開放為研究人員和開發(fā)者提供了更多的資源,將推動(dòng)AI領(lǐng)域走向更加透明和合作的未來。用戶可通過Hugging Face平臺(tái)訪問Dolma,這是一個(gè)對(duì)AI領(lǐng)域的積極而重要的發(fā)展。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。