艾倫人工智能研究所(AI2)發(fā)布了名為Dolma的開放式文本數據集,旨在促進AI語言模型的透明度和創(chuàng)新。Dolma作為AI2開放式語言模型(OLMo)計劃的核心,將為研究人員和開發(fā)者提供免費的數據資源,以支持更廣泛的AI研究。
在GPT-4和Claude等語言模型的崛起中,人們對這些模型的強大能力感到驚嘆,但模型背后的數據集卻籠罩在神秘的面紗之下,引發(fā)了對透明度的擔憂。為了改變這種現(xiàn)狀,AI2決定采取一項突破性舉措,向全球發(fā)布了Dolma數據集,以推動AI語言模型領域的透明度和協(xié)作。
Dolma作為AI2開放式語言模型(OLMo)計劃的基石,其名稱縮寫代表“Data to feed OLMo's Appetite”(供養(yǎng)OLMo食欲的數據)。AI2旨在通過向研究社區(qū)提供免費、開放的數據資源,鼓勵更多的創(chuàng)新和研究。該數據集的發(fā)布不僅是AI2首次共享關于OLMo的“數據成果”,還是AI2在透明度方面邁出的重要一步。
根據AI2的Luca Soldaini在詳細的博文中所述,Dolma數據集的來源和處理過程得到了透明記錄。AI2團隊詳細解釋了將文本還原為原始英語內容等決策的方法。AI2強調,他們計劃發(fā)布更全面的論文,以深入探討數據集的細節(jié)。
與此同時,Dolma不僅僅是一個規(guī)模龐大的開放數據集,擁有驚人的30億標記(AI中內容量的本地度量),而且使用和許可方面也非常簡便。AI2采用了“中風險成果的ImpACT許可證”,并鼓勵用戶:
- 提供聯(lián)系信息和使用情況
- 披露基于Dolma的衍生創(chuàng)作
- 在相同許可下分發(fā)這些衍生創(chuàng)作
- 同意不將Dolma應用于禁止領域,如監(jiān)視或虛假信息
AI2還為擔心個人數據隱私的用戶提供了專門的數據刪除請求表單,以確保個人數據的保護。
Dolma的發(fā)布標志著AI2在透明度和協(xié)作方面邁出的重要一步,為AI語言模型的開放和共享知識設立了有力的先例。該數據集的開放為研究人員和開發(fā)者提供了更多的資源,將推動AI領域走向更加透明和合作的未來。用戶可通過Hugging Face平臺訪問Dolma,這是一個對AI領域的積極而重要的發(fā)展。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。
近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
由世界人工智能大會組委會、上海市經信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。