中國(guó)品牌,讓東南亞感受“消費(fèi)升級(jí)”小紅書本地“坐抖望團(tuán)”CrowdStrike“全球滅霸響指”事件后續(xù),德國(guó) 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺(tái)合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺(tái),加速數(shù)字化轉(zhuǎn)型重慶:力爭(zhēng)今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級(jí)產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國(guó)AR/VR出貨23.3萬臺(tái),同比下滑了 29.1%IDC:2024 上半年中國(guó) AR / VR 頭顯出貨 23.3 萬臺(tái),同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測(cè)屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性
  • 首頁 > 企業(yè)IT頻道 > 人工智能

    如何打造一款好用的AI數(shù)據(jù)標(biāo)注平臺(tái)?云天勵(lì)飛發(fā)布LabelFree

    2022年12月20日 14:04:50   來源:中文科技資訊

      人工智能會(huì)取代你的工作嗎?

      站在2022年的當(dāng)下,大部分人給出的回答是——不會(huì)。事實(shí)上,AI產(chǎn)業(yè)的蓬勃發(fā)展,正在創(chuàng)造更多工作崗位。

      AI產(chǎn)業(yè)的工作機(jī)會(huì)不僅僅局限于工程師崗位。如今,從城市到鄉(xiāng)村,從學(xué)生到上班族,越來越多人開始將AI數(shù)據(jù)標(biāo)注員作為一項(xiàng)兼職工作,為AI模型添磚加瓦。

      但在AI數(shù)據(jù)標(biāo)注領(lǐng)域,服務(wù)于數(shù)據(jù)標(biāo)注的平臺(tái)、工具卻一直不夠豐富。特別是可供中小企業(yè)、個(gè)人開發(fā)者使用的開源、免費(fèi)的標(biāo)注工具,更是少之又少。

      如今,越來越多的AI開發(fā)者注意到了這一問題,并開始改變這一現(xiàn)狀。為了滿足以上需求,LabelFree數(shù)據(jù)標(biāo)注平臺(tái)目前發(fā)布了最新版本,提供高效的標(biāo)注能力,并原生對(duì)接YMIR開源AI模型生產(chǎn)平臺(tái),提供了一站式的AI解決方案。這些低門檻的AI數(shù)據(jù)標(biāo)注解決方案,或?qū)⒃谖磥磉M(jìn)一步加速AI的普及。

    image.png

      數(shù)據(jù)標(biāo)注平臺(tái),能做到既便宜又好用嗎?

      在AI產(chǎn)業(yè),數(shù)據(jù),意味著什么?

      數(shù)據(jù),是AI生產(chǎn)的基座。一個(gè)AI模型從誕生到完善,直至應(yīng)用于產(chǎn)品,實(shí)現(xiàn)商業(yè)化落地,需要大量數(shù)據(jù)的喂養(yǎng)。而在這一過程中,數(shù)據(jù)標(biāo)注給AI模型提供了學(xué)習(xí)數(shù)據(jù)的重要基礎(chǔ),是AI從“人工”到“智能”的第一步。

      在AI產(chǎn)業(yè)鏈條中,數(shù)據(jù)標(biāo)注平臺(tái)基本可劃分為四類:

      其一,是大型企業(yè)開發(fā)的數(shù)據(jù)標(biāo)注平臺(tái),大多服務(wù)于企業(yè)內(nèi)部的AI項(xiàng)目,不會(huì)對(duì)外開放。

      其二,是SaaS類的數(shù)據(jù)標(biāo)注解決方案,企業(yè)及個(gè)人開發(fā)者可付費(fèi)使用。這類服務(wù)的優(yōu)勢(shì)是無需部署,可以直接使用;而劣勢(shì)則是不支持本地化部署,可能存在數(shù)據(jù)合規(guī)風(fēng)險(xiǎn),且大多不支持定制及二次開發(fā)。

      其三,是直接將數(shù)據(jù)標(biāo)注服務(wù)交給外包服務(wù)商,通過服務(wù)商的團(tuán)隊(duì)完成數(shù)據(jù)標(biāo)注工作。其優(yōu)勢(shì)在于省心省力,而劣勢(shì)也十分明顯:數(shù)據(jù)安全、交付速度、標(biāo)注質(zhì)量均不可控。特別是一些具有一定專業(yè)性的標(biāo)注工作,如醫(yī)學(xué)影像類標(biāo)注,更是考驗(yàn)數(shù)據(jù)標(biāo)注服務(wù)商的專業(yè)能力。

      最后,是開源的數(shù)據(jù)標(biāo)注平臺(tái)。與前幾者相比,開源方案的使用門檻更低,且支持二次開發(fā),并支持本地化部署。但與此同時(shí),市面上的開源數(shù)據(jù)標(biāo)注平臺(tái)數(shù)量有限,且許多產(chǎn)品在標(biāo)注員使用、項(xiàng)目管理方面均存在流程復(fù)雜、效率低的問題。因此,開源解決方案始終未能成為行業(yè)主流。

      綜上所述,在數(shù)據(jù)標(biāo)注的工具選擇上,AI開發(fā)者度的需求其實(shí)十分清晰:低成本使用,最好是開源項(xiàng)目,或支持免費(fèi)授權(quán);支持定制或二次開發(fā);可以本地化部署,滿足數(shù)據(jù)可控需求;標(biāo)注、項(xiàng)目管理流程簡(jiǎn)便;最后,最好可以與MLOps平臺(tái)緊密結(jié)合,更快、更好地開發(fā)、測(cè)試及部署模型。

      為了滿足以上需求,開源AI模型生產(chǎn)平臺(tái)項(xiàng)目YMIR在日前上線了數(shù)據(jù)標(biāo)注平臺(tái)——LabelFree,希望通過免費(fèi)、可定制、支持本地部署的解決方案,提升數(shù)據(jù)標(biāo)注平臺(tái)的易用性。

      YMIR的定位是“一站式AI模型生產(chǎn)和部署平臺(tái)”,其簡(jiǎn)化了AI模型的訓(xùn)練流程,支持以無代碼開發(fā)的模式,實(shí)現(xiàn)數(shù)據(jù)管理、數(shù)據(jù)挖掘、模型訓(xùn)練、模型驗(yàn)證等功能。而LabelFree支持與YMIR平臺(tái)無縫銜接,用戶可以在YMIR平臺(tái)選擇數(shù)據(jù)集后直接跳轉(zhuǎn)至LabelFree進(jìn)行標(biāo)注,圖片的標(biāo)注信息會(huì)同步至YMIR,標(biāo)注完成后的數(shù)據(jù)集可以直接用來在YMIR平臺(tái)進(jìn)行模型訓(xùn)練。在后續(xù)模型迭代的過程中,用戶也可以在YMIR和LabelFree之間快速切換,通過挖掘、標(biāo)注和重訓(xùn)練的多次循環(huán),獲得滿意的模型。

      YMIR GitHub頁面

      今年5月,YMIR在GitHub上線。公開資料顯示,其核心發(fā)起人包括云天勵(lì)飛首席科學(xué)家,IEEE Fellow王孝宇;美國(guó)硅谷NEC實(shí)驗(yàn)室媒體分析部主管,印裔科學(xué)家Manmohan Chandraker;前谷歌、亞馬遜、Snap機(jī)器學(xué)習(xí)研究員,硅谷初創(chuàng)公司Heali聯(lián)合創(chuàng)始人、首席AI官,法裔科學(xué)家William Brendel等。

      事實(shí)上,YMIR的許多特性,如一站式服務(wù)、開放式設(shè)計(jì)、免費(fèi)使用等等,都在LabelFree上得以體現(xiàn)。LabelFree提供的低門檻、優(yōu)體驗(yàn)的數(shù)據(jù)標(biāo)注服務(wù),也契合了YMIR的開發(fā)理念——通過開源AI系統(tǒng)能力,讓每一家企業(yè)都能擁抱AI,加速AI產(chǎn)業(yè)化、平民化。

      專注視覺信息標(biāo)注,LabelFree有何不一樣?

      與市面上的大部分?jǐn)?shù)據(jù)標(biāo)注平臺(tái)相比,LabelFree的優(yōu)勢(shì)是什么?

      在產(chǎn)品定位方面,大部分AI數(shù)據(jù)標(biāo)注平臺(tái)都會(huì)同時(shí)支持視覺、語音、文本類數(shù)據(jù)標(biāo)注,而LabelFree則不追求大而全,而是聚焦于計(jì)算機(jī)視覺領(lǐng)域。事實(shí)上,這也是AI數(shù)據(jù)領(lǐng)域最大的數(shù)據(jù)板塊。根據(jù)艾瑞咨詢發(fā)布的《中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)發(fā)展報(bào)告》,中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場(chǎng)中,圖像類數(shù)據(jù)需求占比為49.7%,遠(yuǎn)高于其他類型數(shù)據(jù)。

      對(duì)于專精于計(jì)算機(jī)視覺領(lǐng)域的原因,LabelFree工程師給出的答案是——LabelFree專注于計(jì)算機(jī)視覺數(shù)據(jù)的標(biāo)注,希望依托于頂尖的AI算法團(tuán)隊(duì)、成熟的數(shù)據(jù)標(biāo)注體系、大規(guī)模算法落地經(jīng)驗(yàn)提供最低成本、最高效率的數(shù)據(jù)標(biāo)注能力,讓LabelFree的數(shù)據(jù)標(biāo)注能力躋身行業(yè)第一梯隊(duì)。

      在圖像分割技術(shù)上,LabelFree集成了輔助分割算法。在傳統(tǒng)的標(biāo)注模式下,標(biāo)注員需要手動(dòng)點(diǎn)擊錨點(diǎn),將被標(biāo)注物從圖片中分割出來;引入輔助分割算法后,標(biāo)注員只需點(diǎn)擊標(biāo)注物,系統(tǒng)會(huì)自動(dòng)將標(biāo)注物分割,標(biāo)注員只需要對(duì)錨點(diǎn)進(jìn)行微調(diào),即可完成標(biāo)注。圖像分割等技術(shù)的加入,提升了標(biāo)注員在LabelFree平臺(tái)的標(biāo)注效率,從而降低AI開發(fā)成本。

      事實(shí)上,目前市面上的大部分?jǐn)?shù)據(jù)標(biāo)注平臺(tái),在產(chǎn)品設(shè)計(jì)上更傾向于管理者視角,鮮少關(guān)注數(shù)據(jù)標(biāo)注員的使用體驗(yàn)。在英文世界中,AI數(shù)據(jù)標(biāo)注員常常被媒體稱為“幽靈工人”(ghost worker),他們大多以兼職或遠(yuǎn)程辦公的身份進(jìn)行工作,是AI時(shí)代中常常被忽視的“看不見的人”。

      因此,在AI時(shí)代,數(shù)據(jù)標(biāo)注員的話語權(quán)是缺失的。此外,計(jì)件而非計(jì)時(shí)的計(jì)薪模式,也讓許多數(shù)據(jù)標(biāo)注平臺(tái)沒有動(dòng)力在產(chǎn)品層面優(yōu)化標(biāo)注員的標(biāo)注效率。

      而LabelFree開發(fā)團(tuán)隊(duì)針對(duì)數(shù)據(jù)標(biāo)注員群體開展了大量調(diào)研工作,以優(yōu)化標(biāo)注員的使用體驗(yàn),幫助他們減輕工作壓力,提升工作效率。例如,在圖像復(fù)雜、目標(biāo)眾多的目標(biāo)檢測(cè)場(chǎng)景中,標(biāo)注員對(duì)目標(biāo)的標(biāo)簽設(shè)置存在大量重復(fù)操作,為此,LabelFree特別設(shè)計(jì)了“無限模式“,讓標(biāo)注員可以快捷地對(duì)某一類型連續(xù)操作,達(dá)到最高的生成效率。

      與此同時(shí),針對(duì)數(shù)據(jù)標(biāo)注效率,LabelFree也完善了多人標(biāo)注協(xié)作體驗(yàn),并原生支持分布式對(duì)象存儲(chǔ),以解決海量標(biāo)注數(shù)據(jù)的存儲(chǔ)問題,降低存儲(chǔ)成本,提升數(shù)據(jù)安全。

      在提升數(shù)據(jù)標(biāo)注效率的同時(shí),LabelFree與YMIR的無縫銜接也簡(jiǎn)化了AI模型的訓(xùn)練流程。在LabelFree平臺(tái)上完成標(biāo)注后,AI工程師可以直接在YMIR上進(jìn)行模型訓(xùn)練,檢驗(yàn)?zāi)P陀?xùn)練成果,并將新的模型在LabelFree上進(jìn)行預(yù)標(biāo)注,同時(shí)提升數(shù)據(jù)標(biāo)注與模型訓(xùn)練的工作流效率。

      LabelFree使用文檔

      此外,最重要的是,LabelFree支持本地化、私有化部署,用戶可以在以私有化的形式安裝LabelFree,將數(shù)據(jù)留存在可控范圍內(nèi),在保證數(shù)據(jù)安全的前提下完成數(shù)據(jù)標(biāo)注流程。而這一特性,對(duì)于醫(yī)院、學(xué)校等信息敏感類客戶而言至關(guān)重要。

      在商業(yè)化方面,LabelFree提供數(shù)據(jù)標(biāo)注解決方案、定制化開發(fā)、技術(shù)支持,以滿足專業(yè)商業(yè)客戶的需求。此外,有AI需求的客戶可以在算法商城模塊上試用現(xiàn)有的算法方案,結(jié)合自身數(shù)據(jù)完善自己的AI模型。

      提煉「數(shù)據(jù)石油」——AI數(shù)據(jù)服務(wù)市場(chǎng)迅速成長(zhǎng)

      未來,AI數(shù)據(jù)服務(wù)行業(yè)將駛向何方?

      早在2017年,《經(jīng)濟(jì)學(xué)人》雜志就曾發(fā)表封面文章,提出了“數(shù)據(jù)石油”的概念——“世界上最有價(jià)值的資源不再是石油,而是數(shù)據(jù)”。與石油類似,數(shù)據(jù)本身價(jià)值有限,只有經(jīng)過“提煉”之后,才能爆發(fā)出巨大的價(jià)值。

      而數(shù)據(jù)標(biāo)注平臺(tái)則成為了“提煉數(shù)據(jù)石油”的關(guān)鍵。一方面,越來越好用的數(shù)據(jù)標(biāo)注平臺(tái),完善了AI產(chǎn)業(yè)的基礎(chǔ)設(shè)施,從而帶動(dòng)更多開發(fā)者及企業(yè)加入到AI產(chǎn)業(yè),也可以做大AI數(shù)據(jù)標(biāo)注員的就業(yè)市場(chǎng),創(chuàng)造更多就業(yè)崗位。

      2020年2月,人力資源社會(huì)保障部聯(lián)合多部門發(fā)布通知,正式將“人工智能訓(xùn)練師”列為新職業(yè),并納入國(guó)家職業(yè)分類目錄。這意味著AI數(shù)據(jù)標(biāo)注員這一職業(yè)獲得了國(guó)家層面的認(rèn)可。

      而另一方面,以數(shù)據(jù)標(biāo)注、處理為代表的AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng),仍處于高速增長(zhǎng)之中。這意味著,數(shù)據(jù)標(biāo)注平臺(tái)、數(shù)據(jù)采集服務(wù)等AI基礎(chǔ)數(shù)據(jù)服務(wù),在未來存在著巨大的增長(zhǎng)空間。

      艾瑞咨詢的數(shù)據(jù)顯示,包括數(shù)據(jù)采集、數(shù)據(jù)處理(標(biāo)注)、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘等模塊在內(nèi)的AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng),將在未來數(shù)年內(nèi)持續(xù)增長(zhǎng),到2025年,國(guó)內(nèi)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)的整體規(guī)模預(yù)計(jì)將達(dá)到101.1億元,整體市場(chǎng)增速將達(dá)到31.8%(2024-2025年)。

      AI數(shù)據(jù)基礎(chǔ)設(shè)施的不斷完善,將會(huì)推動(dòng)更多數(shù)據(jù)流動(dòng)起來,投入到AI模型訓(xùn)練的應(yīng)用之中,并緩解困擾行業(yè)已久的“數(shù)據(jù)煙囪”問題。在大數(shù)據(jù)時(shí)代,挖掘數(shù)據(jù)價(jià)值比以往任何時(shí)刻都更重要,正如“大數(shù)據(jù)之父”、牛津大學(xué)舍恩伯格在《大數(shù)據(jù)時(shí)代》一書所言:“在大數(shù)據(jù)時(shí)代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己‘發(fā)聲’。”

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    [No. X058-2]
    分享到微信

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。