高顏值硬核實(shí)力的純電SUV,一汽大眾ID.4 CROZZ重磅來襲突破敘事尺度 刻畫極致人物 迷霧劇場《漂白》1月17日上線愛奇藝1月20日手機(jī)數(shù)碼國補(bǔ)落地京東 超千萬國補(bǔ)商品等你挑選超千萬貨品已備足 1月20日來京東購手機(jī)享國家補(bǔ)貼每件最高500元擁抱創(chuàng)新科技,探尋體育變革之路—— 第二屆LALIGA EXTRATIME體育行業(yè)論壇在京成功舉辦斑馬技術(shù)《2025全球消費(fèi)者調(diào)查報(bào)告》:注重防損管理,增強(qiáng)顧客體驗(yàn)終端創(chuàng)企Nothing擬募資1億美元 一加聯(lián)合創(chuàng)始人創(chuàng)立恩智浦獲歐洲投資銀行 10 億歐元貸款,用于在歐多國研發(fā)創(chuàng)新工作入手松下ZS99相機(jī)新品首選京東 售價2998元可先人一步入手1月20日打開京東搜索「1」 3C數(shù)碼“瘋狂星期一”爆款低至1元當(dāng)代年輕人用上AI,從夸克開始消息稱iPhone SE 4將有白色和黑色 預(yù)計(jì)3月份推出全球PC市場迎來溫和復(fù)蘇:2024年出貨量增長1.3%,聯(lián)想和蘋果表現(xiàn)亮眼比亞迪已在韓國推出Atto 3 預(yù)計(jì)2月中旬開始交付發(fā)展新質(zhì)生產(chǎn)力 賦能健康產(chǎn)品力 ——勁牌有限公司2024年度科技責(zé)任(成果)報(bào)告美光減產(chǎn)后 SK海力士也計(jì)劃將上半年NAND閃存產(chǎn)量削減一成趙明離職信曝光:離開榮耀是人生中最艱難的決定消息稱京東服飾換帥,阿里前高管擔(dān)任負(fù)責(zé)人這年頭,誰在互聯(lián)網(wǎng)上學(xué)這么“硬核”的AI?開戰(zhàn)2025,本地生活商家「另辟蹊徑」
  • 首頁 > 企業(yè)IT頻道 > 人工智能

    從小作坊到大生產(chǎn),AI數(shù)據(jù)標(biāo)注轉(zhuǎn)捩點(diǎn)

    2019年12月17日 10:42:26   來源:消費(fèi)日報(bào)網(wǎng)綜合

      2018年初,「甲子光年」曾發(fā)布《“數(shù)據(jù)折疊”:今天,那些人工智能背后“標(biāo)數(shù)據(jù)的人”正在回家》。勞動密集型是人們對數(shù)據(jù)標(biāo)注行業(yè)的固有印象,基層數(shù)據(jù)標(biāo)注員被視為數(shù)據(jù)時代的“隱形人”,他們的工作日常就是坐在擁擠的小房間里,不停地按動鼠標(biāo),框取對象,依靠微薄的月薪在繁華的大城市里找到自己立足的一席之地。

      而不久前的一個周三,「甲子光年」在位于房山的云測數(shù)據(jù)標(biāo)注基地看到了另一種行業(yè)作業(yè)形式。

      云測數(shù)據(jù)的其中一個標(biāo)注基地是坐落于房山區(qū)北京金融安全創(chuàng)意產(chǎn)業(yè)園的一幢四層半高的小樓,一半是開放式辦公區(qū)域,另一半是按項(xiàng)目組設(shè)置的封閉房間,除了房間四角安裝的監(jiān)視器之外,跟普通的創(chuàng)業(yè)孵化園區(qū)并沒有太大區(qū)別。

      第三層主要處理對安全性較高的數(shù)據(jù)標(biāo)注業(yè)務(wù),設(shè)了門禁,需要通過指紋識別才能進(jìn)入。

      標(biāo)注員李楠(化名)告訴「甲子光年」,兩個月前,她剛從數(shù)據(jù)標(biāo)注員升級為質(zhì)檢員。

      她在大董村跟同學(xué)合租了一個20平的開間,起初是四人合租,漲薪之后變成兩人。她每天上午步行十分鐘到基地上班,偶爾也需要加班。閑暇時間,她會練練手卷鋼琴緩解工作壓力。

      云測數(shù)據(jù)房山數(shù)據(jù)標(biāo)注基地的磚紅色大樓,每日吞吐著數(shù)百名數(shù)據(jù)標(biāo)注人員。這里不僅是他們的工作地點(diǎn),也是他們周末的燒烤聚會地。

      從業(yè)者生活和工作方式改變的背后是數(shù)據(jù)標(biāo)注行業(yè)拐點(diǎn)的到來:蠻荒時代正在過去。

      智研發(fā)布的數(shù)據(jù)標(biāo)注行業(yè)報(bào)告指出,2018年我國數(shù)據(jù)標(biāo)注與審核行業(yè)規(guī)模達(dá)到52.55億元,其中34%左右的業(yè)務(wù)量流向?qū)I(yè)做數(shù)據(jù)采標(biāo)的第三方公司。

      「甲子光年」觀察到,供給側(cè)的馬太效應(yīng)開始顯現(xiàn),體量較大的公司呈現(xiàn)出兩種業(yè)態(tài):一是眾包平臺、二是定制化服務(wù)。

      在眾包賽道上,已誕生了Scale AI、Appen為代表的明星獨(dú)角獸。而定制化服務(wù)模式對企業(yè)管理和標(biāo)注員的要求較高,代表玩家包括云測數(shù)據(jù)、百度。

      本篇,「甲子光年」以提供定制化標(biāo)注服務(wù)的云測數(shù)據(jù)為例,看數(shù)據(jù)標(biāo)注自營模式的發(fā)展與挑戰(zhàn),以及數(shù)據(jù)標(biāo)注的未來圖景。

      成立于2011年的Testin云測公司,以應(yīng)用測試服務(wù)起家;2017年正式啟動了數(shù)據(jù)標(biāo)注業(yè)務(wù)。截至目前,云測數(shù)據(jù)已擁有近千名全職數(shù)據(jù)服務(wù)人員,服務(wù)領(lǐng)域包括自動駕駛、智能家居、智慧城市、智能金融和新零售等領(lǐng)域,客戶數(shù)量已達(dá)數(shù)百級,標(biāo)注業(yè)務(wù)客單價已達(dá)百萬級。

      「甲子光年」采訪了云測數(shù)據(jù)總經(jīng)理賈宇航、云測數(shù)據(jù)交付負(fù)責(zé)人朱文輝、Testin云測CMO張鵬飛、IDG資本?、品覽創(chuàng)始人兼CEO李一帆、某Robo-taxi公司深度學(xué)習(xí)技術(shù)負(fù)責(zé)人Ted(化名)及多位數(shù)據(jù)標(biāo)注從業(yè)者,并實(shí)地走訪了云測數(shù)據(jù)標(biāo)注基地,發(fā)現(xiàn)數(shù)據(jù)標(biāo)注行業(yè)的以下趨勢正逐漸顯現(xiàn):

      第三方數(shù)據(jù)服務(wù)的外包公司正在數(shù)據(jù)標(biāo)注行業(yè)中獲得更多市場;效率、安全等因素綜合而成的性價比成為當(dāng)下競爭核心;在定制化服務(wù)的模式中,工具提效和管理優(yōu)化成為構(gòu)筑效率壁壘的關(guān)鍵。

      1.拐點(diǎn)將至

      Garbage in, garbage out.

      數(shù)據(jù)、算力、算法是推動人工智能技術(shù)進(jìn)步的“三駕馬車”,其中數(shù)據(jù)是人工智能行業(yè)的發(fā)展基石,數(shù)據(jù)對人工智能很重要,“沒有好的數(shù)據(jù),人工智能沒有未來”早已是行業(yè)共識。

      新變化在于,隨著人工智能技術(shù)落地場景,不同場景提出了更高質(zhì)量、更多元的數(shù)據(jù)需求。

      對視覺數(shù)據(jù)標(biāo)注需求非常大的自動駕駛領(lǐng)域,很好地展現(xiàn)了數(shù)據(jù)標(biāo)注服務(wù)的業(yè)態(tài)變化。

      在2016年,人工智能隨AlaphGo強(qiáng)勢崛起并引發(fā)一系列創(chuàng)業(yè)、創(chuàng)新活動后,數(shù)據(jù)標(biāo)注迎來第一次真正意義上的爆發(fā),但由于當(dāng)時各公司的人工智能業(yè)務(wù)多處于“跑Demo"、“做研發(fā)”的落地前環(huán)節(jié)——在質(zhì)上,用標(biāo)準(zhǔn)數(shù)據(jù)集就可滿足;在量上,規(guī)模也不可與現(xiàn)在相比。

      所以當(dāng)時的數(shù)據(jù)標(biāo)注行業(yè)門檻較低,小作坊遍地開花,被視為“人工智能背后的富士康工廠”,標(biāo)注人員也魚龍混雜。「甲子光年」FA副總裁李世民介紹,在粗放期,數(shù)據(jù)標(biāo)注的工作頁面和網(wǎng)頁版PS十分相似,重復(fù)性的簡單拉框就能實(shí)現(xiàn)項(xiàng)目需求,一張圖的價格不過幾分錢,外包商全靠數(shù)量獲取微薄利潤。

      而以Waymo、小馬智行、文遠(yuǎn)知行等為代表的做L4級自動駕駛系統(tǒng)的公司或其他對數(shù)據(jù)有較高要求的公司,則多在內(nèi)部建立標(biāo)注團(tuán)隊(duì),解決前期的標(biāo)注問題。

      然而,從近兩年的市場數(shù)據(jù)來看,第三方數(shù)據(jù)標(biāo)注與審核公司開始變多;原本十分分散的數(shù)據(jù)標(biāo)注行業(yè)走向?qū)I(yè)化的拐點(diǎn)正在發(fā)生。

      智研統(tǒng)計(jì)數(shù)據(jù)顯示,2018年我國數(shù)據(jù)標(biāo)注與審核行業(yè)規(guī)模達(dá)到52.55億元,約34%的業(yè)務(wù)量流向?qū)I(yè)做數(shù)據(jù)采標(biāo)的第三方公司。

      其中,專業(yè)第三方數(shù)據(jù)標(biāo)注與審核公司的業(yè)務(wù)增速始終維持在全行業(yè)的最高水準(zhǔn),超越行業(yè)平均值、人工智能企業(yè)內(nèi)部標(biāo)注和人工智能外包公司相應(yīng)業(yè)務(wù)增速;即便在增長相對放緩的2017-2018年也高達(dá)88.11%。

      這背后有三大驅(qū)動力。

      一是成本問題——這是專業(yè)第三方公司相比于自營的優(yōu)勢:隨著數(shù)據(jù)量越來越大,如果雇傭大量人力進(jìn)行數(shù)據(jù)標(biāo)注,大多數(shù)人工智能公司都無法攻克人員管理的挑戰(zhàn)和承擔(dān)隨著數(shù)據(jù)量增長的巨額薪資。

      二是質(zhì)量問題——這是更成規(guī)模的專業(yè)第三方公司相比于外包小作坊的優(yōu)勢,自營數(shù)據(jù)團(tuán)隊(duì)的第三方模式在這一點(diǎn)上尤為明顯;因?yàn)樯⒈斡潞托⌒凸ぷ魇?較難在崗前培訓(xùn)、質(zhì)量控制和數(shù)據(jù)安全上做足夠的投入。

      三是客戶結(jié)構(gòu)改變帶來的新機(jī)會——即除了人工智能公司或有相關(guān)業(yè)務(wù)的科技公司外,各行各業(yè)的企業(yè)都開始更多投入數(shù)字化和人工智能,其中部分企業(yè),一方面有對外采購技術(shù)服務(wù)的習(xí)慣和流程,一方面又缺乏非常先進(jìn)、成熟的內(nèi)部人工智能技術(shù),比如無法像很多人工智能公司那樣,快速開發(fā)自己的標(biāo)注提效工具,這類公司會更加倚重專業(yè)的第三方服務(wù),這擴(kuò)大了整體市場規(guī)模。

      對數(shù)據(jù)標(biāo)注需求大且復(fù)雜的自動駕駛公司也逐漸從最初的主要依靠自有團(tuán)隊(duì)標(biāo)注轉(zhuǎn)向部分采購第三方服務(wù)。

      某Robo-Taxi公司深度學(xué)習(xí)技術(shù)負(fù)責(zé)人Ted(化名)告訴「甲子光年」,現(xiàn)在,公司內(nèi)部的數(shù)據(jù)團(tuán)隊(duì)除了數(shù)據(jù)檢查,還會負(fù)責(zé)比較特殊的數(shù)據(jù)類型標(biāo)注,但需要大量數(shù)據(jù)的方向,會找外包公司。

      “對于Robo-taxi這種比較specific(專業(yè))的產(chǎn)業(yè)來說,最終目標(biāo)是實(shí)現(xiàn)100%的無人駕駛,這意味著我們的模型不能出錯。”Ted解釋:“但再高精度的機(jī)器算法,再全面的傳感器設(shè)置,也只能保證95%的準(zhǔn)確率,要想更上一層樓,必須依賴更精準(zhǔn)的標(biāo)注數(shù)據(jù)用于算法提升。”

      需求側(cè)的變化,傳導(dǎo)到供給側(cè),引起了一輪洗牌。

      一方面,馬太效應(yīng)日顯。

      誕生于硅谷的Scale AI,在短短三年內(nèi),成長為市值破十億美元的明星獨(dú)角獸,而今年的銷售額已增長至近億美元,4個月前,還宣布完成了1億美元的C輪融資。國內(nèi)巨頭的增速同樣亮眼,例如Testin云測旗下數(shù)據(jù)標(biāo)注品牌“云測數(shù)據(jù)”,業(yè)務(wù)規(guī)模量每年都在以倍數(shù)的規(guī)模增長。而據(jù)艾瑞咨詢最新報(bào)告顯示,2018年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)年復(fù)合增長率為23.5%,數(shù)據(jù)標(biāo)注賽道主要玩家的增速遠(yuǎn)高于行業(yè)平均水平。

      另一方面,更多類型的玩家都想來分一杯羹:

      國際巨頭亞馬遜、Appen早早入場,已在數(shù)據(jù)標(biāo)注市場占據(jù)一席之地。國內(nèi)BAT等老牌互聯(lián)網(wǎng)巨頭也將數(shù)據(jù)標(biāo)注納入自己公司的業(yè)務(wù)范圍,成立項(xiàng)目組(部),對內(nèi)降本,對外創(chuàng)收,如阿里數(shù)據(jù)和京東眾智。

      近來,行業(yè)頭部企業(yè)進(jìn)一步涌現(xiàn),如2015年成立的Scale AI,3年躋身獨(dú)角獸;以測試起家的Testin云測在2017年積極布局?jǐn)?shù)據(jù)標(biāo)注領(lǐng)域。

      仔細(xì)分析這些主要玩家,其實(shí)模式主要有兩種:一是眾包平臺,二是自營團(tuán)隊(duì)。

      前者以“需求公司——標(biāo)注公司作為數(shù)據(jù)標(biāo)注平臺——第三方標(biāo)注團(tuán)隊(duì)協(xié)作”為主要結(jié)構(gòu),起到串聯(lián)有數(shù)據(jù)標(biāo)注需求的客戶以及零散的大眾志愿者的作用。

      后者則省卻了中間眾包商環(huán)節(jié),形成“需求公司——數(shù)據(jù)標(biāo)注公司”的垂直結(jié)構(gòu)。

      “目前,大多數(shù)公司采用眾包模式,國際上大名鼎鼎的如Scale AI、Amazon Mechanical Turk以及澳洲Appen走的都是這條道路。”李世民說。

      而云測數(shù)據(jù),則選擇了玩家更少、專業(yè)性更高的一條路——定制化數(shù)據(jù)服務(wù)。

      云測數(shù)據(jù)的選擇來自對市場和自身的思考、判斷。

      “兩種模式其實(shí)是共存的,客戶可以根據(jù)自身需求進(jìn)行取舍。”云測數(shù)據(jù)交付部門負(fù)責(zé)人朱文輝評價道,但就當(dāng)前標(biāo)注規(guī)則愈加復(fù)雜、交付周期縮短且對安全性要求提高的市場趨勢來說,定制化模式更有前景。

      云測數(shù)據(jù)總經(jīng)理賈宇航告訴「甲子光年」,隨著人工智能對數(shù)據(jù)采標(biāo)的復(fù)雜度和精細(xì)度要求變高,眾包在現(xiàn)有技術(shù)條件下,很難實(shí)現(xiàn)品控。

      “以人臉識別為例,以前的需求是拉框、標(biāo)注五官,現(xiàn)在需要標(biāo)注幾百個點(diǎn),精確到3-5像素以內(nèi)。”賈宇航補(bǔ)充說:“我們希望通過精準(zhǔn)高質(zhì)、獨(dú)立安全的數(shù)據(jù)幫助客戶快速構(gòu)建核心壁壘。”

      此外,云測數(shù)據(jù)從測試業(yè)務(wù)中繼承了to B的企業(yè)基因,一方面積累了品牌口碑和客戶資源,另一方面也貫徹了嚴(yán)格把控質(zhì)量的管理風(fēng)格,這也是云測數(shù)據(jù)入局?jǐn)?shù)據(jù)標(biāo)注的優(yōu)勢所在。

      Testin云測投資方,IDG資本?饪偨Y(jié)道,效率和貼合度是當(dāng)前數(shù)據(jù)標(biāo)注供應(yīng)商競爭的核心:“定制化可以用最高效的方式提供人工智能落地前最后一公里的數(shù)據(jù)服務(wù)。”

      他認(rèn)為,隨著人工智能產(chǎn)品進(jìn)入落地多元行業(yè)和場景,作為人工智能算法的“養(yǎng)料”,數(shù)據(jù)也向著場景化發(fā)展?梢哉f在算法、算力沒有重大突破的前提下,場景化的數(shù)據(jù)就是核心優(yōu)勢。因此貼合度較高的定制化服務(wù)能力就顯得尤為重要。

      2.雙面“做重”

      從實(shí)踐效果看,云測數(shù)據(jù)的選擇在市場和客戶之中獲得了很多良性反饋。

      “我們的業(yè)務(wù)規(guī)模量每年都在以倍數(shù)的規(guī)模增長。”賈宇航告訴「甲子光年」,云測數(shù)據(jù)標(biāo)注服務(wù)了安防、駕駛、金融、家居等領(lǐng)域的上百家企業(yè)。

      “自動駕駛產(chǎn)業(yè)是比較適合定制化服務(wù)的。”Ted表示將跟云測數(shù)據(jù)建立長期的合作關(guān)系。

      Ted接觸過很多數(shù)據(jù)標(biāo)注供應(yīng)商,包括硅谷的Scale AI,國內(nèi)的云測數(shù)據(jù)、BasicFinder和百度數(shù)據(jù)等,他采取“試標(biāo)注”這種遍地撒網(wǎng)的方法——將相同的標(biāo)注樣本給到不同的標(biāo)注公司,根據(jù)標(biāo)注結(jié)果擇優(yōu)合作——挑選最具“性價比”合作伙伴。

      作為客戶,Ted認(rèn)為,首先,打價格戰(zhàn)的時代已經(jīng)過去了,同一價格區(qū)間內(nèi),質(zhì)優(yōu)者勝。

      “質(zhì)量代表著速度。”李世民解釋說,人工智能工程師的時薪很高,企業(yè)雇傭他們處理數(shù)據(jù)的成本也很高,一旦數(shù)據(jù)失準(zhǔn),在上游的數(shù)據(jù)標(biāo)注和下游的人工智能工程師兩端,會產(chǎn)生雙重的成本浪費(fèi)。

      例如,在一個機(jī)器學(xué)習(xí)的完整工作鏈條中,數(shù)據(jù)清洗和標(biāo)注在總?cè)蝿?wù)中所占的時間比例超過50%。如果無法保證數(shù)據(jù)的準(zhǔn)確性,便會出現(xiàn)無效訓(xùn)練和無限返工的惡性循環(huán),對寸時寸金的人工智能公司行業(yè)而言,這無疑會造成巨大的負(fù)面影響。

      “畢竟是勞動密集型工種,定制化的人員培訓(xùn)很重要。在全景標(biāo)注和3D點(diǎn)云這類難點(diǎn)項(xiàng)目上體現(xiàn)得尤為明顯。”Ted補(bǔ)充說,全景圖中標(biāo)的物多且雜亂,稍不注意就會有錯漏,整張圖都要打回重標(biāo);3D點(diǎn)云中,距離較遠(yuǎn)的物體點(diǎn)數(shù)較少,很難識別,更別提辨別朝向了。

      一張全景分割或3D點(diǎn)云的標(biāo)注單價高達(dá)20-30元(價格以項(xiàng)目需求為準(zhǔn),不作為行業(yè)參考價),但Ted看來,“即便價格高一點(diǎn),我也愿意跟云測數(shù)據(jù)這樣互動性強(qiáng)、準(zhǔn)確度高、保密性好的數(shù)據(jù)標(biāo)注公司合作。”

      其實(shí),對于整個人工智能行業(yè)來說,高質(zhì)數(shù)據(jù)的價值都在日益凸顯。

      曾負(fù)責(zé)過企業(yè)軟件采購的朱文輝,對成本和質(zhì)量的取舍之道很有心得:“手頭也有過幾百上千萬的預(yù)算,特別明白客戶的心態(tài)——寧愿多付錢也要質(zhì)量過關(guān)的產(chǎn)品。”

      其次,在選擇供應(yīng)商時,互聯(lián)網(wǎng)巨頭不如獨(dú)立第三方數(shù)據(jù)標(biāo)注公司吃香。

      “大廠的業(yè)務(wù)水準(zhǔn)雖然非常advanced(先進(jìn)),但考慮到母公司可能也有自動駕駛的團(tuán)隊(duì)或業(yè)務(wù),難免會擔(dān)心自家數(shù)據(jù)被拿去訓(xùn)練別人的模型;再加上要價不菲,所以合作并不多。”

      Ted繼續(xù)補(bǔ)充,如果跟第三方數(shù)據(jù)標(biāo)注公司合作,就不用擔(dān)憂這種問題。他們要價合理,而且既不會把數(shù)據(jù)外泄,也不會自用。

      最后,固定數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的優(yōu)勢還在于,長期服務(wù)某類項(xiàng)目能實(shí)現(xiàn)自我迭代。

      專注于人工智能視覺領(lǐng)域的物品識別的品覽數(shù)據(jù)科技也是云測數(shù)據(jù)的客戶之一,其創(chuàng)始人兼CEO李一帆認(rèn)為,對于一些需要搭建測試環(huán)境、要求專業(yè)知識儲備或涉及復(fù)雜場景的數(shù)據(jù)標(biāo)注任務(wù)來說,標(biāo)注人員培訓(xùn)成本較高,如果長期有這樣高價值的標(biāo)注需求,定制化的性價比反而更高。

      把數(shù)據(jù)效率放在第一位的自營團(tuán)隊(duì),很擅長應(yīng)對這類需要專人快速響應(yīng)的標(biāo)注需求。

      朱文輝告訴「甲子光年」,近年來,客戶面臨的競爭壓力變大,花錢更為謹(jǐn)慎。雖然整個市場對數(shù)據(jù)標(biāo)注的需求在上升,但場景差異變大,相應(yīng)地人力成本也在上升。“量小、批次多、難度大是整個數(shù)據(jù)標(biāo)注市場的大趨勢。”朱文輝補(bǔ)充道。

      另外,自營團(tuán)隊(duì)一般會根據(jù)項(xiàng)目組織人員,在兩三批數(shù)據(jù)的交付之后,標(biāo)注員會變得更加熟練,效率也會自然跟著提高。

      但任何一種模式都是雙刃劍,定制化也有挑戰(zhàn)和短板,即人工成本和管理成本高,且應(yīng)對需求的彈性不足。

      對標(biāo)Scale AI的Graviti創(chuàng)始人崔運(yùn)凱評價說:“定制化模式對抗業(yè)務(wù)潮汐的能力較差。”

      需求的彈性會導(dǎo)致自營團(tuán)隊(duì)模式出現(xiàn)人員冗余或人員短缺的問題,任務(wù)分發(fā)上不如眾包公司靈活;人力成本也高,尤其隨著數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的線性擴(kuò)張,管理團(tuán)隊(duì)層級會增多,人數(shù)會指數(shù)級增長。

      3. 效率壁壘

      經(jīng)緯的創(chuàng)始合伙人張穎曾對創(chuàng)業(yè)公司提出短中期內(nèi)最有意義的七條建議,第一條便是:所有輕公司以后都會做重,也必須做重,只有做重才能有效抗拒巨頭殺入,也唯有如此才能做大。

      其實(shí)不管是重的定制化服務(wù),還是輕的眾包平臺,表面的輕重之外,真正核心的是滿足市場當(dāng)下需求與公司自身效率之間的平衡。

      從需求的角度來說,目前市場的兩個特點(diǎn),能一定程度上自然規(guī)避定制化的弊端。

      首先,整個市場仍在放量增長,尤其是傳統(tǒng)行業(yè),會成為數(shù)據(jù)標(biāo)注的新增長引擎。

      2017年賈宇航從Testin云測北美事業(yè)部回到北京總部,并與很多美國的人工智能從業(yè)者都保持著密切聯(lián)系,他認(rèn)為中國市場具有獨(dú)特性,傳統(tǒng)行業(yè)智能化升級對數(shù)據(jù)標(biāo)注市場的拓展?jié)摿Σ豢尚∮U。

      在五年的旅美生涯中,賈宇航觀察到,中國人的模式創(chuàng)新意識更強(qiáng),更容易出現(xiàn)分散式的產(chǎn)業(yè)革新,“美國全靠Google和Amazon這樣的巨頭帶動,相比之下,中國人工智能落地的動力多了一級,這將是一個高新科技產(chǎn)業(yè)和傳統(tǒng)產(chǎn)業(yè)相向而行的過程,其中的市場空間是無窮的。”

      隨著人工智能在金融、醫(yī)療、安防等多個領(lǐng)域?qū)崿F(xiàn)技術(shù)落地,人工智能公司對數(shù)據(jù)的使用逐漸有“大”的趨勢,整個行業(yè)正在逐漸向多模態(tài)、多場景、高精度的方向發(fā)展。

      基于這一洞察,企業(yè)服務(wù)型公司Testin云測擴(kuò)展了數(shù)據(jù)標(biāo)注業(yè)務(wù)品牌云測數(shù)據(jù),通過自建數(shù)據(jù)場景實(shí)驗(yàn)室和數(shù)據(jù)標(biāo)注基地,為智能駕駛、智能家居、智慧城市、智慧金融、新零售等領(lǐng)域提供定制化的數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注服務(wù)。今年早些時候,Testin云測CTO陳冠誠曾在采訪中表示,云測數(shù)據(jù)在AI數(shù)據(jù)采集標(biāo)注行業(yè)將繼續(xù)扮演“同行者”的角色,除了滿足客戶的需求之外,還希望提供更高效率的服務(wù):“我們一直在用工程化迭代的技術(shù)不斷改進(jìn)采集標(biāo)注的流程效率、加快人工標(biāo)注速度。”

      其次,當(dāng)前市場還處于藍(lán)海,所以潮汐現(xiàn)象和浪費(fèi)不明顯。

      提及業(yè)務(wù)潮汐的風(fēng)險(xiǎn),賈宇航答道:“我認(rèn)為這個問題目前不對我們造成任何困擾,市場供需極不平衡,打個比方,我們和客戶之間比較類似高精尖企業(yè)和人才之間的供給關(guān)系,需求遠(yuǎn)大于供應(yīng)量。”

      很多數(shù)據(jù)標(biāo)注從業(yè)者也有類似的評價,有人將數(shù)據(jù)標(biāo)注市場形容成“一片商業(yè)藍(lán)海”,也有人說“同行之間甚至都算不上競爭對手”。

      說法大同小異,結(jié)論卻很一致:目前人工智能行業(yè)對精確優(yōu)質(zhì)、安全獨(dú)立的數(shù)據(jù)標(biāo)注服務(wù)需求極大。

      Testin云測CMO張鵬飛也強(qiáng)調(diào),“從整體看來,AI數(shù)據(jù)行業(yè)關(guān)于安全、隱私等方面并沒有統(tǒng)一的標(biāo)準(zhǔn)和強(qiáng)調(diào)重視。但從我們長遠(yuǎn)角度出發(fā),一直在隱私和安全防護(hù)角度下大力氣服務(wù)行業(yè)、樹立數(shù)據(jù)質(zhì)量標(biāo)桿,只有以這種負(fù)責(zé)的態(tài)度來服務(wù)客戶,我們的行業(yè)才能‘良幣驅(qū)除劣幣’,真正讓人工智能成為新一輪技術(shù)革命,改變整個社會和人類進(jìn)程”。

      整個行業(yè)在可預(yù)見的很長時間內(nèi)都會處于供不應(yīng)求的賣方市場。

      此外,對于Testin云測這一類企業(yè)服務(wù)賽道上的明星玩家來說,此時入場擴(kuò)張數(shù)據(jù)標(biāo)注業(yè)務(wù)更是近水樓臺先得月——他們以往的測試等業(yè)務(wù)已積累了一批現(xiàn)成的渠道商。

      連續(xù)創(chuàng)業(yè)者李一帆起初是Testin云測測試業(yè)務(wù)的客戶,2018年成立品覽后有了數(shù)據(jù)標(biāo)注的新需求,他選擇了跟“老伙計(jì)”Testin云測繼續(xù)合作。

      “其實(shí)我也向其他數(shù)據(jù)標(biāo)注公司詢過價,最終選擇云測數(shù)據(jù)是出于兩方面的考慮。”李一帆解釋道:“一是因?yàn)楦鼡Q合作機(jī)構(gòu)的切換成本和溝通成本太高;二是相對于其他數(shù)據(jù)標(biāo)注機(jī)構(gòu),對云測數(shù)據(jù)的專業(yè)度和服務(wù)質(zhì)量比較了解,更看好云測數(shù)據(jù)的質(zhì)量和安全性把控,和對人工智能行業(yè)的前瞻思考,也更有信心。”

      云測數(shù)據(jù)的人工智能數(shù)據(jù)團(tuán)隊(duì)運(yùn)營至今已制定了一套包含任務(wù)分配、需求分析、需求確認(rèn)、數(shù)據(jù)清洗、試標(biāo)確認(rèn)、進(jìn)度控制、質(zhì)量保障等流程的完整作業(yè)體系。

      牛奎光評價道,Testin云測一開始更多的是提供基于質(zhì)量工程化的服務(wù),隨著人工智能時代的到來,對人工智能企業(yè)提供數(shù)據(jù)服務(wù),實(shí)際上也是在加速移動互聯(lián)網(wǎng)、產(chǎn)業(yè)互聯(lián)網(wǎng)、人工智能產(chǎn)業(yè)的生命周期。

      朱文輝告訴「甲子光年」,就整個數(shù)據(jù)標(biāo)注市場而言,合作與競爭都是下一個階段的議題,同行還在自覺共建行業(yè)生態(tài)和品牌聲譽(yù),“把蛋糕做大”才是當(dāng)前的發(fā)展重心。

      此外,自營團(tuán)隊(duì)做定制化數(shù)據(jù)服務(wù),是不是一定效率低下?

      可以用制造業(yè)來類比,半手工的作坊和機(jī)器大工業(yè)生產(chǎn),雖然同屬“制造”,但效率天差地別。差距由兩個關(guān)鍵因素導(dǎo)致,一是自動化水平,也就是工具提效;二是生流程管理——云測數(shù)據(jù)在這兩方面都已有較多探索。

      在工具提效方面,云測數(shù)據(jù)自研了一套可以支持圖片、語音、文本等多品類的標(biāo)注工具,并開發(fā)了三維標(biāo)注工具,尤其是在3D點(diǎn)云的標(biāo)注系統(tǒng)中優(yōu)化了渲染引擎,保證整個過程的流暢和快捷,當(dāng)屬業(yè)內(nèi)領(lǐng)先。

      “我們注意到在3D點(diǎn)云連續(xù)幀標(biāo)注時,前后幀的切換非常耗時,云測數(shù)據(jù)的web GL工程師通過自研渲染工具把緩沖時長縮減至十分流暢。”賈宇航在北京總部向「甲子光年」展示了優(yōu)化之后的標(biāo)注工具。

      據(jù)朱文輝介紹,云測組建了一支專門的研發(fā)團(tuán)隊(duì),“研發(fā)團(tuán)隊(duì)里有產(chǎn)品經(jīng)理、前后端工程師”等,他們會針對不同領(lǐng)域循環(huán)式地改進(jìn)標(biāo)注工具,并根據(jù)客戶需求,實(shí)時反饋、實(shí)時更新、實(shí)時研發(fā)。“平均每季度或更快有一次較大的迭代。”朱文輝回憶道:“迭代之后有些領(lǐng)域的效率提高了三倍不止。”云測數(shù)據(jù)從啟動伊始,就十分重視技術(shù)提效,陳冠誠曾在采訪中提及:“(云測)數(shù)據(jù)采集標(biāo)注的客戶遍布各行各業(yè),對于文本數(shù)據(jù)、語音數(shù)據(jù)、視頻數(shù)據(jù)甚至是激光雷達(dá)的3D點(diǎn)云數(shù)據(jù),我們都可以用工程化迭代來做高效的標(biāo)注和流程管理,提高效率,幫助客戶成功。”在流程管理方面,云測數(shù)據(jù)也建立起一套包含崗前培訓(xùn)、早部署晚復(fù)盤、分項(xiàng)目人工質(zhì)檢的管理系統(tǒng)。朱文輝告訴「甲子光年」,目前云測數(shù)據(jù)在華東、華北、華南共設(shè)有三個標(biāo)注基地,還有幾個基地在部署中,現(xiàn)在共有千人規(guī)模左右的數(shù)據(jù)服務(wù)人員。“新人都會經(jīng)過兩個月的崗前培訓(xùn)”,朱文輝說,隨著行業(yè)要求的提高,人員也在更新?lián)Q代,我們的激勵機(jī)制和晉升機(jī)制比較完善,還提供園區(qū)食堂的餐補(bǔ),年輕人的離職率并不高。”

      除了積極招兵買馬,云測數(shù)據(jù)還有相當(dāng)一部分的項(xiàng)目經(jīng)理是從傳統(tǒng)制造業(yè)轉(zhuǎn)型而來,“這些人很懂環(huán)環(huán)相扣的流程管理,對包括風(fēng)險(xiǎn)、成本等流程節(jié)點(diǎn)的控制很在行。”朱文輝補(bǔ)充道。

      ?夥Q:“云測數(shù)據(jù)的數(shù)據(jù)服務(wù)優(yōu)勢,除了數(shù)據(jù)質(zhì)量、規(guī);酝,其效率優(yōu)勢也很突出,因?yàn)槠髽I(yè)產(chǎn)品都有對應(yīng)的發(fā)布周期,對效率的要求也會越來越高。”

      朱文輝認(rèn)為,誰能優(yōu)先突破認(rèn)知效率、管理效率和標(biāo)準(zhǔn)化,誰就很有可能在一眾數(shù)據(jù)標(biāo)注公司中拔得頭籌。

      4.進(jìn)化:新物種的可能性

      從整個數(shù)據(jù)標(biāo)注賽道來看,這個此前”隱于聚光燈之外”的行業(yè),正在走向大眾的視野,展現(xiàn)更多可能性。

      一是可預(yù)測的,數(shù)據(jù)量的爆發(fā)增長。

      當(dāng)前,人工智能正全面加速產(chǎn)業(yè)落地。德勤預(yù)測,2025年世界人工智能市場將超過6萬億美元,2017-2025年人工智能復(fù)合增長率將達(dá)30%。

      賈宇航認(rèn)為5G到來之后,整個人工智能行業(yè)數(shù)據(jù)量將會向橫、縱拓展。

      橫向拓展,是人工智能從科技公司走入各行各業(yè)公司。

      比如賈宇航告訴「甲子光年」,云測數(shù)據(jù)大部分的客戶來自智慧城市和駕駛等與人工智能結(jié)合緊密的領(lǐng)域,但一個明顯的新發(fā)展是,來自金融、家居等傳統(tǒng)行業(yè)的客戶正逐漸增加,而在兩年前,這類客戶的占比幾乎為0。各行各業(yè)的數(shù)字化、智能化,很可能成長為新的增長點(diǎn)。

      縱向的拓展則是,隨通信、芯片等基礎(chǔ)設(shè)施的發(fā)展,物聯(lián)網(wǎng)潮流下,硬件、傳感器數(shù)量持續(xù)增長,相應(yīng)的數(shù)據(jù)量持續(xù)增長,各行業(yè)、各場景都將經(jīng)歷更深程度的數(shù)字化。

      “從深度學(xué)習(xí)、機(jī)器學(xué)習(xí)的發(fā)展趨勢和應(yīng)用方向可以明顯看到,不管是鉆得更深或是在應(yīng)用層面鋪得更廣,我們都會需要更多數(shù)據(jù)。我覺得這個趨勢至少還能保持十幾年。”Ted相信,未來數(shù)據(jù)標(biāo)注的重要性也許還會跨上一個新臺階。在現(xiàn)有以監(jiān)督學(xué)習(xí)為主的技術(shù)環(huán)境下,數(shù)據(jù)量爆發(fā)意味著標(biāo)注需求的爆發(fā)。

      二是,標(biāo)注業(yè)務(wù)本身的智能化、人工智能化。

      賈宇航告訴「甲子光年」,隨著算法的突破,圖像生成技術(shù)會極大地提升數(shù)據(jù)采集和數(shù)據(jù)標(biāo)注行業(yè)門檻。針對企業(yè)的數(shù)據(jù)需求,將更加定制化,同時也凸顯數(shù)據(jù)需求定制中的策略性。現(xiàn)在的技術(shù)可以通過數(shù)據(jù)增強(qiáng)技術(shù)額外合成的數(shù)據(jù)來模擬移位(Translation)、視角(Viewpoint)、大小(Size)、照明(Illumination)等等條件,生成更多可用于訓(xùn)練數(shù)據(jù)。具體到AI數(shù)據(jù)服務(wù)中,在數(shù)據(jù)采集和標(biāo)注環(huán)節(jié), AI企業(yè)對數(shù)據(jù)服務(wù)商有更加嚴(yán)格的要求,如環(huán)境,光線,被采樣本等采集環(huán)境的搭建。AI企業(yè)擁有這些純凈數(shù)據(jù),可以更加有效的拓展更多數(shù)據(jù),達(dá)到數(shù)據(jù)增強(qiáng)的目的。

      例如,“通過定制化的數(shù)據(jù)采集方法,客戶可以規(guī)定特定的光線角度和綠墻背景,得到一組可塑性較強(qiáng)的原始數(shù)據(jù),再通過變換背景、合成光線、調(diào)轉(zhuǎn)光源角度等等方法,得到成百上千倍的衍生數(shù)據(jù)。”賈宇航也強(qiáng)調(diào),這樣的元數(shù)據(jù)對相關(guān)條件的控制往往異常嚴(yán)格,因此對第三方數(shù)據(jù)標(biāo)注承包商的要求也更高。

      “屆時勞動密集型的產(chǎn)業(yè)特征將被改變,方法論和策略性將更優(yōu),采集和標(biāo)注的時間成本也將大大縮小,數(shù)據(jù)標(biāo)注公司有可能都將進(jìn)化為高精尖的定制化團(tuán)隊(duì)。”賈宇航補(bǔ)充道。

      也有不少從業(yè)者認(rèn)為預(yù)標(biāo)注技術(shù)和半自動化校驗(yàn)可能將推動數(shù)據(jù)標(biāo)注行業(yè)進(jìn)一步進(jìn)化。

      “在特定場景中,預(yù)標(biāo)注工具把小數(shù)據(jù)變成模型再去預(yù)標(biāo),縮小人工調(diào)節(jié)的空間。”李一帆判斷,預(yù)標(biāo)注技術(shù)的逐漸成熟或許會在未來大幅降低標(biāo)注成本。

      Ted也提到,Scale AI聚集了一幫人嘗試用算法來輔助標(biāo)注,如果成功,只需幾個點(diǎn),就可以生成整個面的自動標(biāo)注,這將會極大地提高標(biāo)注效率。

      但就目前的市場現(xiàn)狀來看,預(yù)標(biāo)注技術(shù)在很多細(xì)節(jié)上并不精準(zhǔn),Ted認(rèn)為,距離預(yù)標(biāo)注技術(shù)的應(yīng)用落地,還需要很長一段時間。

      在數(shù)據(jù)質(zhì)檢流程上,也有用自動化技術(shù)和人工智能技術(shù)提效的空間。

      “如果可以用半自動化的方式實(shí)現(xiàn)驗(yàn)收或是自動對比,可以節(jié)省掉相當(dāng)一部分管理層的人力成本。”Ted提出了另一個可能會讓數(shù)據(jù)標(biāo)注行業(yè)更有效率的方式,并不是要用機(jī)器取代人工標(biāo)注,而是用機(jī)器輔助人工標(biāo)注。

      賈宇航也有相似的觀點(diǎn),他表示,云測會投入更多人力進(jìn)行驗(yàn)收工具的研發(fā),提升質(zhì)檢效率,提高標(biāo)注質(zhì)量。

      隨著人工智能技術(shù)與場景的結(jié)合逐漸深化,科技創(chuàng)業(yè)者們進(jìn)入了一片沒有航海圖的水域,對于伴生的數(shù)據(jù)標(biāo)注行業(yè)來說,未來的航程同樣值得期待。

      這真像劉禹錫的那句:“沉舟側(cè)畔千帆過,病樹前頭萬木春”。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    [No. X058-2]
    分享到微信

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。