CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應商導致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或將停產(chǎn)沖上熱搜!閑魚相關搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術邂逅千年色彩美學!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領域三星新專利探索AR技術新應用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級機器人公司1X推出世界模型
  • 首頁 > 云計算頻道 > 大模型

    實習生涌入大模型

    2023年09月13日 16:53:29   來源:微信公眾號:甲子光年

      正式實習的第 一天,晨曦感覺自己可能“被騙”了。

      剛剛結束完學校的畢業(yè)論文,準研究生晨曦準備給自己找點事做。投遞了幾份簡歷之后,很快,國內某互聯(lián)網(wǎng)大廠的人工智能編輯崗位(翻譯方向)向她發(fā)出了邀請。

      職位描述上寫著:

      1. 為人工智能機器學習提供優(yōu)質的語料,復制模型訓練迭代;

      2. 與技術組對接需求,按時交付優(yōu)質合格的數(shù)據(jù),對編輯結果質量負責。

      對于不了解模型訓練的晨曦來說,這看上去似乎是一份相當不錯的實習。

      晨曦面試的是翻譯方向,這與她所就讀的英語專業(yè)十分契合;年初ChatGPT在國內爆火,晨曦日常就有使用AI產(chǎn)品的習慣,符合自己的興趣愛好;另外,能有機會參與新興的科技產(chǎn)業(yè)發(fā)展對于文科生來說可遇不可求;當然,最 大的吸引力來自于這家互聯(lián)網(wǎng)大廠。在過去幾年內,這家公司已經(jīng)成功吸引了無數(shù)年輕學生前仆后繼。從某種角度來說,簡歷上的大廠名字足以成為自身能力的象征。

      只是,除了招聘頁面上簡單的職位描述,晨曦沒有從面試官那里獲得關于這份實習更多的信息。

      “我當時為什么覺得被騙,就是因為面試的時候HR基本都聚焦在翻譯相關的問題。”在面試中做了幾道翻譯題之后,晨曦順利拿到了offer。一直到工作之前,她都以為這是一份翻譯的工作。

      感到“被騙”的不止晨曦一人。

      作為人工智能編輯最早的一批實習生,楊小云在2月底也來到了這家大廠。面試官表示,這是一份對信息抓取、語言概括和文字編輯等能力要求很高的工作。

      實際上手之后她意識到:“HR描述的工作跟實操的工作,完全是兩件事情。說得再天花亂墜,其實也是一個‘打標’的工作。”

      如今,人工智能熱潮帶火了這些以假亂真的聊天機器人,以及通過簡單提示就能生成圖片的繪畫軟件。大模型的現(xiàn)象級出圈,使得數(shù)據(jù)、算法、算力作為訓練大模型的基礎而備受關注,數(shù)據(jù)標注就是數(shù)據(jù)環(huán)節(jié)必不可少的一部分。

      2007年,時任普林斯頓大學計算機科學系的助理教授李飛飛開啟了一個名為ImageNet的項目,希望擴展可用于訓練AI算法的數(shù)據(jù)。

      為了給每個單詞提供盡可能多的視覺案例,亞馬遜眾包平臺Mechanical Turk上的近5萬名工人,花了兩年半的時間標記出圖片中的對象,例如氣球、草莓等共計320萬張圖片。這些工人來自全球的167個國家,大多分布在人工成本低廉的地區(qū)。

      《時代》雜志的一項調查發(fā)現(xiàn),為了減少ChatGPT數(shù)據(jù)集中關于暴力、性別歧視和種族主義等內容,OpenAI使用了每小時收入不到2美元的肯尼亞勞工!杜聿┥纭穲蟮,谷歌的AI聊天機器人Bard由數(shù)千名合同工訓練,他們只有3分鐘的時間來審閱、標注完Bard的回答。

      在過去很長一段時間里,數(shù)據(jù)標注對語言與圖像識別的認知要求都并不高。大模型時代,數(shù)據(jù)標注從圖像轉向語言,要求更高、更垂直,需要特定領域的專業(yè)知識和流暢的語言能力。

      但對于普通的數(shù)據(jù)標注員來說,它依然是一份不斷重復的低技術含量的工作。

      正如同這些“被騙”的名校學生進大廠實習一樣,他們沒辦法說清,自己的工作是為了實現(xiàn)什么樣的目的,有什么價值。他們往往只有一個模糊的認識,為了“訓練大模型”。

      以晨曦和楊小云為代表的人工智能編輯實習生,便因為訓練大模型的需要而誕生。這些受到熱捧的大模型,讓實習生們懷揣著好奇和憧憬進入,同時,也讓他們感受到背后真實的混亂和價值感匱乏。

      1.當大學生涌入大模型數(shù)據(jù)標注

      人們通常會認為,數(shù)據(jù)標注員是一群身處三四線城市、低學歷、高年齡的群體。事實上這也的確是此前國內數(shù)據(jù)標注員的現(xiàn)狀。

      根據(jù)人社部2021年發(fā)布的《人工智能訓練師國家職業(yè)技能標準》,人工智能訓練師的普遍受教育程度是初中畢業(yè)(或相當文化程度)。他們可能分散在河北、河南、山東、山西等傳統(tǒng)勞動密集型企業(yè)選址的地區(qū),甚至更偏遠的山區(qū)——在那里,數(shù)據(jù)標注是扶貧的試點項目。

      但改變已經(jīng)隨著大模型的出現(xiàn)而發(fā)生。

      讓楊小云感到無聊的,其實就是為訓練大模型而做的數(shù)據(jù)標注工作。

      經(jīng)過簡單的培訓和考核之后,楊小云被安排進了文字編輯組。她每天的工作就是回答題庫中的問題,目的是通過標注者人工書寫答案來優(yōu)化大模型的訓練過程。

      一個問題的回答步驟經(jīng)過嚴格把控。以游戲《原神》為例,如果收到“夜蘭的圣遺物是什么?”的問題,楊小云需要把回答拆分成幾個段落:首先夜蘭是什么?其次圣遺物是什么?最后夜蘭的圣遺物配對什么?

      在指定的搜索引擎上搜集資料,完成回答的編輯之后,最終以Markdown的形式完成提交。

      除了簡單易答的問題,楊小云的大多數(shù)時間都花在了自己完全不熟悉的專業(yè)領域,例如經(jīng)濟專區(qū)、法律專區(qū)等。

      顯而易見,這與以往的數(shù)據(jù)標注工作完全不同。

      在大模型出現(xiàn)之前,數(shù)據(jù)標注的場景通常都是幾百人的工廠,一人一臺電腦,只有鼠標鍵盤噼里啪啦的聲音。而他們一天8小時的工作時間內,都只做一件簡單重復的事情:在不同的圖片中框出機動車、非機動車、行人、紅綠燈(目標檢測);或者劃出一段話的主語、謂語、賓語(語義分割)。

      這些針對圖片視頻的拉框和文本的語義分割,都是對已有數(shù)據(jù)進行處理,數(shù)據(jù)標注員本身并不用給出“創(chuàng)造性結論”。但針對大模型的數(shù)據(jù)標注并非如此。數(shù)據(jù)標注員除了需要對已有數(shù)據(jù)進行處理之外,還需要對問題進行解答,給出正確的結論。

      根據(jù)觀研天下數(shù)據(jù)中心2023年發(fā)布的《中國數(shù)據(jù)標注行業(yè)現(xiàn)狀深度分析與投資趨勢研究報告(2023-2030年)》,在ChatGPT發(fā)布之前,AI訓練數(shù)據(jù)標注以語音和計算機視覺為主,自然語言處理(NLP)的需求不足15%。

      隨著ChatGPT聊天機器人成為AIGC的現(xiàn)象級應用,對更偏情緒判斷、考驗理解能力甚至推理能力等高質量文字標注任務的需求正在越來越多。

      “(大模型)項目的復雜度變得比以前高了,對人員的要求也相對不一樣了。”星塵數(shù)據(jù)產(chǎn)品部負責人告訴「甲子光年」,“自動駕駛偏視覺信息的識別標注,更偏體力活的工作,對員工進行一些培訓,他們經(jīng)過上手拉框,熟練快捷鍵,掌握一些技巧之后,能很快勝任。但是大模型所需要的是一個完整的、結構化的、多元化的、包羅萬象的數(shù)據(jù)體系,需要四層數(shù)據(jù)來支撐模型的搭建和提升。這些數(shù)據(jù)涉及預訓練、SFT(有監(jiān)督微調,Supervised Fine-Tuning)、RLHF(基于人類反饋的強化學習,Reinforcement Learning from Human Feedback),私有化部署等等,針對不同行業(yè)的需求,我們發(fā)布了COSMO大模型數(shù)據(jù)金字塔解決方案;對于大模型數(shù)據(jù)標注員來說,標注COSMO的數(shù)據(jù)不是做選擇題,也不是簡單的閱讀理解、文本編輯,而是讓你創(chuàng)造問答,創(chuàng)造內容了。”

      云測數(shù)據(jù)總經(jīng)理賈宇航將大模型的訓練數(shù)據(jù)劃分為基礎數(shù)據(jù)、場景數(shù)據(jù)和場景數(shù)據(jù)優(yōu)化三個階段。他將這三個階段類比成學習的過程。

      “對于拉框這種基礎的數(shù)據(jù)標注會比較簡單,會電腦操作、學一學即會;場景數(shù)據(jù)是在特定環(huán)節(jié)做定向研發(fā)時所需要的特定領域的數(shù)據(jù),需要學習相關領域知識以達到標注要求;到三個階段,基于投入使用中持續(xù)的迭代和優(yōu)化,技能和領域知識的要求會更加精進。”賈宇航表示。

      在這種工作需求之下,越來越多的大模型公司對數(shù)據(jù)標注員的需求,也從過去的低學歷向高學歷轉變,并且這種需求正越來越多。

      在國內主流的求職平臺上,已有不少關于大模型的數(shù)據(jù)標注崗正在招聘。這些崗位要求標注員的學歷在本科以上。百度此前曾表示,其位于?诘拇竽P蛿(shù)據(jù)標注基地有數(shù)百位數(shù)據(jù)標注員,本科率已達100%。

      圖片來源:BOSS直聘&脈脈

      2.苛刻的大模型數(shù)據(jù)標注

      通常來說,訓練一個大模型,需要以下3個步驟:

      資料來源:OpenAI《Introducing ChatGPT》

      這些重復性的工作背后,實際上是為了實現(xiàn)“根據(jù)人類反饋進行強化學習”(Reinforcement Learning from Human Feedback)的技術,GPT-3.5的最 大提升便來自于此,其中的關鍵,是人(Labeler)的參與,也就是這些數(shù)據(jù)標注員。

      從上述RLHF三步驟來看,步驟一與步驟二相對更重要,因為它決定了訓練獎勵模型所必須的數(shù)據(jù)質量的高低。而這兩個步驟中的數(shù)據(jù)標注實習生,也被分成了“編輯組”與“排序組”兩個核心小組。

      編輯組的工作就是回答題庫中的問題;而排序組的工作則是給生成的答案(包括模型和人工生成的答案)進行優(yōu)劣排序。

      丁小雨在7月份加入文字編輯。同為英語專業(yè)的丁小雨和晨曦一樣,期待著一份翻譯工作能提高專業(yè)水平,但她的工作其實也與英語并不相關。

      對比2月份楊小云實習的時候,丁小雨面臨的文字編輯組變得更加細分,每個實習生要選擇一個垂直方向,例如娛樂、物理、政治等,答案的要求也變得更加詳細。

      一道古詩文的選擇題,不能只解釋答案,而要先從題型開始介紹,然后是詩文的翻譯以及背景,最后是每個選項正確與否的分析,最重要的是要對標3月14日OpenAI發(fā)布的GPT-4。

      “要參考它的答案,又不能跟它的答案雷同,還要比它的答案好。”丁小雨很無奈。

      而晨曦被安排進的是排序組,每天為問題對應的多個回答進行排序,以確定不同答案的優(yōu)劣。

      排序的結果是需要被明確量化的。她需要從有用性、真實性、相關性、安全性等不同角度對回答進行評分,并且寫下原因。這是為了讓機器無限接近人類期待的答案。

      晨曦發(fā)現(xiàn)自己有時候不得不在幾個糟糕的回答之間做出選擇。而當所有的回答都不好時,她被要求自己寫出更好的回答。

      編輯組的丁小雨面臨的要求更加苛刻。每個回答在合格交付之前將要面臨兩道審核。第 一道來自組長:“做完幾道題就要開審核的會,給我們挑毛病,直到改到組長滿意為止。”第二道來自于總部,總部審核通過才算結束。

      一次,因為格式的錯誤,丁小雨的大多數(shù)回答被判了全錯。“可能調一下順序就可以了,但是他們不在意你是回答的內容錯了,還是格式出現(xiàn)問題,直接就是全錯。”

      更令丁小雨崩潰的是,組長直接表示,如果再錯這么多就可能勸退她。

      為大模型做數(shù)據(jù)標注是一件*的結果導向的工作。不管在做的過程中付出了多少努力,只要效果不好,之前的一切努力就會被全盤否定。

      但問題在于,無論是編輯組的答案輸出,還是排序組的答案排序,都是一個非常主觀的工作。數(shù)據(jù)標注實習生們很難把控一個答案到底是好是壞;針對同一個問題,不同實習生往往也會給出不同的答案。

      為了解決這一問題,大模型數(shù)據(jù)標注團隊每天必須進行的一項工作就是開“審核會”——在公司內部被稱為“拉齊會”,目的就是拉齊答案的標準,拉齊每個人的理解,拉齊所有的建議。

      只是,要實現(xiàn)真正的拉齊,是一件頗為費勁的事。這就像高考閱卷一樣,不同的人會分到同樣的題目,如果評分不一致,就要不斷調整直到得出一個統(tǒng)一的分數(shù)。

      在晨曦的印象里,每天都有兩三小時的時間花在會議上。會議開到最后,往往敲定的是最簡單粗暴的解決方法,少數(shù)服從多數(shù),她形容為“沒有價值在創(chuàng)造價值”。

      不過,比起大家坐在一起“人為”拉齊答案標準,一個更令人頭大的問題是:標準并非人為拉齊之后就可以一勞永逸,而是要不斷根據(jù)模型輸出的反饋進行調整。

      每天上班的第 一件事,楊小云需要確認當天是否下發(fā)了新的標注標準,大到回答的框架,段落的拆分,小到搜索引擎的選擇,空格、標點符號等格式。但標準一直在變。一旦發(fā)現(xiàn)投喂的數(shù)據(jù)在機器上不奏效,標準就需要重新制定,全部問題跟著推翻重寫。

      “這就好像織布一樣,是織橫紋還是豎紋?是織芝麻扣還是麥子扣?但是不管是什么扣,都只能放進程序里跑,發(fā)現(xiàn)跑不出來就要換一種方法。”楊小云向「甲子光年」解釋。這個比喻的背后是,如果數(shù)據(jù)標注給出的答案,在獎勵模型的訓練過程中可能沒有達到預期的效果,就要調整標準。

      標準變更,意味著上一次拉齊會結論的失效,標準又要重新拉齊。

      “又冗余又高效,每天都在非常高效地說一些廢話。”楊小云吐槽。

      3.被大廠薅羊毛的高材生

      一邊是每天開不完的拉齊會,一邊是隨時可能變更的數(shù)據(jù)標準。很多像晨曦一樣被大廠光鮮亮麗的招牌吸引進來的高材生們,卻在一次次內耗中喪失了自己最初的心氣,最終選擇離開。

      這些實習生的共同特點是高學歷。招聘要求是本科以上,但許多實習生擁有碩士研究生的文憑。

      他們中不少人受過中國乃至世界*大學的教育。楊小云的身邊有來自北大、帝國理工的學生,晨曦工位旁的實習生來自南開、電子科大;丁小雨在培訓的時候被明確告知,實習生的學歷是經(jīng)過篩選的。“他(面試官)說像我們這樣高學歷的大學生,學習東西比較快,容易上手”。

      管理一幫聰明人從來都不是一件容易的事。因為這些人很容易從不斷重復的動作中發(fā)現(xiàn)工作的本質,進而質疑這份工作對自己的未來是否真的有價值。

      丁小雨形容自己的工作“沒什么價值,很內耗”。

      每天早上來到工位,打開顯示屏和筆記本,一邊用筆記本查看規(guī)則,一邊在顯示屏上編寫回答,丁小雨能清晰地感受到詳細的規(guī)則和流程讓自己逐漸失去了思考的空間,把她規(guī)訓成了一個機器。“沒有學到東西,而且也沒有精力去學習其他的東西,就慢慢喪失學習的動力和做其他事情的熱情。”

      丁小雨還在脫敏組待過,但實際工作和“脫敏”這個詞沒有根本聯(lián)系,只是使用不同的聊天機器人與企業(yè)內測的產(chǎn)品回答相同的問題,并對答案進行對比打分。只干了幾天,她又被調到過文字校對組,要做的是修改pdf格式轉換成Word格式時出現(xiàn)的錯誤,主要是錯別字和標點符號。在這個她形容為“接近崩潰”的過程中,她每天要完成25頁與醫(yī)療相關的糾錯任務。

      在面試過程中,面試官曾問丁小雨能不能接受一份比較枯燥和重復的工作。“我當時回答是能接受。我想所有候選人的回答應該都是能夠接受。”因為本科只有一段實習經(jīng)歷,帶著積累更多實習和體驗大廠的期待,即使抱著懷疑的想法,丁小雨還是選擇了入職。

      在短短兩個月中,丁小雨已經(jīng)算是同期實習生中堅持到最后的人。她親眼見到許多實習生躊躇滿志地進來,又垂頭喪氣地離開。

      人類學家大衛(wèi)·格雷伯將“狗屁工作”(bullshit jobs)定義為沒有意義或目的的工作,本該被機器自動化淘汰掉的工作,卻因為裝點門面、討好上級、填補系統(tǒng)漏洞而繼續(xù)存在。數(shù)據(jù)標注就像是狗屁工作的變體,通常認為已經(jīng)被機器替代,卻仍然需要人類完成。

      在人工智能熱潮到來之際,人們往往會聽到這樣的期許:AI可以替代人類完成重復性、乏味的工作,從而讓人類有更多時間和精力去追求更有創(chuàng)造性、成就感的工作。

      但也有可能的是,人工智能像過去節(jié)省勞動力的技術一樣,如電話和打字機,克服了信息傳遞和手寫的苦惱,但也產(chǎn)生了大量的通訊、文書工作,以至于需要配備新的人工來進行管理,例如前臺、文員。AI可能不會替代人類,但會創(chuàng)造出更加乏味、枯燥、孤立的工作。

      除了無法獲得工作價值認同之外,到手的薪資,恐怕也不能讓這幫高材生們實現(xiàn)“價格認同”。

      據(jù)「甲子光年」了解,這些數(shù)據(jù)標注實習生的工資并不高。如果位于一線城市的工位,大多數(shù)人工智能實習生的工資是150元/天,兼有房補,提供免費食堂;位于二線城市,只剩下100元/天,房補也縮減三分之二,20元的餐補替代免費餐食。

      像丁小雨在二線城市的工位實習,因為辦公地點處在城市中心,地段繁華,一頓外賣輕輕松松超過20元的餐補標準,基本上都需要用實習工資倒貼。

      因為他們大多數(shù)只是作為訓練大模型的基礎標注員,可能被統(tǒng)一安排到和專業(yè)毫無相關的崗位,又有可能隨時抽調到不同的部門,經(jīng)過短暫的培訓后要求快速上手。

      丁小雨形容,他們是一批一批被大廠薅羊毛的實習生。

      晨曦明顯感受到,她不是唯 一感受到期待與實際工作落差的人。“說得直白一點,我覺得這個工作配不上我。有時候聊天我會發(fā)現(xiàn)其他實習生可能是985本科,也有海歸的碩士,他們的落差也非常非常大。”

      楊小云則表達得更為直接:“可能是一個不太恰當?shù)谋扔,我媽媽上過高中,她來做這個工作也可以。”

      4.“我們其實是流水線的工人”

      事實上,招聘高材生做一些低技術含量的工作,給付極低的薪資成本,也是目前大模型數(shù)據(jù)標注發(fā)展初期市場混亂的客觀體現(xiàn)。對于數(shù)據(jù)標注公司來說,在大模型目前的發(fā)展階段,數(shù)據(jù)標注還沒有形成統(tǒng)一的標準,對標注員也沒有成型的具體要求。

      星塵數(shù)據(jù)產(chǎn)品部負責人表示:“隨著大模型基礎能力補齊之后,開始向更垂直、更加復雜能力的發(fā)展過程中,任務會逐步產(chǎn)生變化,要求工具和人員隨之更新迭代。但是,大模型現(xiàn)在還在早期發(fā)展過程,市場需求對標注員的要求也隨任務的差異有高有低。相比CV(計算機視覺)項目而言,NLP(自然語言處理)的標注員對理解能力、專業(yè)術語、領域知識的要求更高,必須能提供準確、可靠的語料。”

      該負責人介紹,大模型對數(shù)據(jù)標注提出的難題更多體現(xiàn)在頂層設計。對于每個數(shù)據(jù)標注任務,如何理解客戶的應用場景訴求,進行數(shù)據(jù)選擇、數(shù)據(jù)分布設計、可高效低成本落地執(zhí)行的pipeline設計等一套解決方案的設計,如何提高平臺工具的效率和能力,是更大的挑戰(zhàn)。

      這其中依賴著垂直領域專家作為高級標注員的參與,將領域專業(yè)知識和經(jīng)驗注入解決方案的設計,甚至參與到數(shù)據(jù)質量檢查迭代的過程中。

      數(shù)據(jù)解決方案提供商倍賽科技的運營負責人張子千直言,目前就訓練大型模型而言,基礎標注員和之前從事框選工作的標注員在工作難度、時薪方面并沒有明顯的區(qū)別。在為客戶進行大模型微調并創(chuàng)建垂直領域的解決方案時,最 大的難題在于如何構建高質量的數(shù)據(jù)集,這需要IT、醫(yī)學和金融等專業(yè)領域的標注專家才能解決,這類人才依然稀缺。

      OpenAI投入了幾十位博士生進行數(shù)據(jù)標注的指導和審核,而將基礎的數(shù)據(jù)標注外包給了數(shù)據(jù)標注公司,分散在非洲、印度等低收入地區(qū)。真正起作用的是那些高級標注員,只占到很小的比例。

      通過對比百度在北京總部和?跀(shù)據(jù)標注基地招聘的標注員崗位介紹可以看出,同樣是為了訓練大模型,前者為高級標注員,負責指導、培訓和審核,而后者則是基礎的數(shù)據(jù)標注員,兩者在薪資水平上千差萬別。

      圖片來源:BOSS直聘

      也就是說,那些更高級別的高級標注員其實才是大模型訓練的關鍵人才,他們的工作更具技術含量、價值更高,同時人力成本也更高。

      對比之下,這些來自名校的實習生們,即使是為了訓練大模型而來,從現(xiàn)階段來說,也與過去那些數(shù)據(jù)標注員在本質上并無差別。

      實習生之間常常開玩笑,他們并不是在大廠,而是在互聯(lián)網(wǎng)富士康,自己是流水線上的工人。他們既看不到自己的工作成果最終通向何方,也無法與身邊的人產(chǎn)生橫向的意義鏈條。

      這種“互聯(lián)網(wǎng)富士康”的玩笑,指的不僅僅是這些實習生的工作,就連工作量與管理模式,也幾乎與工廠流水線看齊。

      實習生們每天要完成的工作量,都有規(guī)定的人效紅線。對于楊小云來說,她一天需要標注滿32條問題,如果沒有達到紅線要求,就要匯報原因或者加班把它干完。而完成工作的前提,是不斷變換的拉齊會標準,以及不停的資料搜集。

      為了最快速度完成模型訓練,標注團隊面臨的是高壓式的管理。楊小云所在的小組工作時間禁止說話,閑聊幾句的代價可能會新增額外的任務量,完不成工作會在群里被瘋狂提醒,甚至生病請假也可能會被正職的加急電話打擾。

      此外,為了保證數(shù)據(jù)不被泄密,數(shù)據(jù)標注跨組別的交流是明令禁止的。即使不同小組的實習生安排在臨近的位置,也不能討論工作內容。這些實習生們都不知道,在企業(yè)內部,數(shù)據(jù)標注到底有多少細分的組,有多少實習生。一個組可能有10人、40人、50人、60人,每層樓會有上百人。

      在高壓的人效紅線之下,只有遇到違禁的題目能讓楊小云短暫“高興”一下。因為涉及到暴力、色情、血腥的內容要直接去掉,但還可以算到個人的工作條數(shù)。“相當于擰到了一個壞的螺絲,你只會很高興這個螺絲不用你擰了”。早上分工的時候,實習生之間甚至爭著領違禁問題。

      在楊小云提前離職之后,她經(jīng)常刷到同期實習生深夜10點,甚至12點還在公司開會的朋友圈。還有實習生給她發(fā)語音,帶著哭腔,但是因為租了房子沒有辦法離開,堅持不下去就意味著房租全部打水漂。

      5.這里永遠不會缺人

      但不是沒有堅持下來的人。

      李竹溪是其中少見的擁有數(shù)據(jù)標注經(jīng)驗的實習生。她學的是認知語言學,她解釋道,語言學與神經(jīng)結合的方向,觀察腦成像,包括建立腦機接口,與人工智能有一定的聯(lián)系。

      在來到這家大廠之前,她就曾在另一家大廠做過大語言模型的數(shù)據(jù)標注,那還是在ChatGPT發(fā)布之前。在李竹溪的印象中,在ChatGPT出圈之后,類似的數(shù)據(jù)標注實習如雨后春筍一樣一下子就冒了出來。

      她順利完成了三個月的實習,即使在她的形容中,這是一份“比較機械、難度不大”的工作。李竹溪描述自己更注重體驗,“我不指望這份工作很有趣,去體驗一下還是很不錯的,既收獲了大廠的實習經(jīng)驗,也體驗了這里獨特的企業(yè)文化”。

      對來自雙非院校的文科生趙碩來說,大廠的人工智能編輯實習崗已經(jīng)是他上層的選擇。

      在找暑假實習的時候,他其實更傾向于一個研究所的運營崗位,研究所屬于事業(yè)單位,更帶編制,對于趙碩有很強的吸引力,“當時我特別期待它能給我反饋”。但最終研究所沒有選擇研一的趙碩,招走了一個年級更高的學生。

      還有更“卷”的人。

      在趙碩眼中,有些實習生會特別努力,領取更多的任務量,以謀求轉正的機會。認真的態(tài)度、勤奮的狀態(tài)會博得正職的青睞,“Leader與他們之間經(jīng)常有一定的交流,也會給他們一些管理的授權,管理實習生”。

      甚至公司每周會評選表現(xiàn)突出的實習生,將他們的照片貼在墻上作為表彰,但是并不一定存在獎金激勵,趙碩所在的業(yè)務線就沒有。

      云測數(shù)據(jù)總經(jīng)理賈宇航告訴「甲子光年」,數(shù)據(jù)標注員的晉升主要有兩條:一條是專家路線,在掌握特定垂直領域的相關技能之后,初級的標注員可以逐漸成為高級的標注專家;另一條是管理路線,成為項目的管理者。

      但趙碩不會選擇留下。在讀了一年研之后,趙碩很明顯地體會到,他對于未來工作的期待降低了。感受到身處大環(huán)境的日益變化,觀察到本科畢業(yè)選擇就業(yè)的同學的不如意,趙碩之前期待的“高精尖”“不可替代性強”的工作也逐漸被一份安穩(wěn)的工作替代。作為一名文科生,他焦慮于自己還沒有掌握不可替代性強的技能,更希望能找到一份在編制內管理的工作。

      閑聊的時候,實習生們會互相感嘆自己在做的工作或許很快就會被機器替代,不再需要人工投喂數(shù)據(jù)。

      對于云測數(shù)據(jù)總經(jīng)理賈宇航來說,類似的擔憂并不存在。隨著算法的實際量產(chǎn),數(shù)據(jù)閉環(huán)能力增強,整體標注數(shù)據(jù)量和手工數(shù)據(jù)標注量依然在逐年上升。以往是百分之百人工標注,現(xiàn)在是人工標注、自動標注、人工校驗各有一定占比。未來可能自動標注占比會越來越大。不過,雖然人工標注的占比在減小,但伴隨人工智能行業(yè)的逐步發(fā)展數(shù)據(jù)量日漸增加,人工標注的量仍會持續(xù)增加。

      在提前離職之后,楊小云找到了一份自己喜歡的游戲策劃實習,那里工作氛圍輕松,也更有獲得感,人工智能編輯對她來說是一段“倒霉”的實習經(jīng)歷。而對于丁小雨來說則是一次祛魅的過程,即使去了曾經(jīng)很期待的大廠實習,也會面臨無數(shù)枯燥無味的工作,她覺得這可能是因為自己的能力還不夠強或歷練機會太少。

      但那里也永遠不會缺人。

      楊小云聽說在她走之后,團隊從幾十個人在一個月內擴充到了幾百個。丁小雨發(fā)現(xiàn),每隔10天,就會來一批新的實習生,每批都有二三十人。

      “你可能罵罵咧咧地走了,向全世界宣告這個工作多么不好,但還有源源不斷的新人進來補充你的空位。”

      *應采訪對象要求,文中人物晨曦、楊小云、丁小雨、李竹溪、趙碩為化名。‍

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產(chǎn)品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。