12月3日-5日,第四屆世界互聯(lián)網(wǎng)大會(huì)在烏鎮(zhèn)召開。這兩天,除了大佬們的飯局,“黑科技”也成為這屆世界互聯(lián)網(wǎng)大會(huì)備受關(guān)注的焦點(diǎn),烏鎮(zhèn)街黑科技體驗(yàn)館展出了VR、AR、人工智能、翻譯蛋、機(jī)器人等多領(lǐng)域的高科技產(chǎn)品。同時(shí),網(wǎng)易云作為唯一的云計(jì)算產(chǎn)品參展,展示了其在云計(jì)算、大數(shù)據(jù)領(lǐng)域的“黑科技”:專屬云、超級(jí)容器、人工智能在內(nèi)容安全和智能客服領(lǐng)域的應(yīng)用、大數(shù)據(jù)可視化分析工具等。
以人工智能在內(nèi)容安全領(lǐng)域的鑒黃應(yīng)用為例,我們看網(wǎng)易云是如何研發(fā)和解決具體問(wèn)題的。
從人工到智能,互聯(lián)網(wǎng)鑒黃歷經(jīng)三個(gè)發(fā)展階段
從人工到機(jī)器,再到智能是很多工作或者產(chǎn)業(yè)歷經(jīng)的發(fā)展階段,連“鑒黃”也不例外。在十余年前,互聯(lián)網(wǎng)剛起步的時(shí)候,UGC內(nèi)容還不夠多,當(dāng)時(shí)識(shí)別黃圖的做法簡(jiǎn)單粗暴:人工查刪。“別小看了這個(gè)方法,其實(shí)針對(duì)當(dāng)時(shí)的網(wǎng)絡(luò)環(huán)境(帶寬小,產(chǎn)品少,圖片數(shù)據(jù)也少),效果還是很不錯(cuò)的。一天幾萬(wàn)的圖片量,安排幾個(gè)人肉眼盯著看,發(fā)現(xiàn)有不良的圖片人工刪掉就好了”,網(wǎng)易云安全(易盾)CTO朱浩齊說(shuō)。
此后,隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)產(chǎn)品普及率大大提升,網(wǎng)絡(luò)數(shù)據(jù)量暴增,一個(gè)產(chǎn)品一天出現(xiàn)幾百萬(wàn)的圖片量實(shí)屬常見(jiàn),靠堆人力完成內(nèi)容審核已經(jīng)難以為繼。“再說(shuō),互聯(lián)網(wǎng)產(chǎn)品也支撐不起幾百上千審核人員的成本。幸好相應(yīng)的計(jì)算機(jī)視覺(jué)技術(shù)也有進(jìn)步了,我們用膚色識(shí)別算法過(guò)濾掉大部分‘黃色’內(nèi)容的圖片,剩下的再進(jìn)入到人工審核,可以大大節(jié)約審核量”,朱浩齊說(shuō)。據(jù)統(tǒng)計(jì),經(jīng)過(guò)機(jī)器膚色識(shí)別過(guò)濾后大約只有20%的圖片還需要人工審核。
不過(guò),移動(dòng)互聯(lián)網(wǎng)時(shí)代又提出了新的挑戰(zhàn):各種類型的網(wǎng)絡(luò)數(shù)據(jù)量再次暴增,人工審核連20%的數(shù)據(jù)量也無(wú)法承受了,加上視頻、直播等業(yè)務(wù)和數(shù)據(jù)的爆發(fā)式增長(zhǎng),互聯(lián)網(wǎng)界迫切需要一個(gè)更加有效的方案來(lái)解決審核的問(wèn)題?上驳氖牵斯ぶ悄苌疃葘W(xué)習(xí)技術(shù)在這個(gè)階段也有了長(zhǎng)足的進(jìn)步。
“我們緊跟人工智能的技術(shù)熱潮,很早開始了研發(fā)機(jī)器學(xué)習(xí)的鑒黃系統(tǒng),并且取得了顯著成果”,網(wǎng)易云安全CTO朱浩齊表示。目前,網(wǎng)易云安全(易盾)已經(jīng)面向企業(yè)市場(chǎng),每天會(huì)為中國(guó)的互聯(lián)網(wǎng)過(guò)濾1億條左右的有害信息。
人工智能鑒黃的三步:定義、學(xué)習(xí)、建模
“辨別一張圖是不是黃圖,從機(jī)器學(xué)習(xí)的角度看,本質(zhì)上是一個(gè)分類問(wèn)題:給定一張圖片,讓機(jī)器判斷是不是黃圖”,朱浩齊介紹,技術(shù)層面要做的就是研發(fā)一個(gè)“分類器”,讓它根據(jù)輸入的圖片計(jì)算出該圖片屬于“黃圖”類別的概率,然后再根據(jù)這個(gè)概率值輸出一個(gè)“是”或者“否”的結(jié)果。
眾所周知,電腦擅長(zhǎng)的是數(shù)學(xué)運(yùn)算,所以黃圖“分類器”需要先抽象成某種數(shù)學(xué)模型,這樣才有可能用電腦來(lái)運(yùn)算。“為了方便理解,我們把數(shù)學(xué)模型定義為:y=f(x)。即給定圖片x,我們要找到一個(gè)函數(shù)f,通過(guò)計(jì)算f(x)可以得到這個(gè)圖片的黃圖概率y”,朱浩齊說(shuō),這看上去非常簡(jiǎn)單,但既然要教機(jī)器分類,還需要有明確的分類標(biāo)準(zhǔn),就是給“黃圖”下個(gè)準(zhǔn)確的定義。
“這個(gè)過(guò)程是非常復(fù)雜的,因?yàn)辄S圖并不是簡(jiǎn)單的露點(diǎn)就是黃圖了,還包括不露點(diǎn)的色情、以及低俗圖片,另外還要排除雕塑、藝術(shù)作品等”,據(jù)朱浩齊介紹,有了定義之后,下一步就是根據(jù)定義來(lái)收集樣本數(shù)據(jù)。“幸好網(wǎng)易在20年的發(fā)展中,多領(lǐng)域的產(chǎn)品線通過(guò)審核工作積累了大量的圖片數(shù)據(jù),我們從里面篩選出部分圖片作為訓(xùn)練的數(shù)據(jù)”,這個(gè)工作消耗了大量的時(shí)間和人力成本,并且還一直在持續(xù)進(jìn)行中。
圖片訓(xùn)練的目的就是為了得到數(shù)學(xué)模型y=f(x)中的f,技術(shù)上稱之為特征提取。近些年來(lái),基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型在各種圖像識(shí)別的比賽中獲得了突破性的進(jìn)展。網(wǎng)易云安全(易盾)同樣選用了CNN(卷積神經(jīng)網(wǎng)絡(luò))、GoogLeNet、ResNet(殘差網(wǎng)絡(luò))三種深度網(wǎng)絡(luò)模型結(jié)構(gòu)作為研究的基礎(chǔ)。通過(guò)這些模型,可以更加高效地把圖片數(shù)據(jù)轉(zhuǎn)變成了可以運(yùn)算的數(shù)學(xué)模型,以便更快更好地得到f。
“我們經(jīng)過(guò)不斷迭代和算法調(diào)參,得到了越來(lái)越精準(zhǔn)的f(模型),在驗(yàn)證圖集上也達(dá)到了99.9%以上的準(zhǔn)確率,并且我們的技術(shù)仍在進(jìn)化”,朱浩齊說(shuō)。目前,除了智能鑒黃,網(wǎng)易云安全(易盾)同時(shí)開放有廣告過(guò)濾、暴恐識(shí)別、謠言檢測(cè)等內(nèi)容安全服務(wù),驗(yàn)證碼、營(yíng)銷反作弊、應(yīng)用加固等業(yè)務(wù)安全服務(wù),以及DDoS 防護(hù)、SSL 證書管理等網(wǎng)絡(luò)安全服務(wù)。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。
近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。