來源:AI科技評(píng)論
作者 | 黃楠
編輯 | 陳彩嫻
今年3月,上海靜安區(qū)警方接到了一則關(guān)于虛擬投資理財(cái)?shù)膱?bào)案:一男子出資 300 余萬委托某二級(jí)股票市場(chǎng)項(xiàng)目的投資者幫其代操作投資。在此期間,該投資者時(shí)常會(huì)分享“個(gè)股走勢(shì)”“賬戶收益”的圖片或視頻給劉先生,但到了雙方契約期滿時(shí),劉先生卻討要投資收益及本金無果、還被要求續(xù)簽協(xié)議。
經(jīng)查,該投資者實(shí)則是一名失信人員,此前所提供大量“賬戶收益”圖片,均是通過 P 圖偽造的。
AI技術(shù)的興起在許多領(lǐng)域極大地解放了人們的雙手,也帶來了新的安全隱患。圖像信息的造假是最常見的風(fēng)險(xiǎn)之一,AI圖像內(nèi)容安全也成為了圖像圖形領(lǐng)域關(guān)注的重點(diǎn)。
近日,中國(guó)圖象圖形大會(huì)(CCIG 2023)在蘇州舉辦,大會(huì)以“圖象圖形向未來”為主題,譚鐵牛、趙沁平、吳一戎、徐宗本等院士出席現(xiàn)場(chǎng)并作主旨報(bào)告。
其中,譚鐵牛院士就《視覺內(nèi)容生成與安全》進(jìn)行主題報(bào)告分享,從人工智能內(nèi)容生成的研究背景及現(xiàn)狀出發(fā),介紹了近年來在內(nèi)容生成和取證方面取得的研究結(jié)果,就視覺鑒偽技術(shù)要點(diǎn)進(jìn)行專門分享,并展望了未來的發(fā)展趨勢(shì)。
譚鐵牛提到,以大模型為代表的人工智能核心技術(shù)取得了新的突破,人工智能的廣泛應(yīng)用也給人類社會(huì)帶來法律法規(guī)、道德倫理、社會(huì)治理等方面的挑戰(zhàn)。AIGC能夠讓“眼見能不為實(shí),眼見不再為實(shí)”,內(nèi)容生成與內(nèi)容安全要統(tǒng)籌兼顧。
或許有人存在“幸存者偏差”的心態(tài),認(rèn)為自己并不屬于AIGC“換臉”魔法的輻射對(duì)象,圖像安全與自己無關(guān)。事實(shí)上,除了人像,人們?cè)诠ぷ髦谐R姵S玫母黝愇臋n所產(chǎn)生的圖片,也是造假重災(zāi)區(qū),如被篡改的資質(zhì)證書、文案、聊天截圖等,常常被用于散播謠言、經(jīng)濟(jì)詐騙,開頭提到的理財(cái)詐騙使用的便是圖片篡改手段。
CCIG 2023舉辦期間,《文檔圖像智能分析與處理》高峰論壇引發(fā)了眾多業(yè)內(nèi)人士的關(guān)注。該論壇由中國(guó)圖象圖形學(xué)學(xué)會(huì)文檔圖像分析與識(shí)別專業(yè)委員會(huì)與合合信息聯(lián)合組織,由中國(guó)圖象圖形學(xué)學(xué)會(huì)常務(wù)理事、華南理工大學(xué)的金連文教授擔(dān)任主持人。
金連文主持《文檔圖像智能分析與處理》論壇
論壇邀請(qǐng)到了相關(guān)領(lǐng)域最頂尖的研究者們,包括中科院自動(dòng)化所、北大、中科大的學(xué)術(shù)專家,以及華為等知名企業(yè)的技術(shù)代表,就文檔圖像處理技術(shù)的發(fā)展現(xiàn)狀及應(yīng)用,AI圖像內(nèi)容安全面臨的挑戰(zhàn)、多模態(tài)大模型時(shí)代的行業(yè)機(jī)遇等議題展開了深入討論。
1、文檔處理智能化之路:
緣起百年之前,AI引發(fā)劇變
文檔就是各種合同嗎?其實(shí)不然,文檔涵蓋的載體遠(yuǎn)比常人想象的寬泛,如紙張、物理表面、圖像、文件等含有文字符號(hào)的媒體都屬于文檔。近年來,隨著數(shù)字化轉(zhuǎn)型提速,AI 在文檔智能處理領(lǐng)域的落地,令許多原本手工化的文檔處理環(huán)節(jié)登上了效率“直升梯”。
有關(guān)文檔識(shí)別處理的研究始于百年之前。1929 年,德國(guó)學(xué)者 Tausheck 通過純光學(xué)技術(shù)研究,提出了首個(gè) OCR 專利“光學(xué)字符識(shí)別”,此后OCR相關(guān)技術(shù)不斷發(fā)展,并被廣泛應(yīng)用于文檔處理中。2013年前后,隨著深度學(xué)習(xí)技術(shù)的引入,文檔識(shí)別與理解技術(shù)也就此邁向以深度學(xué)習(xí)為主導(dǎo)的研究時(shí)期,Attention 機(jī)制等深度學(xué)習(xí)技術(shù)在文檔圖像處理領(lǐng)域的應(yīng)用,使得文檔識(shí)別性能也得到了快速提升。
引用自劉成林《大模型時(shí)代的文檔識(shí)別與理解》報(bào)告主題分享
什么樣的文檔處理稱得上是“智能文檔處理”呢?從使用者的角度看,“智能”至少需要滿足自動(dòng)從不同文檔中提取有效信息這個(gè)基礎(chǔ),甚至達(dá)到“理解”文檔信息,輔助人們辦公、生活的層級(jí)。
在《文檔圖像智能分析與處理》論壇上,專家們從框架上劃定了“智能文檔處理”的技術(shù)范疇,包括文檔圖像分析與預(yù)處理、文檔解析與識(shí)別、版面分析與還原、文檔信息抽取與理解、AI安全、知識(shí)化等?梢园l(fā)現(xiàn),關(guān)于文檔圖像的工作處于整個(gè)流程的第一環(huán)節(jié),對(duì)文檔處理后續(xù)工作地質(zhì)量與效率有著決定性的影響。
2、圖像預(yù)處理:
文檔智能化處理的重要開端
進(jìn)入實(shí)際應(yīng)用后,文檔圖像處理還面臨著諸多挑戰(zhàn)。文檔類型多樣化、產(chǎn)生了繁雜的版式與結(jié)構(gòu);受拍攝器材、背景環(huán)境等外部因素的影響,圖像時(shí)常存在噪聲和質(zhì)量問題;圖文信息中的形變、陰影、摩爾紋等情況,也加大了技術(shù)識(shí)別和理解工作的難度。
劉成林就《人工智能大模型時(shí)代的文檔識(shí)別與理解》報(bào)告主題進(jìn)行分享
論壇中,中國(guó)科學(xué)院自動(dòng)化研究所副所長(zhǎng)劉成林認(rèn)為,總體上,當(dāng)前文檔識(shí)別與理解研究向深度、廣度擴(kuò)展,處理方法全面轉(zhuǎn)向深度神經(jīng)網(wǎng)絡(luò)模型和深度學(xué)習(xí)方法,識(shí)別性能大幅提升且應(yīng)用場(chǎng)景不斷擴(kuò)展。但當(dāng)前技術(shù)在識(shí)別精度和可靠性、可解釋性、自適應(yīng)性等方面存在明顯不足,還有形變解決、跨場(chǎng)景能力薄弱等很多技術(shù)問題有待解決。
劉成林專門提到,文檔圖像預(yù)處理等領(lǐng)域目前有很大的進(jìn)展,挑戰(zhàn)也很多。這一觀點(diǎn)也引起了產(chǎn)業(yè)界專家的共鳴。合合信息智能技術(shù)平臺(tái)事業(yè)部副總經(jīng)理、高級(jí)工程師丁凱博士就合合信息在文檔圖像預(yù)處理方面的工作進(jìn)行了分享。
丁凱指出,文檔圖像預(yù)處理的整體架構(gòu)由 ROI 提取、干擾去除、形變矯正、圖像恢復(fù)、圖像增強(qiáng)這五個(gè)重要技術(shù)步驟組成。其中,形變矯正包括了對(duì)傾斜透視、彎曲的矯正,圖像恢復(fù)可用于解決陰影、摩爾紋干擾信息對(duì)圖像識(shí)別影響的問題。
舉個(gè)例子,當(dāng)人們用手機(jī)拍攝下一本書的某個(gè)頁面時(shí),受拍攝角度、文檔放置位置、抖動(dòng)等因素的影響,可能會(huì)造成所拍攝的圖像有折疊彎曲的現(xiàn)象,需要進(jìn)行矯正處理。合合信息采用基于位移場(chǎng)網(wǎng)絡(luò)學(xué)習(xí)方法的系統(tǒng)構(gòu)架,可對(duì)形變文檔進(jìn)行智能矯正,包括彎曲矯正與透視矯正,同時(shí)智能定位文檔邊緣,切除多余背景,自動(dòng)“拉平”圖像,提升文檔內(nèi)容識(shí)別效率與質(zhì)量。
另外,涉及有些不便導(dǎo)出的文件、圖片時(shí),人們需要對(duì)著電腦屏幕拍照,可能產(chǎn)生嚴(yán)重的“摩爾紋”(屏幕紋),從而加大了識(shí)別和理解工作的難度,導(dǎo)致模型在處理文檔圖像時(shí),出現(xiàn)識(shí)別精度差、分析結(jié)果不正確等情況。
因此,如果要對(duì)摩爾紋進(jìn)行去除,首先需要從文檔背景中提取一個(gè)模塊,將圖像中的摩爾紋等干擾項(xiàng)進(jìn)行提取,借助干擾去除模塊對(duì)摩爾紋進(jìn)行消除后,再把原圖和去除干擾項(xiàng)的圖進(jìn)行融合,從而就能獲得一張效果比較好的摩爾紋去除圖。
合合信息通過對(duì)文檔進(jìn)行智能圖像處理,可大幅提升文檔掃描質(zhì)量、文檔識(shí)別分析能力。目前,彎曲矯正、去摩爾紋、反光消除等多項(xiàng)技術(shù)已被應(yīng)用于合合信息旗下“掃描全能王”等產(chǎn)品中。
如果說圖像的預(yù)處理能力影響的是文檔處理的效率,那么對(duì)于圖片中虛假信息的辨別,則關(guān)乎到使用者的安全和利益。面對(duì)文檔篡改、虛擬圖像識(shí)別等新的問題,AI 仍然是重要的突破口。
3、保障文檔圖像安全
研究者做了這些工作
一般情況下,篡改文本圖像的生成與檢測(cè)問題往往被認(rèn)為是對(duì)立的。但在中國(guó)科技大學(xué)的謝洪濤教授看來,二者其實(shí)一個(gè)矛與盾的問題,密不可分、相輔相成。
謝洪濤認(rèn)為,篡改文本圖像的生成方法能夠反映篡改文本圖像檢測(cè)方法的檢測(cè)性能;同時(shí),篡改文本圖像檢測(cè)方法也能反映篡改文本圖像生成的效果,因此兩者只有共同進(jìn)步才能實(shí)現(xiàn)矛與盾的良性發(fā)展。
引用自謝洪濤《篡改文本圖像的生成與檢測(cè)》報(bào)告主題分享
在過往的一些訓(xùn)練方法中,針對(duì)不同的偽造方法所得到的檢測(cè)模型可能并不具備泛化性,為了構(gòu)建一個(gè)通用的篡改文本檢測(cè)器,如何做到既保留場(chǎng)景文本檢測(cè)器的優(yōu)越性、并降低對(duì)數(shù)據(jù)量的依賴程度就十分重要。
謝洪濤提到,篡改文本檢測(cè)定義為多分類目標(biāo)檢測(cè)任務(wù),任務(wù)的檢測(cè)不應(yīng)只擬合篡改文本區(qū)域,因此他們提出,通用檢測(cè)器的構(gòu)建應(yīng)該從一般場(chǎng)景文本向篡改文本檢測(cè)器的網(wǎng)絡(luò)修改策略,并基于頻域的特征提取器來降低網(wǎng)絡(luò)對(duì)數(shù)據(jù)量的依賴性。
而通過引入頻域或者其他域中對(duì)模型檢測(cè)的生成內(nèi)容進(jìn)行特征感知,包括偽造區(qū)域的紋理區(qū)分、設(shè)計(jì)合理的偽造檢測(cè)算法、時(shí)間復(fù)雜度等等,可最終建立起一個(gè)攻防博弈的過程。
謝洪濤就《篡改文本圖像的生成與檢測(cè)》報(bào)告主題進(jìn)行分享
產(chǎn)業(yè)應(yīng)用中,面對(duì)文檔圖像內(nèi)容的安全問題,合合信息也進(jìn)行了相應(yīng)的部署,在其智能文字識(shí)別服務(wù)平臺(tái)推出了篡改檢測(cè)服務(wù)。
據(jù)合合信息丁凱博士介紹,過去技術(shù)人員通常會(huì)參考Exif信息來判斷圖片是否存在篡改主要問題,但這種方法容易出現(xiàn)誤判:圖片經(jīng)過PS,GMIP等圖像編輯軟件,但未篡改具體內(nèi)容,可能會(huì)誤判;圖片被篡改后,用第三方軟件或工具抹除Exif信息,也可能造成誤判。
基于此,合合信息研發(fā)了基于深度學(xué)習(xí)的圖像篡改檢測(cè)技術(shù)及相關(guān)系統(tǒng),融合SRM、BayarConv、ELA等方法提升 CNN Tamper Detector 性能,檢測(cè) RGB 域和噪聲域存在痕跡的篡改。
丁凱就《智能文檔處理技術(shù)在工業(yè)界的應(yīng)用與挑戰(zhàn)》報(bào)告主題進(jìn)行分享
通過學(xué)習(xí)圖像被篡改后統(tǒng)計(jì)特征的變化,該系統(tǒng)智能捕捉圖像在篡改過程中留下的細(xì)微痕跡,可檢測(cè)出擦除重打印文本、重打印文本、復(fù)制、移動(dòng)、拼接等多種篡改形式,讓人工智能準(zhǔn)確識(shí)別出圖片篡改的不同類型,并進(jìn)行針對(duì)性的處理,提升識(shí)別精度和場(chǎng)景通用性。目前,合合信息圖像篡改檢測(cè)技術(shù)已被銀行、保險(xiǎn)、制造業(yè)等多個(gè)行業(yè)引入。
4、模態(tài)大模型時(shí)代
智能文檔處理的挑戰(zhàn)與機(jī)遇
近半年來,大模型成為智能時(shí)代全新的基礎(chǔ)設(shè)施。對(duì)于大模型的討論,關(guān)注者們不應(yīng)當(dāng)只停留在用了多少張卡、龐大的參數(shù)量和增加了哪些新模態(tài),而是 AI 的能力如何應(yīng)用到具體的產(chǎn)業(yè)中,比如借助大模型,讓文檔圖像智能分析與處理可以更好地處理跨模態(tài)信息,將文本、視頻、圖片等不同形式的信息進(jìn)行融合,從而實(shí)現(xiàn)更加全面、深入的信息分析。
作為圖像圖形技術(shù)的重要應(yīng)用場(chǎng)景之一,文檔圖像智能處理也應(yīng)當(dāng)積極擁抱大模型時(shí)代。北京大學(xué)教授鄒月嫻在論壇現(xiàn)場(chǎng)中提到,“在與文檔圖像處理技術(shù)密切相關(guān)的OCR領(lǐng)域中,專業(yè)化大規(guī)模的預(yù)訓(xùn)練模型是可行的。大模型是一個(gè)大的趨勢(shì),對(duì)于小團(tuán)隊(duì)來說,做工具是一個(gè)非常好的方法。”
鄒月嫻就《視覺-語言預(yù)訓(xùn)練模型及遷移學(xué)習(xí)方法》報(bào)告主題進(jìn)行分享
深入產(chǎn)業(yè) AI,不可避免地會(huì)遇到更低頻、長(zhǎng)尾的復(fù)雜場(chǎng)景和大規(guī)模協(xié)同的需求。這些具體場(chǎng)景的數(shù)據(jù)樣本少、數(shù)據(jù)分布不均,這也意味著企業(yè)在研發(fā)上也需要更高的成本,服務(wù)定制化程度也更高,通用性大模型的優(yōu)勢(shì)由此顯現(xiàn)。
在文檔圖像處理領(lǐng)域中,處于應(yīng)用層的企業(yè)用戶往往要面臨復(fù)雜多樣的場(chǎng)景,這意味著企業(yè)需要調(diào)用多個(gè) API,維護(hù)成本大、難度也較高。因此,企業(yè)更需要的是一個(gè)能覆蓋多元使用場(chǎng)景、具備專業(yè)行業(yè) Know-How 的垂直領(lǐng)域 OCR 大模型。
一個(gè)理想的設(shè)想是,企業(yè)既可以調(diào)用 OCR 大模型全部能力,也可以結(jié)合自身企業(yè)需求和特定場(chǎng)景,基于小型知識(shí)圖譜訓(xùn)練自己的模型算法。對(duì)此,華為云 AI算法研究員廖明輝提出,垂直領(lǐng)域OCR大模型在數(shù)據(jù)層面,最關(guān)鍵的不是數(shù)據(jù)的數(shù)量,而是數(shù)據(jù)的多樣性。
廖明輝就《華為云OCR技術(shù)進(jìn)展及實(shí)踐》報(bào)告主題進(jìn)行分享
以銀行中常見的基金對(duì)賬單托管業(yè)務(wù)為例,市面上基金公司眾多,往往每家公司的賬單樣式都不相同,加上復(fù)雜的表格呈現(xiàn)形式,因此十分考驗(yàn) OCR 大模型對(duì)結(jié)構(gòu)化信息的提取能力。基于OCR大模型之上,銀行就可以針對(duì)托管對(duì)賬單這一特定場(chǎng)景的結(jié)構(gòu)化信息特性,訓(xùn)練專用的提取算法。
這種基于垂直領(lǐng)域的大模型對(duì)專業(yè)知識(shí)數(shù)據(jù)的需求更高,丁凱也表示,很多算法可能在某一個(gè)數(shù)據(jù)集中表現(xiàn)很好,但換一個(gè)效果就大打折扣。因此,如何通過零樣本、小樣本等進(jìn)行技術(shù)創(chuàng)新也是一個(gè)值得探索的點(diǎn),“思考 OCR 領(lǐng)域的智能涌現(xiàn)是什么很重要。”丁凱說。
劉成林也對(duì)OCR大模型做了一下系統(tǒng)性的總結(jié),指出:大模型的特征表示、語言能力對(duì)于文檔處理的智能化發(fā)展非常關(guān)鍵。大模型技術(shù)與光學(xué)字符識(shí)別(OCR)技術(shù)的結(jié)合,能夠?qū)A繑?shù)據(jù)進(jìn)行理解、處理;不同任務(wù)的專用模型和學(xué)習(xí)算法,接下來仍然大有可為。
“大模型的可解釋性、安全度十分重要,還需要研究者們進(jìn)行更為深入的探討。具體到實(shí)踐層面,大模型技術(shù)還有可觀的提升空間。”劉成林提到,從識(shí)別性能來看,大模型技術(shù)在場(chǎng)景文本、邏輯版面、文檔問答等方面還有很多工作可以做。
今天,大模型的準(zhǔn)入門檻正在不斷降低,技術(shù)變革正在席卷更多的行業(yè),為文檔圖像智能處理帶來了新的機(jī)遇,一場(chǎng)關(guān)于耐力和實(shí)力的馬拉松較量已拉開序幕。
參考資料(以下均為大會(huì)報(bào)告):
《人工智能大模型時(shí)代的文檔識(shí)別與理解》.劉成林
《視覺-語言預(yù)訓(xùn)練模型及遷移學(xué)習(xí)方法》.鄒月嫻
《篡改文本圖像的生成與檢測(cè)》.謝洪濤
《華為云OCR技術(shù)進(jìn)展及實(shí)踐》.廖明輝
《智能文檔處理技術(shù)在工業(yè)界的應(yīng)用與挑戰(zhàn)》.丁凱
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。