多模態(tài)大模型「卷」向智能文檔，只為解放打工人的雙手

2023年05月24日 12:15:09 作者 | 黃楠　　編輯 | 陳彩嫻 來源：AI科技評(píng)論

　　來源：AI科技評(píng)論

作者 | 黃楠

　　編輯 | 陳彩嫻

　　今年3月，上海靜安區(qū)警方接到了一則關(guān)于虛擬投資理財(cái)?shù)膱?bào)案：一男子出資 300 余萬委托某二級(jí)股票市場(chǎng)項(xiàng)目的投資者幫其代操作投資。在此期間，該投資者時(shí)常會(huì)分享“個(gè)股走勢(shì)”“賬戶收益”的圖片或視頻給劉先生，但到了雙方契約期滿時(shí)，劉先生卻討要投資收益及本金無果、還被要求續(xù)簽協(xié)議。

　　經(jīng)查，該投資者實(shí)則是一名失信人員，此前所提供大量“賬戶收益”圖片，均是通過 P 圖偽造的。

　　AI技術(shù)的興起在許多領(lǐng)域極大地解放了人們的雙手，也帶來了新的安全隱患。圖像信息的造假是最常見的風(fēng)險(xiǎn)之一，AI圖像內(nèi)容安全也成為了圖像圖形領(lǐng)域關(guān)注的重點(diǎn)。

　　近日，中國(guó)圖象圖形大會(huì)(CCIG 2023)在蘇州舉辦，大會(huì)以“圖象圖形向未來”為主題，譚鐵牛、趙沁平、吳一戎、徐宗本等院士出席現(xiàn)場(chǎng)并作主旨報(bào)告。

　　其中，譚鐵牛院士就《視覺內(nèi)容生成與安全》進(jìn)行主題報(bào)告分享，從人工智能內(nèi)容生成的研究背景及現(xiàn)狀出發(fā)，介紹了近年來在內(nèi)容生成和取證方面取得的研究結(jié)果，就視覺鑒偽技術(shù)要點(diǎn)進(jìn)行專門分享，并展望了未來的發(fā)展趨勢(shì)。

　　譚鐵牛提到，以大模型為代表的人工智能核心技術(shù)取得了新的突破，人工智能的廣泛應(yīng)用也給人類社會(huì)帶來法律法規(guī)、道德倫理、社會(huì)治理等方面的挑戰(zhàn)。AIGC能夠讓“眼見能不為實(shí)，眼見不再為實(shí)”，內(nèi)容生成與內(nèi)容安全要統(tǒng)籌兼顧。

　　或許有人存在“幸存者偏差”的心態(tài)，認(rèn)為自己并不屬于AIGC“換臉”魔法的輻射對(duì)象，圖像安全與自己無關(guān)。事實(shí)上，除了人像，人們?cè)诠ぷ髦谐Ｒ姵Ｓ玫母黝愇臋n所產(chǎn)生的圖片，也是造假重災(zāi)區(qū)，如被篡改的資質(zhì)證書、文案、聊天截圖等，常常被用于散播謠言、經(jīng)濟(jì)詐騙，開頭提到的理財(cái)詐騙使用的便是圖片篡改手段。

　　CCIG 2023舉辦期間，《文檔圖像智能分析與處理》高峰論壇引發(fā)了眾多業(yè)內(nèi)人士的關(guān)注。該論壇由中國(guó)圖象圖形學(xué)學(xué)會(huì)文檔圖像分析與識(shí)別專業(yè)委員會(huì)與合合信息聯(lián)合組織，由中國(guó)圖象圖形學(xué)學(xué)會(huì)常務(wù)理事、華南理工大學(xué)的金連文教授擔(dān)任主持人。

　　金連文主持《文檔圖像智能分析與處理》論壇

　　論壇邀請(qǐng)到了相關(guān)領(lǐng)域最頂尖的研究者們，包括中科院自動(dòng)化所、北大、中科大的學(xué)術(shù)專家，以及華為等知名企業(yè)的技術(shù)代表，就文檔圖像處理技術(shù)的發(fā)展現(xiàn)狀及應(yīng)用，AI圖像內(nèi)容安全面臨的挑戰(zhàn)、多模態(tài)大模型時(shí)代的行業(yè)機(jī)遇等議題展開了深入討論。

　　1、文檔處理智能化之路：

　　緣起百年之前，AI引發(fā)劇變

　　文檔就是各種合同嗎?其實(shí)不然，文檔涵蓋的載體遠(yuǎn)比常人想象的寬泛，如紙張、物理表面、圖像、文件等含有文字符號(hào)的媒體都屬于文檔。近年來，隨著數(shù)字化轉(zhuǎn)型提速，AI 在文檔智能處理領(lǐng)域的落地，令許多原本手工化的文檔處理環(huán)節(jié)登上了效率“直升梯”。

　　有關(guān)文檔識(shí)別處理的研究始于百年之前。1929 年，德國(guó)學(xué)者 Tausheck 通過純光學(xué)技術(shù)研究，提出了首個(gè) OCR 專利“光學(xué)字符識(shí)別”，此后OCR相關(guān)技術(shù)不斷發(fā)展，并被廣泛應(yīng)用于文檔處理中。2013年前后，隨著深度學(xué)習(xí)技術(shù)的引入，文檔識(shí)別與理解技術(shù)也就此邁向以深度學(xué)習(xí)為主導(dǎo)的研究時(shí)期，Attention 機(jī)制等深度學(xué)習(xí)技術(shù)在文檔圖像處理領(lǐng)域的應(yīng)用，使得文檔識(shí)別性能也得到了快速提升。

　　引用自劉成林《大模型時(shí)代的文檔識(shí)別與理解》報(bào)告主題分享

　　什么樣的文檔處理稱得上是“智能文檔處理”呢?從使用者的角度看，“智能”至少需要滿足自動(dòng)從不同文檔中提取有效信息這個(gè)基礎(chǔ)，甚至達(dá)到“理解”文檔信息，輔助人們辦公、生活的層級(jí)。

　　在《文檔圖像智能分析與處理》論壇上，專家們從框架上劃定了“智能文檔處理”的技術(shù)范疇，包括文檔圖像分析與預(yù)處理、文檔解析與識(shí)別、版面分析與還原、文檔信息抽取與理解、AI安全、知識(shí)化等�？梢园l(fā)現(xiàn)，關(guān)于文檔圖像的工作處于整個(gè)流程的第一環(huán)節(jié)，對(duì)文檔處理后續(xù)工作地質(zhì)量與效率有著決定性的影響。

　　2、圖像預(yù)處理：

　　文檔智能化處理的重要開端

　　進(jìn)入實(shí)際應(yīng)用后，文檔圖像處理還面臨著諸多挑戰(zhàn)。文檔類型多樣化、產(chǎn)生了繁雜的版式與結(jié)構(gòu);受拍攝器材、背景環(huán)境等外部因素的影響，圖像時(shí)常存在噪聲和質(zhì)量問題;圖文信息中的形變、陰影、摩爾紋等情況，也加大了技術(shù)識(shí)別和理解工作的難度。

　　劉成林就《人工智能大模型時(shí)代的文檔識(shí)別與理解》報(bào)告主題進(jìn)行分享

　　論壇中，中國(guó)科學(xué)院自動(dòng)化研究所副所長(zhǎng)劉成林認(rèn)為，總體上，當(dāng)前文檔識(shí)別與理解研究向深度、廣度擴(kuò)展，處理方法全面轉(zhuǎn)向深度神經(jīng)網(wǎng)絡(luò)模型和深度學(xué)習(xí)方法，識(shí)別性能大幅提升且應(yīng)用場(chǎng)景不斷擴(kuò)展。但當(dāng)前技術(shù)在識(shí)別精度和可靠性、可解釋性、自適應(yīng)性等方面存在明顯不足，還有形變解決、跨場(chǎng)景能力薄弱等很多技術(shù)問題有待解決。

　　劉成林專門提到，文檔圖像預(yù)處理等領(lǐng)域目前有很大的進(jìn)展，挑戰(zhàn)也很多。這一觀點(diǎn)也引起了產(chǎn)業(yè)界專家的共鳴。合合信息智能技術(shù)平臺(tái)事業(yè)部副總經(jīng)理、高級(jí)工程師丁凱博士就合合信息在文檔圖像預(yù)處理方面的工作進(jìn)行了分享。

　　丁凱指出，文檔圖像預(yù)處理的整體架構(gòu)由 ROI 提取、干擾去除、形變矯正、圖像恢復(fù)、圖像增強(qiáng)這五個(gè)重要技術(shù)步驟組成。其中，形變矯正包括了對(duì)傾斜透視、彎曲的矯正，圖像恢復(fù)可用于解決陰影、摩爾紋干擾信息對(duì)圖像識(shí)別影響的問題。

　　舉個(gè)例子，當(dāng)人們用手機(jī)拍攝下一本書的某個(gè)頁面時(shí)，受拍攝角度、文檔放置位置、抖動(dòng)等因素的影響，可能會(huì)造成所拍攝的圖像有折疊彎曲的現(xiàn)象，需要進(jìn)行矯正處理。合合信息采用基于位移場(chǎng)網(wǎng)絡(luò)學(xué)習(xí)方法的系統(tǒng)構(gòu)架，可對(duì)形變文檔進(jìn)行智能矯正，包括彎曲矯正與透視矯正，同時(shí)智能定位文檔邊緣，切除多余背景，自動(dòng)“拉平”圖像，提升文檔內(nèi)容識(shí)別效率與質(zhì)量。

　　另外，涉及有些不便導(dǎo)出的文件、圖片時(shí)，人們需要對(duì)著電腦屏幕拍照，可能產(chǎn)生嚴(yán)重的“摩爾紋”(屏幕紋)，從而加大了識(shí)別和理解工作的難度，導(dǎo)致模型在處理文檔圖像時(shí)，出現(xiàn)識(shí)別精度差、分析結(jié)果不正確等情況。

　　因此，如果要對(duì)摩爾紋進(jìn)行去除，首先需要從文檔背景中提取一個(gè)模塊，將圖像中的摩爾紋等干擾項(xiàng)進(jìn)行提取，借助干擾去除模塊對(duì)摩爾紋進(jìn)行消除后，再把原圖和去除干擾項(xiàng)的圖進(jìn)行融合，從而就能獲得一張效果比較好的摩爾紋去除圖。

　　合合信息通過對(duì)文檔進(jìn)行智能圖像處理，可大幅提升文檔掃描質(zhì)量、文檔識(shí)別分析能力。目前，彎曲矯正、去摩爾紋、反光消除等多項(xiàng)技術(shù)已被應(yīng)用于合合信息旗下“掃描全能王”等產(chǎn)品中。

　　如果說圖像的預(yù)處理能力影響的是文檔處理的效率，那么對(duì)于圖片中虛假信息的辨別，則關(guān)乎到使用者的安全和利益。面對(duì)文檔篡改、虛擬圖像識(shí)別等新的問題，AI 仍然是重要的突破口。

　　3、保障文檔圖像安全

　　研究者做了這些工作

　　一般情況下，篡改文本圖像的生成與檢測(cè)問題往往被認(rèn)為是對(duì)立的。但在中國(guó)科技大學(xué)的謝洪濤教授看來，二者其實(shí)一個(gè)矛與盾的問題，密不可分、相輔相成。

　　謝洪濤認(rèn)為，篡改文本圖像的生成方法能夠反映篡改文本圖像檢測(cè)方法的檢測(cè)性能;同時(shí)，篡改文本圖像檢測(cè)方法也能反映篡改文本圖像生成的效果，因此兩者只有共同進(jìn)步才能實(shí)現(xiàn)矛與盾的良性發(fā)展。

　　引用自謝洪濤《篡改文本圖像的生成與檢測(cè)》報(bào)告主題分享

　　在過往的一些訓(xùn)練方法中，針對(duì)不同的偽造方法所得到的檢測(cè)模型可能并不具備泛化性，為了構(gòu)建一個(gè)通用的篡改文本檢測(cè)器，如何做到既保留場(chǎng)景文本檢測(cè)器的優(yōu)越性、并降低對(duì)數(shù)據(jù)量的依賴程度就十分重要。

　　謝洪濤提到，篡改文本檢測(cè)定義為多分類目標(biāo)檢測(cè)任務(wù)，任務(wù)的檢測(cè)不應(yīng)只擬合篡改文本區(qū)域，因此他們提出，通用檢測(cè)器的構(gòu)建應(yīng)該從一般場(chǎng)景文本向篡改文本檢測(cè)器的網(wǎng)絡(luò)修改策略，并基于頻域的特征提取器來降低網(wǎng)絡(luò)對(duì)數(shù)據(jù)量的依賴性。

　　而通過引入頻域或者其他域中對(duì)模型檢測(cè)的生成內(nèi)容進(jìn)行特征感知，包括偽造區(qū)域的紋理區(qū)分、設(shè)計(jì)合理的偽造檢測(cè)算法、時(shí)間復(fù)雜度等等，可最終建立起一個(gè)攻防博弈的過程。

　　謝洪濤就《篡改文本圖像的生成與檢測(cè)》報(bào)告主題進(jìn)行分享

　　產(chǎn)業(yè)應(yīng)用中，面對(duì)文檔圖像內(nèi)容的安全問題，合合信息也進(jìn)行了相應(yīng)的部署，在其智能文字識(shí)別服務(wù)平臺(tái)推出了篡改檢測(cè)服務(wù)。

　　據(jù)合合信息丁凱博士介紹，過去技術(shù)人員通常會(huì)參考Exif信息來判斷圖片是否存在篡改主要問題，但這種方法容易出現(xiàn)誤判：圖片經(jīng)過PS，GMIP等圖像編輯軟件，但未篡改具體內(nèi)容，可能會(huì)誤判;圖片被篡改后，用第三方軟件或工具抹除Exif信息，也可能造成誤判。

　　基于此，合合信息研發(fā)了基于深度學(xué)習(xí)的圖像篡改檢測(cè)技術(shù)及相關(guān)系統(tǒng)，融合SRM、BayarConv、ELA等方法提升 CNN Tamper Detector 性能，檢測(cè) RGB 域和噪聲域存在痕跡的篡改。

　　丁凱就《智能文檔處理技術(shù)在工業(yè)界的應(yīng)用與挑戰(zhàn)》報(bào)告主題進(jìn)行分享

　　通過學(xué)習(xí)圖像被篡改后統(tǒng)計(jì)特征的變化，該系統(tǒng)智能捕捉圖像在篡改過程中留下的細(xì)微痕跡，可檢測(cè)出擦除重打印文本、重打印文本、復(fù)制、移動(dòng)、拼接等多種篡改形式，讓人工智能準(zhǔn)確識(shí)別出圖片篡改的不同類型，并進(jìn)行針對(duì)性的處理，提升識(shí)別精度和場(chǎng)景通用性。目前，合合信息圖像篡改檢測(cè)技術(shù)已被銀行、保險(xiǎn)、制造業(yè)等多個(gè)行業(yè)引入。

　　4、模態(tài)大模型時(shí)代

　　智能文檔處理的挑戰(zhàn)與機(jī)遇

　　近半年來，大模型成為智能時(shí)代全新的基礎(chǔ)設(shè)施。對(duì)于大模型的討論，關(guān)注者們不應(yīng)當(dāng)只停留在用了多少張卡、龐大的參數(shù)量和增加了哪些新模態(tài)，而是 AI 的能力如何應(yīng)用到具體的產(chǎn)業(yè)中，比如借助大模型，讓文檔圖像智能分析與處理可以更好地處理跨模態(tài)信息，將文本、視頻、圖片等不同形式的信息進(jìn)行融合，從而實(shí)現(xiàn)更加全面、深入的信息分析。

　　作為圖像圖形技術(shù)的重要應(yīng)用場(chǎng)景之一，文檔圖像智能處理也應(yīng)當(dāng)積極擁抱大模型時(shí)代。北京大學(xué)教授鄒月嫻在論壇現(xiàn)場(chǎng)中提到，“在與文檔圖像處理技術(shù)密切相關(guān)的OCR領(lǐng)域中，專業(yè)化大規(guī)模的預(yù)訓(xùn)練模型是可行的。大模型是一個(gè)大的趨勢(shì)，對(duì)于小團(tuán)隊(duì)來說，做工具是一個(gè)非常好的方法。”

　　鄒月嫻就《視覺-語言預(yù)訓(xùn)練模型及遷移學(xué)習(xí)方法》報(bào)告主題進(jìn)行分享

　　深入產(chǎn)業(yè) AI，不可避免地會(huì)遇到更低頻、長(zhǎng)尾的復(fù)雜場(chǎng)景和大規(guī)模協(xié)同的需求。這些具體場(chǎng)景的數(shù)據(jù)樣本少、數(shù)據(jù)分布不均，這也意味著企業(yè)在研發(fā)上也需要更高的成本，服務(wù)定制化程度也更高，通用性大模型的優(yōu)勢(shì)由此顯現(xiàn)。

　　在文檔圖像處理領(lǐng)域中，處于應(yīng)用層的企業(yè)用戶往往要面臨復(fù)雜多樣的場(chǎng)景，這意味著企業(yè)需要調(diào)用多個(gè) API，維護(hù)成本大、難度也較高。因此，企業(yè)更需要的是一個(gè)能覆蓋多元使用場(chǎng)景、具備專業(yè)行業(yè) Know-How 的垂直領(lǐng)域 OCR 大模型。

　　一個(gè)理想的設(shè)想是，企業(yè)既可以調(diào)用 OCR 大模型全部能力，也可以結(jié)合自身企業(yè)需求和特定場(chǎng)景，基于小型知識(shí)圖譜訓(xùn)練自己的模型算法。對(duì)此，華為云 AI算法研究員廖明輝提出，垂直領(lǐng)域OCR大模型在數(shù)據(jù)層面，最關(guān)鍵的不是數(shù)據(jù)的數(shù)量，而是數(shù)據(jù)的多樣性。

　　廖明輝就《華為云OCR技術(shù)進(jìn)展及實(shí)踐》報(bào)告主題進(jìn)行分享

　　以銀行中常見的基金對(duì)賬單托管業(yè)務(wù)為例，市面上基金公司眾多，往往每家公司的賬單樣式都不相同，加上復(fù)雜的表格呈現(xiàn)形式，因此十分考驗(yàn) OCR 大模型對(duì)結(jié)構(gòu)化信息的提取能力。基于OCR大模型之上，銀行就可以針對(duì)托管對(duì)賬單這一特定場(chǎng)景的結(jié)構(gòu)化信息特性，訓(xùn)練專用的提取算法。

　　這種基于垂直領(lǐng)域的大模型對(duì)專業(yè)知識(shí)數(shù)據(jù)的需求更高，丁凱也表示，很多算法可能在某一個(gè)數(shù)據(jù)集中表現(xiàn)很好，但換一個(gè)效果就大打折扣。因此，如何通過零樣本、小樣本等進(jìn)行技術(shù)創(chuàng)新也是一個(gè)值得探索的點(diǎn)，“思考 OCR 領(lǐng)域的智能涌現(xiàn)是什么很重要。”丁凱說。

　　劉成林也對(duì)OCR大模型做了一下系統(tǒng)性的總結(jié)，指出：大模型的特征表示、語言能力對(duì)于文檔處理的智能化發(fā)展非常關(guān)鍵。大模型技術(shù)與光學(xué)字符識(shí)別(OCR)技術(shù)的結(jié)合，能夠?qū)Ａ繑?shù)據(jù)進(jìn)行理解、處理;不同任務(wù)的專用模型和學(xué)習(xí)算法，接下來仍然大有可為。

　　“大模型的可解釋性、安全度十分重要，還需要研究者們進(jìn)行更為深入的探討。具體到實(shí)踐層面，大模型技術(shù)還有可觀的提升空間。”劉成林提到，從識(shí)別性能來看，大模型技術(shù)在場(chǎng)景文本、邏輯版面、文檔問答等方面還有很多工作可以做。

　　今天，大模型的準(zhǔn)入門檻正在不斷降低，技術(shù)變革正在席卷更多的行業(yè)，為文檔圖像智能處理帶來了新的機(jī)遇，一場(chǎng)關(guān)于耐力和實(shí)力的馬拉松較量已拉開序幕。

　　參考資料(以下均為大會(huì)報(bào)告)：

　　《人工智能大模型時(shí)代的文檔識(shí)別與理解》.劉成林

　　《視覺-語言預(yù)訓(xùn)練模型及遷移學(xué)習(xí)方法》.鄒月嫻

　　《篡改文本圖像的生成與檢測(cè)》.謝洪濤

　　《華為云OCR技術(shù)進(jìn)展及實(shí)踐》.廖明輝

　　《智能文檔處理技術(shù)在工業(yè)界的應(yīng)用與挑戰(zhàn)》.丁凱

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. S013]
分享到微信