上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術邂逅千年色彩美學!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領域三星新專利探索AR技術新應用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級機器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機器也能說人話了?阿里國際推出最新多模態(tài)大模型 Ovis,看菜品就能提供烹飪步驟華為發(fā)布智聯(lián)集成行業(yè)解決方案,助力客戶打造行業(yè)領先的目標網(wǎng)絡AI 3D生成天花板再拉升!清華團隊煉成3D Scaling Law正在逐步覆蓋!騰訊提醒勿為實況圖重裝微信:以免丟失微信聊天記錄iPhone16多款機型破發(fā):最高比官網(wǎng)便宜600元劉積仁不愛“湊熱鬧”,但東軟集團喜歡“追風口”快手電商新增近800個“0元開店”類目,推出多項新商入駐權益年內(nèi)狂攬五項第一,“字節(jié)系大模型”何以后發(fā)先至?
  • 首頁 > 數(shù)據(jù)存儲頻道 > 數(shù)據(jù)庫頻道 > 數(shù)據(jù)庫

    字數(shù)多于《康熙字典》 合合信息智能文字識別賦能上海大學構建古彝文數(shù)據(jù)庫

    2022年12月21日 15:40:32   來源:中文科技資訊

      古彝文傳承至今已有數(shù)千年歷史,是世界上最古老的文字之一。2022年12月21日,合合信息與上海大學社會學院正式簽署校企合作協(xié)議,雙方將合力完成以國家珍貴古籍《西南彝志》為中心的貴州古彝文圖像識別及數(shù)字化校對項目(簡稱“古彝文數(shù)字化項目”)。

      上海大學社會學院院長黃曉春、合合信息智能技術平臺事業(yè)部副總經(jīng)理郭豐俊共同出席簽約儀式

      此前,在中國西南多家高校的共同努力下,規(guī)范和通用彝文的數(shù)字化工作取得了重要突破,而上海大學攜手合合信息推進的古彝文數(shù)字化項目,更側(cè)重于對原生態(tài)彝文識別的攻堅克難。項目將根據(jù)上海大學古彝文研究員設計的四字節(jié)編碼系統(tǒng),引入合合信息智能文字識別技術,對異體字、變體字、誤用字和混用字等進行標注、識別、比對,并由此建立起精確的彝文古籍電子數(shù)據(jù)庫,在古彝文研究領域?qū)儆谑讋?chuàng)。

      亟待識別的古彝文,比《康熙字典》字數(shù)還多

      彝文是云南、貴州、四川等地的彝族人使用的文字,而“古彝文”專指在民間流通使用的原生態(tài)彝文。根據(jù)《滇川黔桂彝文字集》,目前記錄在冊的古彝文多達87046個。非母語研究者在翻譯古彝文時,通常需要在母語者的幫助下記音,再用漢語逐字直譯,最后采用漢語對整句話進行意譯。

      由于古彝文尚未取得預留的Unicode編碼區(qū)段,數(shù)字化工程還處于起步階段,所以在印刷出版時,需由一位彝文繕寫員先將彝文字和國際編碼抄寫在書頁的左側(cè),再將已輸入電腦的漢文譯文打印、剪切后粘貼在相應彝文字的右側(cè),形成目前常見的“四行體”彝漢文對譯,過程相對繁瑣。

      畢節(jié)市彝文文獻翻譯研究中心展示漢譯書稿

      古彝文與漢字并非一 一對應關系,存在大量的異體字、變體字。在相對規(guī)范的漢譯本彝文典籍中就有至少15%的變體字,原稿中只會更多;每個字的異體寫法少則2-3個,多則幾十種。從總量上看,未經(jīng)整理規(guī)范的古彝文字符數(shù)高達八萬七千多個,比《康熙字典》的四萬七千余字還多。據(jù)古彝文數(shù)字化團隊研究人員透露,若想要找到某個字在一本古籍里的全部樣例,手動查閱需要耗費一整天,如建立起完善的古彝文數(shù)據(jù)庫和翻譯系統(tǒng),可極大提升研究效率。

      表示“種類”的彝文字[mo21]/[mɯ33]的四個極為相似的變體

      兩個形似、但音義完全不同的彝文字,字義分別為“酒”、“儀禮”

      “漢文古籍識別所面對的頁面殘損、字形復雜、字跡模糊等問題,在彝文古籍識別中全部存在,還有一些任務是更加特殊的。”合合信息智能技術平臺事業(yè)部副總經(jīng)理郭豐俊博士提到,彝文古籍時常出現(xiàn)加字、替字、整句倒置、文字方向不統(tǒng)一等現(xiàn)象,給文字定位造成挑戰(zhàn)。再加上古彝文從未經(jīng)過統(tǒng)一,異體字、變體字眾多。合合信息將基于“AI+OCR”融合下的智能文字識別技術,解決古彝文識別的版式檢測、圖像處理和文字識別的難題。

      據(jù)悉,2021年、2022年世界人工智能大會上,合合信息用AI技術對甲骨文、西周鐘鼎文進行精準識別,受到包括央視、人民日報、新華社在內(nèi)的上百家主流媒體的關注。郭豐俊博士表示,甲骨文和古彝文追溯源頭都屬于以刻畫符號表意的文字,兩種文字的識別方式有相通之處,此次古彝文數(shù)字化項目的開啟,也成為合合信息智能文字識別技術賦能文字保護及文化傳承的重要里程碑。

      用科技開啟古彝文“傳統(tǒng)的新生命周期”

      1950年,當代著名社會學家費孝通先生訪問貴州畢節(jié)時,率先認識到彝文古籍對理解西南邊疆歷史的重要性,并鼓勵籌建翻譯機構,也為當下的古彝文研究提供了支持。古彝文數(shù)字化項目發(fā)起人、上海大學人類學民俗學研究所講師邵文苑所在的上海大學社會學院,便長期設有費孝通田野調(diào)查項目資助計劃。

      古籍數(shù)字化的過程同時也是保護古籍的過程。2017年,72位全國人大代表聯(lián)名建議實施中華古籍數(shù)字資源總庫體系建設工程,實現(xiàn)歷史文明的有序傳承。本次合合信息與上海大學共同研究的《西南彝志》共計26卷,有“彝族歷史文化的百科全書”之譽,對研究彝族歷史、經(jīng)濟、文化十分重要。

      古彝文數(shù)字化的價值并不止步于學術研究。隨著我國小康社會的全面建成,人們對精神文化關注度日益提升,以民俗為主題的現(xiàn)代文藝創(chuàng)作、娛樂活動讓傳統(tǒng)文化煥發(fā)新的生機,例如中央歌劇院演繹的柯爾克孜族英雄史詩《瑪納斯》,既尊重了民族文化特色,又體現(xiàn)了新時代的風采。

      邵文苑提到,古彝文文獻和口傳史詩中記錄了很多南詔古國、夜郎古國、巴蜀古國的奇聞異事,在理解典籍的基礎上,可以通過電影、音樂劇、浸入式戲劇等形式進行創(chuàng)作,或打造“元宇宙”世界、IP主題樂園,讓更多人跨越語種的隔閡,感受更多元的民族文化,傾聽獨具特色的中國故事。

      “傳統(tǒng)也和人一樣有生老病死的過程,并和人一樣有通過后代延續(xù)‘生命’的能力,這種理論被稱為‘傳統(tǒng)的生命周期’。”邵文苑表示,智能文字識別技術“牽手”傳統(tǒng)典籍研究,會是古彝文“傳統(tǒng)的新生命周期”的開始。

      文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    [No. H001]
    分享到微信

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產(chǎn)品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。