Jina AI 宣布其 Reader 工具現(xiàn)在能夠從任意 URL 讀取 PDF 文件,并快速解析成文本,供下游的語(yǔ)言模型(LLM)使用。以下是關(guān)于 Jina AI Reader 工具的詳細(xì)介紹:
Jina AI Reader 功能亮點(diǎn):
任意 URL 讀取:能夠從任何 URL 讀取 PDF 文件。
快速解析:將 PDF 文件快速解析成文本。
優(yōu)化的文本處理:解析后的文本適合下游的語(yǔ)言模型使用。
本地 PDF 閱讀支持:包括帶有大量圖片的 PDF,解析速度快。
使用方法:
準(zhǔn)備 PDF URL:找到需要讀取的 PDF 文件的 URL。
添加 URL 到 Jina Reader:將 PDF 的 URL 添加到 Jina Reader 中,或者通過(guò) https://r.jina.ai/ 后加上 PDF URL 來(lái)訪(fǎng)問(wèn)解析后的文本。
解析 PDF:Jina Reader 自動(dòng)解析提供的 URL,提取內(nèi)容,包括圖像、文本和表格等。
查看解析結(jié)果:解析完成后,可以查看提取的文本內(nèi)容。
技術(shù)細(xì)節(jié):
URL 判斷 PDF 的難度:通過(guò)渲染 URL 來(lái)確認(rèn)是否為 PDF,并使用 pdf.js 等工具來(lái)渲染頁(yè)面。
PDF 的復(fù)雜性:由于 PDF 為打印設(shè)計(jì),需要 OCR 技術(shù)來(lái)識(shí)別圖像中的文字,類(lèi)似于將紙質(zhì)書(shū)籍轉(zhuǎn)換為電子文本。
特殊情況處理:
嵌入 PDF 的處理:能夠正確處理和解析網(wǎng)頁(yè)中嵌入的多個(gè) PDF 或 HTML 中嵌入的 PDF。
復(fù)雜 PDF 格式應(yīng)對(duì):使用 OCR 技術(shù)來(lái)識(shí)別圖像中的文本,確保內(nèi)容的完整性和準(zhǔn)確性。
解析后的應(yīng)用:
使用解析好的文本:文本經(jīng)過(guò)優(yōu)化,便于進(jìn)一步處理和使用,適用于語(yǔ)言模型、數(shù)據(jù)分析或其他下游應(yīng)用。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。
近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。
由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。