中國(guó)品牌,讓東南亞感受“消費(fèi)升級(jí)”小紅書(shū)本地“坐抖望團(tuán)”CrowdStrike“全球滅霸響指”事件后續(xù),德國(guó) 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺(tái)合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫(huà)像”平臺(tái),加速數(shù)字化轉(zhuǎn)型重慶:力爭(zhēng)今年智能網(wǎng)聯(lián)新能源汽車(chē)產(chǎn)量突破 100 萬(wàn)輛,到 2027 年建成萬(wàn)億級(jí)產(chǎn)業(yè)集群微信iOS最新版上線(xiàn):iPhone用戶(hù)可在朋友圈發(fā)實(shí)況照片了蘋(píng)果有線(xiàn)耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚(yú)相關(guān)搜索量暴漲384%2024 vivo開(kāi)發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來(lái)了,阿里云「通義靈碼」全面進(jìn)化,全流程開(kāi)發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷(xiāo)量及銷(xiāo)售額領(lǐng)先鴻蒙PC要來(lái)了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國(guó)AR/VR出貨23.3萬(wàn)臺(tái),同比下滑了 29.1%IDC:2024 上半年中國(guó) AR / VR 頭顯出貨 23.3 萬(wàn)臺(tái),同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專(zhuān)利探索AR技術(shù)新應(yīng)用:檢測(cè)屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性
  • 首頁(yè) > 產(chǎn)經(jīng)新聞?lì)l道 > 業(yè)界新聞

    Google 新推出的這款 app 是專(zhuān)門(mén)給聽(tīng)力障礙群體用的

    2019年05月06日 11:03:13   來(lái)源:品玩

      “全球約有 4.66 億耳聾和聽(tīng)力障礙患者,這是非常巨大的一個(gè)數(shù)目,如果把這個(gè)數(shù)字當(dāng)成是一個(gè)國(guó)家的人口的話(huà),這個(gè) ‘ 國(guó)家 ’ 就是世界人口第三大國(guó)了。”

      遠(yuǎn)在美國(guó)的 Google AI Research Group 高級(jí)產(chǎn)品經(jīng)理 Sagar Savla,通過(guò)遠(yuǎn)程視頻參與了一次在中國(guó)舉行的采訪會(huì)議。采訪中,他展示了上述讓人意想不到的統(tǒng)計(jì)數(shù)字。

      借助技術(shù)的力量,普通人得到了能力增強(qiáng),能完成過(guò)去做不到的事情,比如 Sagar 可以借助實(shí)時(shí)視頻串流跨洋交流。在科技公司做產(chǎn)品的 Sagar,想讓聽(tīng)力障礙群體也能受惠于技術(shù)進(jìn)步。

      Google AI Research Group 高級(jí)產(chǎn)品經(jīng)理 Sagar Savla

      Live Transcribe 是什么?

      Sagar 和他的團(tuán)隊(duì)已經(jīng)邁出了第一步 ——Live Transcribe。Live Transcribe 是一個(gè) Android 端的 App,能將自動(dòng)生成字幕功能引入日常對(duì)話(huà),幫助聽(tīng)力障礙人群融入即時(shí)口頭交流。這款 App 已于 2019 年 2 月底發(fā)布,目前支持 70 多種語(yǔ)言并覆蓋全球 80% 以上的人群。

      如上所述,全球有 4.66 億耳聾和聽(tīng)力障礙患者。過(guò)去,他們想要參與即興對(duì)話(huà)和社交場(chǎng)合,得提前預(yù)訂昂貴的手動(dòng)轉(zhuǎn)錄服務(wù),成本頗高,Live Transcribe 用技術(shù)來(lái)解決了這個(gè)問(wèn)題。

      Live Transcribe 基于 Google 過(guò)去幾十年的自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,以下簡(jiǎn)稱(chēng) ASR )技術(shù)積累,能把人類(lèi)的語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)文本。YouTube 上的自動(dòng)字幕生成,就是應(yīng)用 ASR 技術(shù)的結(jié)果。

      (安靜環(huán)境下 Live Transcribe 實(shí)時(shí)字幕轉(zhuǎn)錄普通話(huà)測(cè)試)

      2018 年,Sagar 利用 20% 的工作時(shí)間開(kāi)啟了 Live Transcribe 這個(gè)項(xiàng)目。“開(kāi)始不久我們立刻意識(shí)到,這其實(shí)是一個(gè)非常切實(shí)的項(xiàng)目。因?yàn)樵?Google 也有一些聾人員工,他們拿到這個(gè)產(chǎn)品后幾乎無(wú)時(shí)無(wú)刻不在使用。啟動(dòng)一個(gè)月后,我們就把這個(gè)項(xiàng)目固定下來(lái)了,建立了相應(yīng)的產(chǎn)品開(kāi)發(fā)團(tuán)隊(duì)。” Sagar 對(duì) PingWest 品玩回溯起項(xiàng)目的發(fā)展。

      值得一提的是,美國(guó)國(guó)家級(jí)院士 Dmitri Krakovsky 也加入了 Live Transcribe 項(xiàng)目組,他天生就是聾人,已經(jīng)研究 ASR 30 多年。

      Live Transcribe 是怎么運(yùn)行的?

      過(guò)去,基于 ASR 的轉(zhuǎn)錄系統(tǒng)一般都需要計(jì)算密集型模型、詳盡的用戶(hù)研究以及昂貴的連接服務(wù)費(fèi)用。

      為了降低用戶(hù)使用自動(dòng)連續(xù)轉(zhuǎn)錄服務(wù)的成本,Sagar 團(tuán)隊(duì)將 Live Transcribe 背后的神經(jīng)網(wǎng)絡(luò)模型分別部署在設(shè)備端和云端(Google Cloud)。

      設(shè)備端的是卷積神經(jīng)網(wǎng)絡(luò)模型,主要做聲音分類(lèi)的工作,能辨別 570 個(gè)聲音類(lèi)別,比如嬰兒哭聲或玻璃破碎聲。

      云端的神經(jīng)網(wǎng)絡(luò)模型規(guī)模大得多,主要做語(yǔ)音轉(zhuǎn)錄成文字的工作,由三個(gè)部分組成。

      第一部分是聲學(xué)模型,能夠從音節(jié)的角度辨析說(shuō)話(huà)者所說(shuō)的是“ Hi ”還是“ Hello ”。

      第二個(gè)部分是發(fā)音模型,可以根據(jù)識(shí)別出來(lái)的音節(jié)做拼接或組合,組成實(shí)際的單詞。第三部分是語(yǔ)言模型,根據(jù)識(shí)別出來(lái)的單詞添加適當(dāng)?shù)臉?biāo)點(diǎn)符號(hào)和停頓,以符合人類(lèi)語(yǔ)言使用習(xí)慣。

      基于云端神經(jīng)網(wǎng)絡(luò)做語(yǔ)音轉(zhuǎn)錄的好處是,對(duì)設(shè)備性能要求沒(méi)這么高。Sagar 告訴 PingWest 品玩:“這意味著,Live Transcribe 在一些性能較弱的低端設(shè)備上也可以正常運(yùn)行。”

      理想狀態(tài)下只要有互聯(lián)網(wǎng)接入,能使用 Google 服務(wù),語(yǔ)音轉(zhuǎn)錄延遲都可以控制在 200 毫秒以?xún)?nèi)。Sagar 對(duì) PingWest 品玩表示:“在一些網(wǎng)絡(luò)接入速度沒(méi)這么快的第三世界國(guó)家,聽(tīng)覺(jué)障礙人群其實(shí)愿意花一點(diǎn)時(shí)間來(lái)獲得更加準(zhǔn)確識(shí)別的效果。因?yàn)槿绻麤](méi)有這款產(chǎn)品的話(huà),他們是很難聽(tīng)見(jiàn)的。”

      落地遇到的問(wèn)題

      落到實(shí)際用戶(hù)使用場(chǎng)景,Sagar 團(tuán)隊(duì)要解決的問(wèn)題不止設(shè)備性能和網(wǎng)絡(luò)連接。

      Sagar 團(tuán)隊(duì)與加拉德特大學(xué)共同發(fā)起了用戶(hù)體驗(yàn)研究,考慮了幾種不同的設(shè)備:計(jì)算機(jī)、平板電腦、智能手機(jī)、小型投影儀,甚至還有 VR/AR 眼鏡。“考慮到產(chǎn)品能夠具有普惠性,最終選擇了成本比較低廉,大家都用得起的一種設(shè)備 —— 智能手機(jī)”。

      “第二個(gè)我們要解決的問(wèn)題是,實(shí)時(shí)顯示字幕的時(shí)候是否要顯示字幕轉(zhuǎn)錄的置信度(轉(zhuǎn)錄后文字的可信程度)。” Sagar 說(shuō)。

      一開(kāi)始,他們?cè)鴩L試用顏色來(lái)代表轉(zhuǎn)錄文字置信度,黃色代表高置信度,綠色代表中等置信度,而藍(lán)色代表低置信度,白色單詞為新文本。

      Sagar 團(tuán)隊(duì)最終放棄了顯示置信度:“經(jīng)過(guò)測(cè)試,我們發(fā)現(xiàn)這種方式會(huì)給用戶(hù)造成一個(gè)錯(cuò)覺(jué),好像同一顏色的是一個(gè)詞組。”

      第三個(gè)要解決的問(wèn)題是環(huán)境噪音,又稱(chēng)之為“雞尾酒會(huì)問(wèn)題”:在一個(gè)派對(duì)場(chǎng)景中,有很多人在交談,機(jī)器很難識(shí)別正確的談話(huà)對(duì)象。

      “為解決此問(wèn)題,我們構(gòu)建了一個(gè)指示器,用于顯示相對(duì)于背景噪聲的用戶(hù)說(shuō)話(huà)音量。” Sagar 說(shuō):“較亮的內(nèi)部同心圓代表噪聲層,代表當(dāng)前環(huán)境所處的噪聲級(jí)別。外部同心圓表示麥克風(fēng)對(duì)說(shuō)話(huà)人聲音的接收狀況。用戶(hù)可借此收到即時(shí)反饋,了解麥克風(fēng)的接收狀況,以便其調(diào)整手機(jī)位置。”

      將來(lái),Sagar 團(tuán)隊(duì)會(huì)繼續(xù)改善“雞尾酒會(huì)問(wèn)題”的解決方案,讓對(duì)話(huà)者的聲音更好地從多個(gè)說(shuō)話(huà)對(duì)象中分離出來(lái)。Sagar 說(shuō):“ Live Transcribe 也不排除會(huì)出 iOS 版本,讓更多受眾用上這項(xiàng)服務(wù)。”

      【來(lái)源:品玩】

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛(ài)普生4K 3LCD 激光工程投影

    2024年3月12日,由愛(ài)普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開(kāi)發(fā)者先鋒大會(huì)即將開(kāi)幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。