元宇宙進(jìn)化論,進(jìn)化到全語言即時(shí)識別同步翻譯空中字幕顯示無限增強(qiáng)聽力的方法
本篇是AR,VR等XR眼鏡用翻譯機(jī)識別中日韓英語聲音并且翻譯的方法,永久短網(wǎng)址是xr.fan/fy
概述
AR眼鏡不僅能無限增強(qiáng)視力,還可以無限增強(qiáng)聽力,不過這些在古人看來都是神力的技術(shù),即便現(xiàn)代人想用,也是不是免費(fèi)的,要加錢。
還好聽力需要的科技看起來比視力簡單便宜,應(yīng)該會(huì)先一步在眼鏡里應(yīng)用和普及。
實(shí)現(xiàn)原理
按照聲音進(jìn)眼鏡的順序,大概有這幾個(gè)步驟。
硬件,麥克風(fēng)收音
硬件,接收音頻信號
軟件,聲音識別抓取語音
軟件,語音轉(zhuǎn)文字
軟件,文字轉(zhuǎn)其它語言
硬件,眼鏡顯示
那就一個(gè)一個(gè)開始分析吧。
麥克風(fēng)收音
這是所有聲音的來源,如果把攝像頭比作賽博眼睛,那麥克風(fēng)就是賽博耳朵,分為有損收音和無損收音。
無損收音
無損收音就是聲音采集沒有任何音質(zhì)損失,這在現(xiàn)實(shí)是不可能的,現(xiàn)實(shí)只能無限接近于無損。
無損收音只能在虛擬空間實(shí)現(xiàn),常見的電腦播放聲音,播出來之前都是無損的,聲音識別在這之前是100%完整的音頻信號。
這種無損收音技術(shù)已經(jīng)非常成熟而且免費(fèi),也不需要用戶做什么操作都是一鍵自動(dòng)內(nèi)錄采集收音。
所以一般需要配置的地方,就是不同設(shè)備之間如何無損實(shí)時(shí)傳輸音頻。
常用的方法是通過藍(lán)牙接收,沒藍(lán)牙的電腦也建議弄個(gè)藍(lán)牙適配器,不然走wifi和usb更麻煩。
然后在微軟的軟件商店,搜索Bluetooth Audio Receiver?;蛘咧苯哟蜷_下邊連接,選擇右邊欄在 Microsoft Store 獲取。問微軟賬號的話直接關(guān)閉就能下載了,無需登錄。
https://apps.microsoft.com/store/detail/bluetooth-audio-receiver/9N9WCLWDQS5J
下載好后,手機(jī)藍(lán)牙里找電腦名字連接電腦藍(lán)牙,配對以后,打開這個(gè)Receiver軟件就能看到手機(jī)名字,然后點(diǎn)一下手機(jī)名字,再選open connection,這樣手機(jī)放音樂就可以在電腦里聽到了。
也可以讓手機(jī)麥克風(fēng)也能進(jìn)電腦。
安卓
這要用到手機(jī)麥克風(fēng)app,例如麥克風(fēng)擴(kuò)音器,然后用上邊方法在app里藍(lán)牙連電腦,這樣用手機(jī)講話,聲音就在電腦里了,但這是有損失的。
蘋果
用手機(jī)麥克風(fēng)給筆記本macbook聲音,蘋果自己家剛出個(gè)連續(xù)互通。https://support.apple.com/zh-cn/HT209037
這個(gè)對手機(jī)型號和版本有要求,手機(jī)更新后,mac重啟再進(jìn)設(shè)置,選聲音,輸入,然后就能看到手機(jī)的名字,選上以后,按照后邊的方法用quick time點(diǎn)開錄制,選好麥克風(fēng),拉大下邊音量條就可以通過手機(jī)收聲音,但也是有損失的。
有損收音
現(xiàn)實(shí)皆有損,專業(yè)的錄音棚效果不是日常能做到的,而且用眼鏡需要室內(nèi)戶外識別聲音,那能選的麥克風(fēng),只有便攜的全向和指向兩種,一個(gè)所有方向收音,一個(gè)指定方向收音。
有線的便宜,而且有的不需要電源,室內(nèi)用用還好。
直插型的,對設(shè)備要求很高不能有聲,如果接筆記本,風(fēng)扇就是最大噪音干擾源,還需要接延長線遠(yuǎn)離。
所以考慮到最廣泛的使用場景,無線便攜全向帶電池的,那只有視頻會(huì)議類別的麥克風(fēng)是現(xiàn)階段最適合的了,這里用的宜麗客LBT-SP02
會(huì)議用無線全向麥克風(fēng)本身就是為多方向多人語音設(shè)計(jì),支持減噪和消回聲,相當(dāng)于把電腦的麥克風(fēng)喇叭分離出來,更容易找地方擺放。因?yàn)樽詭б粝?,不僅可以用于自己收音,還可以讓對方放音。
接收音頻信號
這個(gè)取決于想要用來做什么,手機(jī)和電腦都是常見的接收設(shè)備,像本篇的翻譯機(jī),就需要win或者mac系統(tǒng),那就只能在這兩個(gè)選。
根據(jù)場景,室內(nèi)無所謂,室外就要小和便攜,macos最小的就是macbook air和mac mini
WIN的話選擇很多,從小到電腦棒,再到掌機(jī)平板和筆記本都屬于便攜范圍,這里當(dāng)然是支持dp的可以直接顯示的設(shè)備優(yōu)先(見AR眼鏡用USB-C的DP視頻輸出設(shè)備),然后是有hdmi輸出接口的,通過hdmi到usbc轉(zhuǎn)接器給眼鏡也能用,hdmi無線給手機(jī)也行?;旧喜恢С謉p的,也都有hdmi,所以這塊不是什么問題。
要是只弄個(gè)主機(jī),其實(shí)電腦棒就夠。只是電腦棒近年發(fā)展幾乎停滯,這個(gè)本該是現(xiàn)在眼鏡最佳接收萬能設(shè)備,翻遍網(wǎng)絡(luò)只找到一款支持usbc dp的,meegopad t08,nreal尚未兼容,還好也有hdmi。
這里用的gpd win max2和macbook air做為便攜本來收錄音頻。
winmax2大小只有macbook air的一半,兩個(gè)lite那么大,可能是現(xiàn)在集成鍵盤鼠標(biāo)觸摸板電池屏幕一堆接口兼具cpu顯卡性能的win系統(tǒng)適合打包在一起出門的機(jī)型,跟另一家最新6800U的平板onexplayer2比,onexplayer2無鍵鼠不能手持接口也少然后只是小點(diǎn)但是厚度一樣代價(jià)是沒有5g和雙nvme。
雖然理論上winmax2這貨有usbc3.2+usbc4.0+hdmi轉(zhuǎn)接能同時(shí)支持3個(gè)以上眼鏡,但由于amd更換芯片組,nreal現(xiàn)在國內(nèi)固件還不適配所以只能用hdmi轉(zhuǎn),國外固件也只支持一個(gè)usbc3.2接口。
聲音識別抓取語音
一般聲音收集軟件,在系統(tǒng)播放聲音時(shí)就能同步收音,只有在用麥克風(fēng)收音的情況下需要講一下。
正常用電腦的麥克風(fēng),是默認(rèn)不傳給喇叭的,因?yàn)殚_啟可能會(huì)有回聲,以及環(huán)境聲音會(huì)同時(shí)在喇叭里播放基本就不用聽東西了。但如果不讓麥克風(fēng)走播放通道,這時(shí)聲音收集軟件是獲取不到麥克風(fēng)聲音的。
這在本篇需要用翻譯機(jī)軟件的情況下,等于外面的聲音就無法獲取了,盡管這個(gè)聲音是有損失的,那也必須要開啟。具體方法是
WIN系統(tǒng)
右鍵點(diǎn)右下角喇叭選聲音,
點(diǎn)錄制欄
雙擊默認(rèn)設(shè)備,或者選擇需要用到的麥克風(fēng),設(shè)置默認(rèn)再點(diǎn)開
選偵聽
然后點(diǎn)應(yīng)用試試聲,
如果有回聲或者嘯叫馬上取消偵聽,再點(diǎn)應(yīng)用
有的電腦麥克風(fēng)和喇叭設(shè)計(jì)的位置不對就無法用偵聽
如果沒問題,這時(shí)外部聲音說話之類的,電腦喇叭就有聲了。
調(diào)小音量也有助于減少回聲嘯叫
MAC系統(tǒng)
系統(tǒng)內(nèi)收音沒什么好方法,只能開啟quick time play,新建音頻錄制,然后不用錄,把下邊喇叭拉起來,聲音就進(jìn)系統(tǒng)里了。
語音轉(zhuǎn)文字
這個(gè)是輸入法和各種應(yīng)用的標(biāo)配功能。
win系統(tǒng)按win鍵+H啟用。
macos進(jìn)設(shè)置,鍵盤,右側(cè)下拉找到聽寫,設(shè)置好快捷鍵就能用聲音打字了。
文字轉(zhuǎn)其它語言
有文字,翻譯這些文字就有各種服務(wù)和應(yīng)用了。
例如騰訊翻譯君,有道翻譯都支持各種語言實(shí)時(shí)互譯
本篇用的是訊飛雙屏翻譯機(jī),支持中日韓英語四種語言實(shí)時(shí)識別和互翻。
訊飛有兩種識別翻譯方式,一個(gè)是自帶一個(gè)領(lǐng)夾藍(lán)牙麥克風(fēng),用于演講時(shí)識別聲音,再轉(zhuǎn)換中日韓英語四種字幕及翻譯到win或者mac系統(tǒng)上顯示。這個(gè)小麥克風(fēng)適合自用和臨時(shí)用用,收音距離有限。
另一個(gè)是系統(tǒng)播放聲音,例如視頻和音頻,然后自動(dòng)識別聲音,跟上邊一樣轉(zhuǎn)換中日韓英語和翻譯。再加上前邊設(shè)置外接麥克風(fēng)偵聽的方法,讓聲音進(jìn)系統(tǒng),訊飛也就能翻譯到了。
這兩種方式都能讓電腦給眼鏡用訊飛的字幕,因?yàn)榉g軟件背景是全黑透明的,所以在眼鏡里看就是空中文字的效果,不影響畫面。
或者電腦給手機(jī)投屏,用hdmi圖傳給手機(jī),所有現(xiàn)場和網(wǎng)絡(luò)手機(jī)都能同時(shí)看到一樣的字幕。
雖然訊飛這個(gè)翻譯機(jī)不支持usbc dp輸出顯示,但其本身就是個(gè)安卓系統(tǒng),說明以后手機(jī)實(shí)現(xiàn)類似功能事可行的。
眼鏡顯示
最終,這些設(shè)備和軟件在完成各自的任務(wù)后,在最后一個(gè)環(huán)節(jié)把字幕送進(jìn)了眼鏡里,就是這樣的效果。
電腦內(nèi)錄收音和全向麥克風(fēng)外放同時(shí)收音,這個(gè)是對視頻觀看聊天等場景模擬,聊天環(huán)境安靜識別率更高。
其它設(shè)備外放,全向麥克風(fēng)收音,這個(gè)是對電腦外部現(xiàn)實(shí)各種環(huán)境模擬。
翻譯不準(zhǔn)確是正常的,按照前面的說明,例如在完美的條件下,也是存在聲音和轉(zhuǎn)換損失的。
硬件,麥克風(fēng)收音(內(nèi)錄無損)
硬件,接收音頻信號(內(nèi)錄無損)
軟件,聲音識別抓取語音(內(nèi)錄無損,純語音無任何背景音)
軟件,語音轉(zhuǎn)文字(轉(zhuǎn)換有損)
軟件,文字轉(zhuǎn)其它語言(轉(zhuǎn)換有損)
硬件,眼鏡顯示(最終顯示有損)
這樣再看看效果,純語音環(huán)境內(nèi)錄效果
這可能就是現(xiàn)在實(shí)時(shí)翻譯的天花板了。但TED準(zhǔn)確率過高,估計(jì)是訊飛訓(xùn)練AI的素材就用的ted,游戲里非正常語境的就效果差些,也就是現(xiàn)階段,可用于日常簡單會(huì)話。
戶外用廣播進(jìn)手機(jī)能解決大部分環(huán)境噪音問題。語音轉(zhuǎn)文字轉(zhuǎn)其它語言這些也是能夠一直升級換代的。win和mac系統(tǒng)本身日常語音識別率就很高。
現(xiàn)在地球最強(qiáng)翻譯chatgpt還沒大規(guī)模應(yīng)用,文字轉(zhuǎn)其它語言也能接近無損,所以用眼鏡看各種語言翻譯,預(yù)計(jì)將是最快能夠普及的元宇宙技術(shù)。
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由財(cái)神資訊-領(lǐng)先的體育資訊互動(dòng)媒體轉(zhuǎn)載發(fā)布,如需刪除請聯(lián)系。