国产综合精品久久久久成人影院,国产乱人激情h在线观看,国产精品麻豆成人av网,国产精品无码制服丝袜,国产精品成人无码免费

科大訊飛榮獲OpenASR國際低資源多語種語音識別挑戰(zhàn)賽冠軍

500)this.width=500" align="center" hspace=10 vspace=10 alt="科大訊飛榮獲OpenASR國際低資源多語種語音識別挑戰(zhàn)賽冠軍">


  11月10日,由美國國家標準與技術(shù)研究院NIST發(fā)起的OpenASR挑戰(zhàn)賽落下帷幕,科大訊飛-中科大語音及語言信息處理國家工程實驗室聯(lián)合團隊參加了所有15個語種受限賽道和7個語種非受限賽道,全部取得第一。

  繼前不久榮獲多語言理解評測XTREME冠軍之后,科大訊飛在多語種領(lǐng)域再次取得突破,在探索人機交互更自然、人人溝通無障礙的征程中又邁出了堅實的一步,也為中國多語種語音語言技術(shù)趕超國際先進水平、中國智能制造的全球化奠定了堅實的基礎(chǔ)。

  從大語種向低資源多語種拓展

  近年來,隨著深度學(xué)習(xí)技術(shù)的進步,漢語、英語等大語種語音識別技術(shù)日趨成熟,并獲得廣泛的應(yīng)用。

  相比之下,小語種語音識別因其語音數(shù)據(jù)資源難以獲取、難以標注、難以評估、語言專家稀缺等原因,已經(jīng)成為世界性的研究難題,距離實用門檻仍有較大差距。

  與NIST此前組織的其他賽事相比,OpenASR更加關(guān)注小語種語音技術(shù),探索如何使用少量的數(shù)據(jù)達到較好的效果,同時考察低資源語音識別基礎(chǔ)算法在多個語種上的推廣性。自2020年啟動以來,吸引了加拿大蒙特利爾信息科技研究中心、新加坡科技研究局、清華大學(xué)、騰訊等國內(nèi)外知名研究機構(gòu)和企業(yè)參與其中。

  本次比賽共包含15個語種,涵蓋受限賽道、受限附加賽道和非受限賽道。

  表1:15個語種信息

  
500)this.width=500" align="center" hspace=10 vspace=10 alt="科大訊飛榮獲OpenASR國際低資源多語種語音識別挑戰(zhàn)賽冠軍">


  其中受限賽道為各參賽單位必選項,每個語種只能使用組委會提供的10小時標注語音識別數(shù)據(jù),受限附加賽道在受限賽道的基礎(chǔ)上允許使用開源的預(yù)訓(xùn)練模型,而非受限賽道可以使用受限數(shù)據(jù)以外的數(shù)據(jù)。

  科大訊飛-中科大聯(lián)合團隊在比賽中提出了基于語音和文本統(tǒng)一空間表達的半監(jiān)督語音識別框架(UnifiedSpatialRepresentationSemi-supervisedASR,USRS-ASR),獲此佳績也驗證了該算法良好的推廣性。

  
500)this.width=500" align="center" hspace=10 vspace=10 alt="科大訊飛榮獲OpenASR國際低資源多語種語音識別挑戰(zhàn)賽冠軍">


  圖1:聯(lián)合團隊全部15個語種受限賽道成績

  
500)this.width=500" align="center" hspace=10 vspace=10 alt="科大訊飛榮獲OpenASR國際低資源多語種語音識別挑戰(zhàn)賽冠軍">


  圖2:聯(lián)合團隊參加的7個語種非受限賽道成績

  領(lǐng)先技術(shù)亮相國際賽場

  對于低資源語種而言,除了語音數(shù)據(jù)量較小外,其發(fā)音詞典大小、語料豐富性、標注準確度都遠不及常規(guī)水平。本次比賽中各個語種數(shù)據(jù)主要來自電話信道,口語化特征十分明顯,對話風(fēng)格非常自由,也使得語音識別難上加難。

  在受限賽道上,由于每個語種只有10小時語音數(shù)據(jù),如何使用少量文本數(shù)據(jù),利用無監(jiān)督的方法增加語音訓(xùn)練數(shù)據(jù)的多樣性至關(guān)重要。

  科大訊飛-中科大聯(lián)合團隊創(chuàng)新運用Flow-TTS語音合成進行訓(xùn)練數(shù)據(jù)擴增,并使用語音屬性解耦技術(shù)保證合成語音的多樣性。結(jié)果顯示,使用上述無監(jiān)督數(shù)據(jù)擴增方案,能夠穩(wěn)定、顯著地提升低資源語音識別任務(wù)的效果。

  而在非受限賽道上,雖然參賽者可以利用公開的語音數(shù)據(jù),但數(shù)據(jù)總量仍只有數(shù)百小時,而且語音數(shù)據(jù)和文本數(shù)據(jù)的量級差距十分明顯,這對于端到端識別框架來說,弊端更為明顯。

  為了在端到端統(tǒng)一框架下,充分使用少量語音數(shù)據(jù)和海量文本數(shù)據(jù),科大訊飛-中科大聯(lián)合團隊提出了基于語音和文本統(tǒng)一空間表達的半監(jiān)督語音識別框架USRS-ASR。

  首先,對于海量文本數(shù)據(jù)的使用,創(chuàng)新設(shè)計了文本掩碼語言模型任務(wù)、合成數(shù)據(jù)語音識別兩個目標,兩個任務(wù)聯(lián)合訓(xùn)練以充分利用海量無監(jiān)督文本;其次,設(shè)計了共享語言解碼模塊,實現(xiàn)了語音和文本隱層表達空間的統(tǒng)一,大大緩解了低資源語種的數(shù)據(jù)稀疏問題。

  
500)this.width=500" align="center" hspace=10 vspace=10 alt="科大訊飛榮獲OpenASR國際低資源多語種語音識別挑戰(zhàn)賽冠軍">


  圖3:USRS-ASR框架示意圖

  為全球提供多語種智能語音解決方案

  就在不久前,工信部正式批復(fù)同意成立國家智能語音創(chuàng)新中心、國家高端智能化家用電器創(chuàng)新中心,科技創(chuàng)新正不斷引領(lǐng)產(chǎn)業(yè)升級。

  值得注意的是,在這兩家國家級創(chuàng)新中心依托公司的股東名單中,“科大訊飛”均赫然在列。

  持續(xù)致力于打造源頭技術(shù)創(chuàng)新策源地,科大訊飛正不斷追尋“頂天立地”的產(chǎn)業(yè)夢想。

  多語種語音語言技術(shù)是萬物互聯(lián)時代實現(xiàn)人機交互的關(guān)鍵技術(shù),也是實現(xiàn)“一帶一路”語言大互通的基礎(chǔ)技術(shù)。

  從2014年開始,科大訊飛就一直在該方向的源頭技術(shù)創(chuàng)新及產(chǎn)業(yè)化應(yīng)用上持續(xù)投入,并不斷挑戰(zhàn)實際應(yīng)用中的技術(shù)難題。

  經(jīng)過多年的技術(shù)積累,除了中英以外,科大訊飛還具備了69種語言的語音識別能力(其中35個語種準確率已超過90%),并已在新加坡、俄羅斯、印度、日本等國家部署了海外站點,為各地開發(fā)者提供語音識別、語音合成、機器翻譯、圖文識別等語音語言服務(wù),所有服務(wù)均在科大訊飛開放平臺開放。

  多語種技術(shù)有力支撐了科大訊飛智能硬件產(chǎn)品創(chuàng)新。在翻譯終端方面,2016年11月發(fā)布的科大訊飛智能翻譯硬件,開創(chuàng)了AI翻譯機新品類;在會議同傳方面,2016年11月推出的訊飛聽見多語種字幕同傳系統(tǒng),支持日韓法西等多國語言的同聲傳譯;在錄音筆方面,科大訊飛于2019年5月發(fā)布智能錄音筆,次年升級支持8種語言轉(zhuǎn)寫能力,2021年日本版智能錄音筆VOITER系列在日本一經(jīng)上線,就取得單月銷售破千臺的亮眼成績。

  除自身產(chǎn)品以外,科大訊飛也積極為“中國制造”出海產(chǎn)品提供自主可控解決方案。

  在手機、家電方面,為國內(nèi)眾多手機廠商提供包括中英在內(nèi)的多語種語音識別、語音合成能力解決方案,并聯(lián)合海爾研發(fā)多語種識別系統(tǒng),助力其拓展東南亞市場;在車載交互方面,與上汽、長安、奇瑞等國內(nèi)主要出海汽車提供商,以及俄羅斯汽車工程研究院(NAMI)等海外車廠開展多語種項目合作,覆蓋英語、俄語、日語、泰語、西班牙語、意大利語等數(shù)十個語種。

  此外,科大訊飛的多語種相關(guān)技術(shù)能力也已應(yīng)用于北京2022年冬奧會官方APP(冬奧通),助力冬奧信息溝通無障礙。

  作為人工智能國家隊,科大訊飛將繼續(xù)堅持源頭核心技術(shù)創(chuàng)新,聯(lián)合國內(nèi)眾多研究機構(gòu)與企業(yè),構(gòu)建多語言技術(shù)的系統(tǒng)性創(chuàng)新研發(fā)生態(tài),共同推動我國多語言技術(shù)進步與應(yīng)用落地。