国产综合精品久久久久成人影院,国产乱人激情h在线观看,国产精品麻豆成人av网,国产精品无码制服丝袜,国产精品成人无码免费

網(wǎng)易易盾AI團(tuán)隊(duì)包攬“語(yǔ)音關(guān)鍵詞識(shí)別”雙賽道冠軍

500)this.width=500" align="center" hspace=10 vspace=10 alt="">
  近日,第十六屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NationalConferenceonMan-MachineSpeechCommunication,NCMMSC2021)公布“長(zhǎng)短視頻多語(yǔ)種多模態(tài)識(shí)別挑戰(zhàn)賽”(VideoKeywordWakeupCompetition)-—漢語(yǔ)長(zhǎng)短視頻直播語(yǔ)音關(guān)鍵詞(VKW)任務(wù)最終成績(jī)。

  歷時(shí)4個(gè)月的征集與評(píng)選,網(wǎng)易易盾在VKW任務(wù)中,以綜合指標(biāo)第一名的成績(jī)擊敗來(lái)自海內(nèi)外的61支隊(duì)伍,在驗(yàn)證集的3個(gè)場(chǎng)景上均取得大幅超出基線25%的效果,坐擁“受限”與“非受限”賽道的雙料冠軍。

  這是網(wǎng)易易盾繼視覺、深度偽造、自然語(yǔ)義識(shí)別等方向大賽奪冠之后,在語(yǔ)音方向的又一突破和進(jìn)展,彰顯了網(wǎng)易易盾在人工智能領(lǐng)域的綜合技術(shù)實(shí)力,語(yǔ)音自定義關(guān)鍵詞識(shí)別準(zhǔn)確度達(dá)實(shí)用級(jí)別。

  一、大賽有哪些挑戰(zhàn)?

  兩大并行指標(biāo)、三類媒體形式

  自1990年開創(chuàng)以來(lái),該系列會(huì)議已成功召開了15屆,每年都會(huì)推出不同的語(yǔ)音識(shí)別任務(wù)。

  本次挑戰(zhàn)賽,由騰訊科技ASR&OCRoteam聯(lián)合清華大學(xué)、西北工業(yè)大學(xué)、數(shù)據(jù)堂、中國(guó)計(jì)算機(jī)學(xué)會(huì)語(yǔ)音對(duì)話與聽覺專委會(huì)發(fā)起,聚焦時(shí)下業(yè)界最為關(guān)注的三類媒體形式——長(zhǎng)視頻、短視頻、直播場(chǎng)景,考察模型在場(chǎng)景失配下的語(yǔ)音內(nèi)容理解與識(shí)別能力?! ?center>500)this.width=500" align="center" hspace=10 vspace=10 alt="">
  挑戰(zhàn)賽提供規(guī)模巨大數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集涵蓋1505小時(shí)普通話朗讀數(shù)據(jù),并提供長(zhǎng)視頻、短視頻、直播場(chǎng)景各5小時(shí)有標(biāo)注數(shù)據(jù)供場(chǎng)景微調(diào),各5小時(shí)有標(biāo)注數(shù)據(jù)用于在開發(fā)集關(guān)鍵詞列表上進(jìn)行系統(tǒng)優(yōu)化和調(diào)參,各20小時(shí)有標(biāo)注數(shù)據(jù)用于評(píng)價(jià)提交系統(tǒng)。

  本次比賽的評(píng)價(jià)指標(biāo)與國(guó)際接軌,采用語(yǔ)音關(guān)鍵詞的整體精準(zhǔn)度(Precision)、召回率(Recall)與ATWV指標(biāo)(ActualTerm-weightedValue)作為并行評(píng)測(cè)指標(biāo),兼顧不同目標(biāo),增加了識(shí)別任務(wù)的難度。

  精準(zhǔn)度及召回率:

  即語(yǔ)音中全部關(guān)鍵詞的識(shí)別情況,反映系統(tǒng)對(duì)于當(dāng)前詞表的綜合性能。

  TWV指標(biāo):

  即每個(gè)關(guān)鍵詞上平均TWV值,反映系統(tǒng)對(duì)于不同頻次關(guān)鍵詞檢測(cè)效果的平均性能。

  三個(gè)賽道的成果展示:  
500)this.width=500" align="center" hspace=10 vspace=10 alt="">
  網(wǎng)易易盾nisp_speech團(tuán)隊(duì)在引入了多項(xiàng)特色增強(qiáng)技術(shù)之后,在短視頻場(chǎng)景測(cè)試集中,定位準(zhǔn)確率高達(dá)0.88,召回率高達(dá)0.93,不同頻次關(guān)鍵詞檢測(cè)效果的平均性能高達(dá)0.93,在“場(chǎng)景適配”和“關(guān)鍵詞定位”的算法精度上取得第一,達(dá)到靈活適配多場(chǎng)景、支持用戶自定義語(yǔ)音關(guān)鍵詞的理想效果。

  二、我們是如何實(shí)現(xiàn)的?

  獨(dú)創(chuàng)BBS-KWS解決方案的背后

  網(wǎng)易易盾首創(chuàng)一種頗具實(shí)用價(jià)值的關(guān)鍵詞檢測(cè)算法(BBS-KWS),即一套基于端到端ASR模型的KWS算法。ASR模塊中使用CTC-based方法搭建,通過引入綜合大主干(bigbackbone)、關(guān)鍵詞偏移(biasingkeywords)、混合音節(jié)建模(mixedsyllablemodelingunits)提升關(guān)鍵詞候選路徑的準(zhǔn)召能力,通過引入關(guān)鍵詞多級(jí)匹配、模糊匹配、關(guān)鍵詞打分約束最終的決策,并引入大數(shù)據(jù)半監(jiān)督學(xué)習(xí),改善模型在更復(fù)雜語(yǔ)音環(huán)境下的適應(yīng)能力?! ?center>500)this.width=500" align="center" hspace=10 vspace=10 alt="">
  圖|BBS-KWS算法流程

  基于三大主要特點(diǎn)命名:

  第一個(gè)B代表大主干(bigbackbone),算法中引入了Conformer結(jié)構(gòu)作為基礎(chǔ),在模型前期引入更多卷積層提升特征表達(dá)能力,在重點(diǎn)捕獲語(yǔ)義的編碼層拓寬了多頭注意力層。模型主干的能力被大大提升;

  第二個(gè)B代表關(guān)鍵詞偏移(biasingkeyword),算法在ASR解碼過程中引入了基于語(yǔ)言模型的自適應(yīng)熱詞權(quán)重,引導(dǎo)解碼過程更偏向關(guān)鍵詞;

  第三個(gè)S代表混合音節(jié)建模(mixedsyllablemodelingunit),算法引入了更小的建模單元音節(jié),以獲得更好的泛化能力;

  此外,KWS中的多級(jí)匹配,模糊匹配能處理部分KWS問題中OOV的問題,對(duì)算法的提升明顯。VKW任務(wù)中的難點(diǎn)之一是場(chǎng)景失配,BBS-KWS中的聲學(xué)模型也通過多輪次的半監(jiān)督學(xué)習(xí)提升場(chǎng)景適應(yīng)能力,獲得更高的精度。

  BBS-KWS開發(fā)便捷,針對(duì)新增自定義關(guān)鍵詞的場(chǎng)景可以靈活地適配,大大提升召回,對(duì)精度的把控主要依靠關(guān)鍵詞打分及工作點(diǎn)的選擇上。未來(lái)針對(duì)關(guān)鍵詞的自適應(yīng)關(guān)鍵點(diǎn)及區(qū)分誤召回方面仍有提升空間?! ?center>500)this.width=500" align="center" hspace=10 vspace=10 alt="">
  圖|易盾nisp_speech的團(tuán)隊(duì)成員

  為了提升效果,易盾nisp_speech團(tuán)隊(duì)設(shè)計(jì)了一系列算法實(shí)驗(yàn),做了很多優(yōu)化。“有賴于日常積累,我們團(tuán)隊(duì)以相對(duì)平緩的節(jié)奏完成了本次競(jìng)賽任務(wù),”網(wǎng)易易盾資深計(jì)算機(jī)語(yǔ)音算法工程師杜彬彬表示,團(tuán)隊(duì)內(nèi)部的充分交流與合作可以激發(fā)創(chuàng)新。在比賽準(zhǔn)備過程中,每一位成員直接參與各項(xiàng)baseline效果的提升,通過內(nèi)部榜單看進(jìn)展,并各自學(xué)習(xí)訓(xùn)練過程中的優(yōu)質(zhì)經(jīng)驗(yàn)。

  三、我們的技術(shù)有哪些應(yīng)用?

  專注AI識(shí)別,與產(chǎn)業(yè)應(yīng)用結(jié)合

  關(guān)鍵詞檢測(cè),是語(yǔ)音識(shí)別的核心領(lǐng)域之一,其目的在于識(shí)別語(yǔ)音材料中的特定詞匯是否出現(xiàn)以及出現(xiàn)的位置,有利于促進(jìn)機(jī)器更好理解多語(yǔ)種、長(zhǎng)短句的語(yǔ)意,對(duì)語(yǔ)音內(nèi)容檢測(cè)的準(zhǔn)確率產(chǎn)生最直接的影響。

  一站式、多場(chǎng)景應(yīng)用

  成立于2016年的網(wǎng)易易盾,以敏感內(nèi)容檢測(cè)起家,在語(yǔ)音識(shí)別、視頻識(shí)別、文本識(shí)別等計(jì)算機(jī)感知領(lǐng)域的技術(shù)儲(chǔ)備雄厚,在落地應(yīng)用上也擁有著諸多的實(shí)踐經(jīng)驗(yàn)。當(dāng)前,網(wǎng)易易盾語(yǔ)音關(guān)鍵詞識(shí)別技術(shù)已成功應(yīng)用于點(diǎn)播、直播、IM私聊、語(yǔ)音社交等場(chǎng)景中的不良內(nèi)容檢測(cè)?! ?center>500)this.width=500" align="center" hspace=10 vspace=10 alt="">
  監(jiān)管合規(guī)策略布控

  “音頻檢測(cè)”,是易盾內(nèi)容安全檢測(cè)技術(shù)之一,核查語(yǔ)音是否涉及色情、政治、謾罵、廣告等關(guān)鍵詞,綜合理解文本語(yǔ)義環(huán)境,一網(wǎng)打盡若干種類型的內(nèi)容風(fēng)險(xiǎn)。

  易盾技術(shù)團(tuán)隊(duì)構(gòu)建了“自主發(fā)現(xiàn)-精細(xì)排查-循環(huán)迭代”的完整技術(shù)鏈路,能夠靈活高效響應(yīng)緊急問題,并形成了算法極速定制機(jī)制,能夠在短周期內(nèi)訓(xùn)練出滿足客戶需要的個(gè)性化算法模型,進(jìn)一步確立了內(nèi)容安全領(lǐng)域技術(shù)能力的領(lǐng)先性。

  截止目前,網(wǎng)易易盾“語(yǔ)音檢測(cè)”解決方案為廣播電視、陌生人社交、在線音樂等行業(yè)客戶保駕護(hù)航,提供智能解析、關(guān)鍵詞定位、語(yǔ)義理解、聲紋檢測(cè)等服務(wù),累計(jì)過檢時(shí)長(zhǎng)超3億小時(shí)。

  四、總結(jié)

  語(yǔ)音識(shí)別所面對(duì)的挑戰(zhàn)有別于文本、圖像識(shí)別:

  語(yǔ)音中的敏感內(nèi)容檢測(cè)并不是一步到位,先得把音頻轉(zhuǎn)換成文字,這個(gè)過程十分復(fù)雜,AI機(jī)器不僅要理解語(yǔ)音,而且得分析語(yǔ)義,做出最佳轉(zhuǎn)換決策。小語(yǔ)種、方言、語(yǔ)音、語(yǔ)調(diào)、語(yǔ)速、背景音、噪音都會(huì)導(dǎo)致語(yǔ)音中“關(guān)鍵詞”定位的準(zhǔn)確率下降。  
500)this.width=500" align="center" hspace=10 vspace=10 alt="">
  
500)this.width=500" align="center" hspace=10 vspace=10 alt="image.png">
  獨(dú)創(chuàng)的關(guān)鍵詞檢測(cè)算法(BBS-KWS),在業(yè)界權(quán)威大賽受到認(rèn)可,意味著易盾在合作中能夠?yàn)槠髽I(yè)提供更優(yōu)質(zhì)的音視頻解決方案。全面升級(jí)的語(yǔ)音內(nèi)容檢測(cè)能力,將幫助娛樂社交行業(yè)解決合規(guī)審核不足、人工成本高企的眾多問題,助力新形態(tài)產(chǎn)品輕松應(yīng)對(duì)“風(fēng)控”與“運(yùn)營(yíng)”環(huán)節(jié)。

  后疫情時(shí)代,語(yǔ)音社交以便捷的優(yōu)勢(shì)悄然步入日常生活,語(yǔ)音數(shù)據(jù)迎來(lái)了爆炸式增長(zhǎng)。另一方面,政策制定愈發(fā)明晰,監(jiān)管態(tài)度趨嚴(yán),可以預(yù)見的是,國(guó)家越來(lái)越重視運(yùn)用互聯(lián)網(wǎng)技術(shù)和信息化手段開展互聯(lián)網(wǎng)內(nèi)容生態(tài)治理,營(yíng)造清朗的網(wǎng)絡(luò)空間。

  未來(lái),網(wǎng)易易盾也將持續(xù)針對(duì)數(shù)字網(wǎng)絡(luò)時(shí)代的敏感內(nèi)容識(shí)別輸出新技術(shù),進(jìn)一步擴(kuò)大應(yīng)用范圍,不斷提升核心效果。