15個語種,22項第一 科大訊飛多語種再獲突破
近日,由美國國家標準與技術研究院NIST發(fā)起的OpenASR挑戰(zhàn)賽落下帷幕,科大訊飛參加了所有15個語種受限賽道和7個語種非受限賽道,全部取得第一!
繼前不久榮獲多語言理解評測XTREME冠軍之后,科大訊飛在多語種領域再次取得突破,在探索人機交互更自然、人人溝通無障礙的征程中又邁出了堅實的一步,也為中國多語種語音語言技術趕超國際先進水平、中國智能制造的全球化奠定了堅實的基礎。
從大語種向低資源多語種拓展
與NIST此前組織的其他賽事相比,OpenASR更加關注小語種語音技術,探索如何使用少量的數(shù)據(jù)達到較好的效果,同時考察低資源語音識別基礎算法在多個語種上的推廣性。自2020年啟動以來,吸引了加拿大蒙特利爾信息科技研究中心、新加坡科技研究局、清華大學、騰訊等國內外知名研究機構和企業(yè)參與其中。
本次比賽共包含15個語種,涵蓋受限賽道、受限附加賽道和非受限賽道。
15個語種信息
其中受限賽道為各參賽單位必選項,每個語種只能使用組委會提供的10小時標注語音識別數(shù)據(jù),受限附加賽道在受限賽道的基礎上允許使用開源的預訓練模型,而非受限賽道可以使用受限數(shù)據(jù)以外的數(shù)據(jù)。
科大訊飛-中科大聯(lián)合團隊在比賽中提出了基于語音和文本統(tǒng)一空間表達的半監(jiān)督語音識別框架(UnifiedSpatial Representation Semi-supervisedASR,USRS-ASR),獲此佳績也驗證了該算法良好的推廣性。
聯(lián)合團隊全部15個語種受限賽道成績
聯(lián)合團隊參加的7個語種非受限賽道成績
領先技術亮相國際賽場
在受限賽道上,由于每個語種只有10小時語音數(shù)據(jù),如何使用少量文本數(shù)據(jù),利用無監(jiān)督的方法增加語音訓練數(shù)據(jù)的多樣性至關重要。
科大訊飛-中科大聯(lián)合團隊創(chuàng)新運用Flow-TTS語音合成進行訓練數(shù)據(jù)擴增,并使用語音屬性解耦技術保證合成語音的多樣性。結果顯示,使用上述無監(jiān)督數(shù)據(jù)擴增方案,能夠穩(wěn)定、顯著地提升低資源語音識別任務的效果。
而在非受限賽道上,雖然參賽者可以利用公開的語音數(shù)據(jù),但數(shù)據(jù)總量仍只有數(shù)百小時,而且語音數(shù)據(jù)和文本數(shù)據(jù)的量級差距十分明顯,這對于端到端識別框架來說,弊端更為明顯。
USRS-ASR框架示意圖
首先,對于海量文本數(shù)據(jù)的使用,創(chuàng)新設計了文本掩碼語言模型任務、合成數(shù)據(jù)語音識別兩個目標,兩個任務聯(lián)合訓練以充分利用海量無監(jiān)督文本;其次,設計了共享語言解碼模塊,實現(xiàn)了語音和文本隱層表達空間的統(tǒng)一,大大緩解了低資源語種的數(shù)據(jù)稀疏問題。
就在不久前,工信部正式批復同意成立國家智能語音創(chuàng)新中心、國家高端智能化家用電器創(chuàng)新中心,科技創(chuàng)新正不斷引領產業(yè)升級。值得注意的是,在這兩家國家級創(chuàng)新中心依托公司的股東名單中,“科大訊飛”均赫然在列。持續(xù)致力于打造源頭技術創(chuàng)新策源地,科大訊飛正不斷追尋“頂天立地”的產業(yè)夢想。
此外,科大訊飛的多語種相關技術能力也已應用于北京2022年冬奧會官方APP(冬奧通),助力冬奧信息溝通無障礙。
標簽: 科大訊飛
2022-01-13 08:29:23
2022-01-13 08:27:53
2022-01-13 08:25:49
2022-01-13 08:24:48
2022-01-13 08:23:24
2022-01-13 08:21:58
2022-01-13 08:19:20
2022-01-13 08:17:53
2022-01-13 08:12:40
2022-01-13 08:11:31
2022-01-13 08:08:09
營業(yè)執(zhí)照公示信息
相關新聞