9句話生成專屬語音包,百度地圖語音定制“極速模式”上線
從最早的明星定制語音包,到全球首個私人語音定制功能,在語音定制這個領(lǐng)域,百度地圖可謂是走在業(yè)界前列,這都得益于百度獨創(chuàng)的Meitron音色韻律遷移技術(shù)。如今,這項技術(shù)再度迎來革新,用戶只需要錄制9句話就可以玩轉(zhuǎn)語音定制,極大降低了語音定制功能的使用門檻,那么百度地圖是如何做到的呢?
(百度地圖語音定制功能推出9句話錄制的“極速模式”)
2019年9月,百度地圖推出全球首個地圖語音定制產(chǎn)品,用戶需要錄制20句、每句15個字左右的文本,經(jīng)過15-20分鐘的AI訓(xùn)練,最終實現(xiàn)定制語音包的合成輸出。而如今,依托百度獨創(chuàng)的時長可控端到端合成技術(shù),升級后的地圖語音定制功能對其中的Tacotron模型進行了調(diào)整和優(yōu)化,特別是在Location Sensitive Attention的機制上,使得語音合成過程中時長信息的獲取更加靈活、可控,極大提高了訓(xùn)練遷移的穩(wěn)定性,即便通過極少的語句也能進行穩(wěn)定的合成,最終實現(xiàn)了從20句到9句的錄制縮減。
盡管錄制過程做了減法,但百度地圖依舊可以生成一如既往的高品質(zhì)語音合成效果,這背后依賴的,就是百度獨創(chuàng)的音色風(fēng)格細粒度編碼器。基于Global Style Tokens技術(shù),此次升級強化了分離音色風(fēng)格信息的能力,增強了音色風(fēng)格抽取的一致性,即便只有極少量的語句,也能夠完成穩(wěn)定的音色風(fēng)格控制和遷移。
目前,百度地圖智能語音助手用戶量超4億,個性化語音包每日播放次數(shù)超1億次。隨著百度地圖語音定制功能的再度升級,相信會有越來越多用戶去嘗試錄制自己專屬的語音包,在導(dǎo)航、語音交互、智能旅游等眾多地圖場景中,體驗個人專屬語音包的魅力。
免責(zé)聲明:本文僅代表作者個人觀點,與中創(chuàng)網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。