<noframes id="vndvl">
    <noframes id="vndvl">

      您現在的位置:首頁 >> 新•資訊 >> 正文
      當你的童年男神學會了多種語言無縫切換
      發表時間:2022年5月26日 16:44 來源:新科技 責任編 輯:麒麟

      字節跳動 AI Lab 語音與音頻團隊已能提供超過「17種語言」、「13種方言」、「100+不同風格」媲美真人的音色,其音頻生成能力也通過火山引擎逐步面向市場開放。

      經常在抖音上看視頻或者使用過剪映創作短視頻的朋友,一定對下方視頻里的聲音非常熟悉:

      01.jpg

      聽完了不同音色、不同語言的配音, 再來見識一下中、英、日三種語言無縫切換的海綿:

      02.jpg

      無論是豐富的多語言配音,還是跨語言合成,這些令人驚艷的聲音效果都來自于語音合成技術。近期,為上述能力提供技術支持的字節跳動 AI Lab Speech & Audio Team 智能語音與音頻團隊(后文簡稱 SA團隊 )已經將最新升級的多語言、跨語言合成技術落地,用戶可以在視頻創作工具剪映、CapCut平臺使用這些功能。企業用戶也可以通過火山引擎使用到同款音頻技術。

      「聽得懂」、「說得好」、「會的多」的音色是這樣生成的

      在跟隨CapCut深入不同國家地區本地化的過程中,字節跳動SA團隊為其提供當地使用語言的合成能力。想要提供符合當地文化、滿足當地創作內容偏好且豐富多樣的音色,對語種數量、音色豐富度、語言地道性、風格表現力、生產速度等都提出了極大的挑戰。

      傳統TTS(語音合成)的制作過程是,選擇一位能說地道語言的發音人錄制大量高質量語音數據,通過有該語言專業背景的團隊進行標注處理,最后通過合成技術訓練出對應音色,實現上線運用。然而在目標為多語種合成的前提下,傳統的語音合成方式面臨以下問題:

      ● 數據獲取難:不同國家的文化法律對深度合成技術限制不同,且除中美日等配音行業較為發達的國家地區外,經過專業培養的優質發音人較為稀缺,可選發音人資源受限。

      ● 專業要求高:錄制的音頻數據需要懂該語言的專業人士進行數據標注處理,部分小語種專業人才獲取難度極高。

      ● 訓練難度大:傳統技術框架下,很難細粒度建模不同語言、不同風格的韻律效果,使得合成聲音的表現力難以達到創作者的更高預期。

      ● 消耗成本高:相比中文,多語言生產無論是從發音人,專業人士配置、過程生產都會產生更高的成本。

      為了解決這四大難題,字節跳動SA團隊提出了多語言、跨語言合成方案,低成本高效批量地生產出「聽的懂」、「說的好」、「會的多」的音色。

      ● 「聽的懂」指發音準確、清晰,可懂度高。

      ● 「說的好」指口音地道,符合Native speaker習慣。

      ● 「會的多」指單語發音人可以具備多種語言、口音能力。

      這一方案主要在細粒度韻律建模和跨語言遷移兩個方向進行突破:

      細粒度韻律建模,打造不同語言、口音、風格的音色矩陣

      不同的語言、方言、風格都具備自身的韻律特點,有不同的語速、語調、重音模式等語音變化信息,這種細粒度的韻律特征顯著地影響著發音準確性和地道性,尤其是對于像英語這樣的重音語言(pitch-accent language),而傳統的端到端神經網絡框架很難隱式建模和控制這種細粒度的韻律特征變化。

      為了解決細粒度韻律建模的問題,字節跳動SA團隊研發了音素級別細粒度韻律建模的AM架構(Fine-grained prosody modeling in neural speech synthesis using ToBIrepresentation,Yuxiang Zou,etc,Interspeech 2021),通過引入了音素級別ToBI韻律特征(包括pitch accent、phrase accent和boundary tone),結合音素級的pitch、energy構成的variance adaptor,可以分別實現音節、短語、和句子級別語調、重音模式變化。相比于傳統的隱式韻律特征學習,該方案可以實現更加準確、地道的語音,達成單語言「聽的懂」、「說的好」的目標。

      640.png

      跨語言遷移,突破資源瓶頸,實現同一聲音演繹多國語言

      雖然基于細粒度的韻律建?梢詫崿F更加準確、地道的語音合成效果,但這依舊要求發音人本身要具備相應的語言能力,還要滿足一定數據量,極大的限制了TTS擴量能力,難以滿足業務拓展的速度,以及對視頻創作熱點、爆款音色的快速跟進。

      那么如何讓發音人突破這個限制 ?實現「會的多」的目標是提升語音合成產能的關鍵。

      字節跳動SA團隊將遷移學習技術應用到了語音合成當中,結合無監督表征學習技術,研發了跨語言遷移的聲學模型框架,主要解決特征空間解耦和分布映射的問題,通過SCLN和無監督表征,達到說話人、韻律、風格等特征解耦,將不同語種映射到同一個發音空間。通過跨語言遷移技術,可以實現讓一個非母語發音人,具備達到native speaker程度的說話能力,實現跨語言「說的好」、「會的多」的目標。

      640 (1).png

      同時為了提高標注效率,研究人員還研發了相應的自動切分工具和標注工具,自動標注流程的建立,使數據標注不再成為瓶頸。

      640 (2).png

      通過技術的不斷探索與迭代、主動適應不同國家地區的用戶需求,SA團隊已能提供超過「17種語言」、「13種方言」、「100+不同風格」媲美真人的音色,并且在「跨語言遷移」效果上取得突破,成功應用到視頻配音場景,為剪映、CapCut國內外各地區的創作者們提供了更優質的本地化配音能力,在多個國家和地區獲得用戶的廣泛好評。

      來看看真實用戶們的聲音:

      640 (3).png

      640 (4).png

      640 (5).png

      翻譯:CapCut的文本朗讀功能好厲害,「坊ちゃん」 (萌娃)真的是可愛娃娃的聲音,好自然… 帥大叔的聲音也有了嗎?twitter@mikisandayo_

      640 (6).png

      翻譯:CapCut新出的文本朗讀音色通用性很強,而且超級卡哇伊!大家喜歡哪個聲音呢~

      03.jpg

      隨著技術能力在業務上得到不斷的驗證,用戶真實的聲音越來越大。SA 團隊的音頻生成能力也通過火山引擎逐步面向市場開放,為多個行業伙伴提供領先的音頻技術。包括為互娛用戶提供豐富的配音玩法,激發創造力;為小說用戶提供沉浸式聽書體驗,打造精品AI主播;為智能交互企業、硬件廠商打造助手音色實現降本增效等等;并在視頻剪輯、有聲書、汽車、電商等行業均達成了行業頭部客戶合作,成功實現了能力在各行各業中的應用與拓展。

      關于字節跳動AILab智能語音與音頻團隊

      字節跳動 AI Lab Speech & Audio 智能語音與音頻團隊,致力于為公司各個業務提供音頻理解、音頻合成、對話交互、音樂檢索和智能教學等多種 AI 能力與方案。自 2017 年成立以來,團隊專注于研發行業領先的 AI 智能語音技術,不斷探索 AI 與業務場景的結合,以實現更大的用戶價值。為今日頭條、抖音、剪映、西瓜視頻、番茄小說、飛書辦公套件、大力智能教育臺燈等字節跳動旗下的明星級產品提供了各類 AI 解決方案。截至目前,已服務了上百個業務合作伙伴。伴隨字節跳動業務的快速發展,SA團隊的語音識別和語音合成覆蓋了多種語言和方言。未來,SA團隊希望發展 70+ 語言和 20+ 方言,用于滿足內容創作與交流平臺的需求。團隊已有 17 篇論文入選 AI 頂級會議,其中音頻生成方向接受了 8 篇論文。(來源:火山引擎 )

      高層訪談
      李邵華:芯片自主化迎最佳窗口期
      李邵華:芯片自主化迎最佳窗口期
      中興通訊劉金龍:價值驅動 云網生態激活轉型新動能
      中興通訊劉金龍:價值驅動 云網生態激活轉型新動能
      觀點態度
      5G毫米波網速優勢顯現,少了高速路的5G不完整
      隨著5G網絡目前在全球各地的開通,5G毫米波在峰值速率上已經展現出了巨大優勢。同時,工信部在..
      手機廠商這半年:互懟變日常,多品牌成突圍關鍵
      2019年的手機行業,可以說是非常熱鬧的,僅僅上半年,“華米OV”的隔空互懟便開始頻繁上演。
      移動互聯
      手機
      智能設備
      汽車科技
      通信
      IT
      家電
      辦公打印
      企業
      滾動
      相關新聞
      關于我們 | 聯系我們 | 友情鏈接 | 版權聲明
      新科技網絡【京ICP備18031908號-1
      Copyright © 2020 www.motivationpedia.com, All Right Reserved
      版權所有 新科技網絡
      本站鄭重聲明:本站所載文章、數據僅供參考,使用前請核實,風險自負。
      银河彩票在线平台