딥마인드, 오디오 생성 기반 기술 '사운드스트림'과 '오디오LM' 소개


“최신 음성 생성 기술은 대화 스크립트와 화자 전환 표시(speaker turn markers)만 주어지면 2분 분량의 대화를 화자 일관성을 가진 높은 오디오 품질로 생성할 수 있다. 이 모델은 단일 텐서 프로세싱 유닛(TPU) v5e 칩에서 3초 이내에 한 번의 추론 패스로 이 ... Read more

Bron: CIO
Tags: YouTubeDeepMind
Geplaatst: 12 Nov 2024 - 20:52