Google разработала новый «нейронный» аудиокодек для смартфонов

Компания Google разработала сквозной кодек SoundStream на базе искусственного интеллекта. Он обеспечивает на выходе высокое качество при кодировании различных типов звука, включая речь, работает в реальном времени на процессоре смартфона и, по словам его создателей, крайне нетребователен к скорости передачи данных.

В основе SoundStream, который стал усовершенствованной версией выпущенного Google ранее аудиокодека Lyra, лежит нейросеть. Она преобразует звук в кодированный сигнал, который сжимается с помощью квантователя и преобразуется обратно в аудиодорожку посредством декодера.

Все эти элементы проходят сквозное обучение с имитацией переменной скорости передачи данных. Количество слоёв квантователя в SoundStream контролирует битрейт — во время обучения некоторые из них случайным образом «выпадают», имитируя «просадки» соединения. Это со временем заставляет декодер работать хорошо при любой скорости входящего потока.

Обычно при обработке звука сжатие и его улучшение (удаление фонового шума) выполняется разными модулями, но в SoundStream это происходит одновременно. По заявлению Google, при скорости 3 кбит/с SoundStream превосходит популярный кодек Opus на скорости 12 кбит/с и приближается к качеству EVS на скорости 9,6 кбит/с, используя почти в четыре раза меньше битов.

Сейчас кодек SoundStream проходит стадию внутреннего тестирования, и точная дата его коммерческого запуска пока неизвестна.

Источник: venturebeat.com