20.01.2025

«Яндекс Браузер» научился переводить видео с китайского языка

Нейросеть «Яндекса» научилась переводить видео с китайского языка. Процесс обучения оказался непростым и
потребовал учесть множество особенностей сложного языка.

Яндекс

Прежде всего, разработчикам «Яндекса»
потребовалось с нуля собрать собственный датасет: с помощью специального
алгоритма они обработали 1,5 миллиона видео и выбрали 100 тысяч роликов с качественными
субтитрами на мандаринском (севернокитайском языке), которым
владеет более миллиарда человек. А чтобы нейросеть научилась их
понимать, весь необходимый для работы с китайским словарь разработчики закодировали
в виде 10 000 токенов. Для сравнения, пять европейских языков уместилась
в библиотеку на 5000 токенов.

Наконец, всего за три месяца
нейросеть научилась различать четыре тона, определяющих смыл сказанного. Это
одна из ключевых сложностей китайского языка, когда один и тот же слог,
произнесённый с повышением или понижением голоса, может означать совершенно
разные вещи. А для разграничения омофонов учитывается контекст.

Технологий уже доступна на YouTube,
а чуть позже появится поддержка популярной китайской видеоплатформы Bilibili.

Источник: 4pda.to

Поделиться ссылкой: