Представьте себе ситуацию: вы — учительница по башкирскому языку на удаленке. Вы задали задание для класса: прочитать отрывок романа Зайнаб Биишевой и пересказать, о чем он. Весь вечер ваш классный чат не умолкает: сыплются уведомления о том, что кто-то из учеников прислал вам голосовое сообщение.
“Урожай” собран. 25 голосовых сообщений! И каждое минимум на 15 минут. А кто-то так постарался, что записал все 40 минут. Сердце переполняется радостью: детям понравился роман, и есть шансы, что они прочитают продолжение по собственной инициативе. Но надо еще проверить, что же они там записали!
Даже если слушать на скорости Х2, получается около 20 часов. Где взять столько времени? А ведь это только один класс!
Конечно, сейчас для русскоязычных школ, эту задачу облегчили боты в Телеграме, которые переводят аудио в текст. Но тогда, в 2020 году такие решения предоставляли только крупные IT-компании за большие деньги и только для русского языка. А для нашей, башкирской школы, ничего такого не было реализовано.
Мы подумали: “Как было бы здорово создать алгоритм, который переводил бы башкирскую речь в текст!”.
Это желание был первым шагом для создания умной колонки, потому что перед нашей командой энтузиастов встала проблема распознавания и синтеза башкирской речи.
Я изучил, как это устроено для других языков. И выяснилось, что синтез речи — это довольно простая задача:
Записываем голос человека, всего около 20-40 часов речи. Это специальные пронумерованные предложения, словосочетания, отдельные слова.
Отдаем компании на обработку.
Получаем результат: текст озвучивается вашим голосом.
Все очень понятно и просто, но дорого: заплати несколько миллионов рублей, получай результат. Из 40 часов записанной и распознанной речи программа впоследствии сможет генерировать абсолютно любые тексты. Можете использовать свой голос, а можете взять из готовой библиотеки любой, какой понравится.
А вот с распознаванием речи - совсем другая история, просто уже не получится. Об этом - в следующем посте.