Представьте себе ситуацию: вы — учительница по башкирскому языку на удаленке. Вы задали задание для класса: прочитать отрывок романа Зайнаб Биишевой и пересказать, о чем он. Весь вечер ваш классный чат не умолкает: сыплются уведомления о том, что кто-то из учеников прислал вам голосовое сообщение.
“Урожай” собран. 25 голосовых сообщений! И каждое минимум на 15 минут. А кто-то так постарался, что записал все 40 минут. Сердце переполняется радостью: детям понравился роман, и есть шансы, что они прочитают продолжение по собственной инициативе. Но надо еще проверить, что же они там записали!
![](https://static.tildacdn.com/tild3631-3966-4566-a434-346339613836/____.jpg)
Даже если слушать на скорости Х2, получается около 20 часов. Где взять столько времени? А ведь это только один класс!
Конечно, сейчас для русскоязычных школ, эту задачу облегчили боты в Телеграме, которые переводят аудио в текст. Но тогда, в 2020 году такие решения предоставляли только крупные IT-компании за большие деньги и только для русского языка. А для нашей, башкирской школы, ничего такого не было реализовано.
Мы подумали: “Как было бы здорово создать алгоритм, который переводил бы башкирскую речь в текст!”.
![](https://static.tildacdn.com/tild6262-3737-4736-b230-653734633138/__.jpg)
Это желание был первым шагом для создания умной колонки, потому что перед нашей командой энтузиастов встала проблема распознавания и синтеза башкирской речи.
Я изучил, как это устроено для других языков. И выяснилось, что синтез речи — это довольно простая задача:
- Записываем голос человека, всего около 20-40 часов речи. Это специальные пронумерованные предложения, словосочетания, отдельные слова.
- Отдаем компании на обработку.
- Получаем результат: текст озвучивается вашим голосом.
Все очень понятно и просто, но дорого: заплати несколько миллионов рублей, получай результат. Из 40 часов записанной и распознанной речи программа впоследствии сможет генерировать абсолютно любые тексты. Можете использовать свой голос, а можете взять из готовой библиотеки любой, какой понравится.
![](https://static.tildacdn.com/tild3061-3630-4336-b936-343230653038/___-__.jpg)
А вот с распознаванием речи - совсем другая история, просто уже не получится. Об этом - в следующем посте.
Был мәҡәләне башҡортса уҡырға: Синтез, танып белеү һәм Зәйнәб Биишева