Блог Һомай

250 часов речи и iphone

Про синтез речи мы рассказывали вот в этом посте, а что же с распознаванием?
В случае с распознаванием речи ситуация намного сложнее. А все потому, что мы все очень разные. Моя речь будет отличаться от вашей, а еще акценты, возрастные особенности, диалекты произношений! Чтобы осуществить функцию распознавания башкирской речи, нам предстояла большая работа. И первым в списке задач было создание библиотеки голосов.
Представьте себе несколько сотен человек, которые говорят одни и те же фразы. У кого-то голос тонкий, детский, у кого-то это певучий женский, кто-то басит, у кого-то легкая хрипотца, кто-то записывает голос простуженным, кто-то говорит в нос… Именно такую библиотеку мы и хотели собрать. Нам нужны были всевозможные голоса, которые говорят на башкирском языке, чтобы наша колонка научилась слышать и понимать любого.
Итак, перед нами стоит задача из 2 пунктов:

  1. Уговорить человека зайти на портал Common Voices от Mozilla Firefox и прочитать 250 предложений (это около 30 минут).
  2. Собрать голоса 5000 человек, чтобы получилось порядка 10 000 часов речи.
И если первый пункт легко осуществить в частном порядке и среди друзей, то второй пункт просто сбивал с ног. Признаюсь, на этом этапе у нас вполне могли опуститься руки.
Где найти людей? Как уговорить человека прочитать текст и отправить аудио нам? Как замотивировать их на такое действие?
Осуществимо, но сложно. Именно тогда у проекта появилась своя страничка в соцсетях. Кстати, если вы сейчас читаете эту статью, вы тоже можете зайти туда и принять участие. Не стесняйтесь, даже если вы говорите с акцентом, это тоже полезно для распознавания речи. Голосов мало не бывает! И для нас важен голос каждого!
Сбор голосов стартовал! Ежедневно мы получали около 2-3 часов речи, участвовало около 100 человек. Если кто-то из наших первых энтузиастов нас сейчас читает, мы передаем вам свою горячую благодарность!
Неплохо! Но такими темпами мы бы не собрали нужного количества даже за несколько лет… Помощь пришла с неожиданной стороны. Представительница Всемирного Курултая башкир Люция Анваровна Давлетшина загорелась нашей идеей и вызвалась помочь:

  • Что, если разыграть среди участников дорогой приз, например, последнюю модель Iphone (тогда это был 12 модель)?
Отличная мысль! В Курултае нам профинансировали покупку гаджета, а сообщение разлетелось по республике. Его активно пересылали своим друзьям в чатах. Люди не только помогали цифровизации родного языка, что само по себе очень мотивирует, но и участвовали в розыгрыше.
Мы собирали в день примерно по 10 часов речи, участвовало около 860 человек. За период с 8 марта 2021 года до 31 мая мы собрали около 250 часов, а 31 мая наш подарок нашел свою счастливую обладательницу. Ею стала Миләүшә из Волгограда, приз ей пришлось отправлять СДЕКом!
Это был успех!
Почему? Потому что появились новые технологии, которые могли использовать даже такую небольшую подборку речевых образцов для начала функции распознавания! Благодаря новым технологиям, которые появились на рынке, наших 250 часов хватило, чтобы сделать первые шаги по распознаванию башкирской речи.
Интересно? Читайте дальше, как мы это делали!
Был мәҡәләне башҡортса уҡырға: 250 сәғәтлек телмәр һәм iPhone