“Телмәр синтезы” төшөнсәһенә асыҡлыҡ индерәбеҙ: рус һәм башҡорт телдәрендәге text-to-speech сервисын сағыштырабыҙ.
Кемдәрҙең тексты автоматик рәүештә тауышҡа әйләндереүҙә text-to-speech ише сервистарҙы ҡулланып ҡарағаны бар? Бер ниндәй интонацияһыҙ монотон тауыш, ҡайҙа етте шунда ҡуйылған баҫым, ҡыҫҡартыуҙарҙағы дөрөҫлөккә тап килмәгән аңлатмалар, интонацион паузалар һәм мәғәнәүи акценттарҙың иҫәпкә алынмауы – бындай хаталар, әйтергә кәрәк, хатта яҡшы цифрланған инглиз һәм рус телдәрендә лә йыш осрай!
Ни өсөн механик тауышты дөрөҫ һөйләшергә өйрәтеү шул тиклем ауырлыҡтарға дусар була?
Икенсе класта уҡыған һәр бала “км/сәғәт”, “15.10.2023” йәки “21:45” ише яҙыуҙарҙың дөрөҫ уҡылышын белә. Ләкин машина бындай билдәләрҙең бөтәһен дә бер төрлө итеп күрә, шуға ла улар бер ниндәй мәғәнәгә эйә булмаған цифрҙарҙың йәнһеҙ эҙмә-эҙлелеге итеп уҡыла.
Ғалимдар был проблеманы ике төрлө юл менән хәл итә:
- инженер ысулы: бөтә ҡыҫҡартыуҙар, тамғалар һәм башҡа ошондай һүҙлек үҙенсәлектәре ялҡытҡыс методтар ярҙамында тулыландырыла (был оҙайлы, мәшәҡәтле ысул, өҫтәүенә, кәрәкле һөҙөмтә булырына бер ниндәй гарантия юҡ);
- нейросеть ярҙамында (үтә ҡиммәткә төшә, сөнки бик ҙур хисаплау ҡеүәте талап ителә).
Ике ысул да һөҙөмтәле, әммә алгоритмдар ни тиклем яҡшы булмаһын, тексты кеше, йә булмаһа, тауышлы ярҙамсы уҡыймы икәнлеге барыбер айырылып тора - тыңлаусылар быны йәһәт аңғара.
Бөтәһе лә ал да гөл. Ҙур компаниялар һәм дәүләт корпорациялары машинаны кешесә һөйләшергә өйрәтә торһон, ә беҙ, “Һомай” аҡыллы колонкаһын эшләүсе команда, башҡорт телен синтезлау буйынса эшебеҙҙе дауам итәйек. Беҙҙең көтөлмәгән мөмкинлектәргә тап булғаныбыҙға һеҙ, бәлки, ышанып та етмәҫһегеҙ!
Баҫымдыр
Рус телен өйрәнеп маташҡан сит ил кешеһенән телде өйрәнеүҙә нимә иң ауыры булды икәнен һорап ҡарағанығыҙ бармы? Һис шикһеҙ, уларҙың һәр икенсеһе бер үк һүҙҙә баҫымдың төрлө ижеккә төшөүен һәм уны иҫтә ҡалдырыу мөмкин булмаҫтай хәл икәнен һыҙыҡ өҫтөнә алыр.
ext-to-speech сервисының русса варианты өҫтөндә эшләүсе программистар был проблеманы нисек хәл иткән һуң? Был хаҡта шуны әйтергә мөмкин: улар был мәсьәләне бер нисек тә хәл итмәгән. Улар ни бары баҫымдар һүҙлеген генә төҙөй. Үҙе бер көләмәс килеп сыға кеүек: "Быны иҫтә тотоғоҙ, сөнки уны аңлау мөмкин түгел".
Ә башҡорттарҙа был тәңгәлдә эштәр нисек тора? Барыһына ла билдәле: төрки телдәрҙә баҫым йыш ҡына һуңғы ижеккә төшә. Тимәк, бер ниндәй проблема тыуҙырмаясаҡ? Улай түгел икән шул! Башҡорт телендәге һүҙҙәрҙең баҫымы юҡ кеүек күренә. Мәҫәлән, "А" өнө һүҙ башында ла, аҙағында бер үк яңғырай кеүек.
Ләкин баҫымдарҙың һуңғы ижеккә төшмәгән осраҡтары ла бар. Шуларҙың икәүһенә иғтибарҙы йүнәлтәйек.
Мәҫәлән, һорауҙы белдергән һүҙҙәрҙәге -МЫ, -МЕ киҫәксәләрендә: "бараМЫ", "киләМЕ" - бында баҫым был киҫәксәләрҙең алдынан килгән һуҙынҡыға төшә: "барАмы", "килӘме"
-ЛӘ менән дә шундайыраҡ хәл: бер осраҡта ул ялғау булып килә, мәҫәлән: "ДиләлӘ" - "у Дили", икенсеһендә - йыйыу теркәүесе вазифаһын башҡара: "ДилӘ лӘ", " и Диля".
Икенсе осраҡтағы -ЛӘ теркәүес булып килгәнлектән, ул айырыңҡырап әйтелә. Бында -ЛӘ алдында торған һүҙҙең һуңғы ижегенә һәм - ЛӘ теркәүесенең үҙенә лә баҫым төшә.
Беҙ был мәсьәләне нисек хәл итергә йыйынабыҙ? Беҙҙеңсә, баҫым һүҙлегенең алгоритмын булдырыу менән булышмайынса ла, ситуациянан еңел генә сығырға мөмкин. Проблеманы күркәм һәм матур итеп башҡарып сығырҙай уй-ниәттәр етерлек әле беҙҙең.
Тартынҡыларҙың яңғырашы.
Рус телендә үҙҙәренән алда килеүсе тартынҡыларҙы бер ни ҡәҙәр йомшартып биреүсе һуҙынҡы өндәр бар (я,ё, ю, и, е). Һүҙҙәрҙең фонетик бирелешендә беҙ уларҙы өҫкө яҡта урынлашҡан өтөр рәүешендә бирҙек: "пр'ан'ик" ("прь_ань_ик" тип уҡыла).
Башҡорт телендә был ҡағиҙә тик И хәрефенә генә ҡағыла. Сәбәбе ябай: башҡорт телендә ҡалған хәрефтәрҙең өн бирелеше юҡ. Мәҫәлән:
Я - ЙА,
Ю - ЙУ,
Ё - ЙО
булып бирелә.
Й өнө һуҙынҡынан һуң йәки ижек башында килә. Бындай осраҡта тартыңҡыларҙың йомшартылыуы әллә ни һиҙелмәй ҙә кеүек. Башҡорт телендә Е өнө юҡ кимәлендә. Әлбиттә, беҙ хәрефтең үҙен ҡулланабыҙ, ләкин һүҙ башында килгәнендә, был хәреф ЙЭ тип, ә һүҙ уртаһында һәм аҙағында Э тип уҡыла.
Башҡорт телендә йомшартыу булмағанға микән, саф башҡортса һөйләшкәндәрҙең руссаһы тупаҫыраҡ яңғыраған кеүек.
Был беҙгә нимә бирә?
Беҙҙең өсөн был бик тә уңайлы. Программисҡа синтез өсөн дә, тауышты таныу өсөн дә бындай хәл бик ҡулай. Был осраҡта "нисек ишетелһә, шулай яҙыла" тигән ҡағиҙә буйынса эш ителә.
Билдәле булыуынса, ошо яғы менән башҡорт теле белорус теленә оҡшаған.
Үкенескә күрә, синтезлағанда бөтәһен дә автоматик хәлгә еткереп булмай. Мәҫәлән, синтезланған телмәрҙе тыңлағанда, беҙ шуға иғтибар итә ҡуйҙыҡ: һүҙ аҙағында килгән Р өнө ҡайһы саҡ ишетелеп етмәй.
Был осраҡта ни эшләргә? Уның хәл ителеше бик ябай: бер хәреф урынына ике хәреф яҙырға була, ә алгоритм шунда уҡ уның тейешле кимәлдәге яңғырашын бирә; дөрөҫөн әйткәндә, ул бесәйҙең мырылдауына оҡшап киткәндәй була: мәҫәлән, “тамыр” тип яҙаһы урынға “тамырр” тип яҙырға тура киләсәк.
Башҡорт text-to-speech сервисының яңғырашы беҙҙең үҙебеҙгә бик тә оҡшай. Был,үҙ нәүбәтендә, эшебеҙҙе артабан дауам итергә дәртләндерә, ҡанат ҡуя.
Читать эту статью на русском: О синтезе речи замолвите слово
Шунда уҡ яңылыҡтарҙы белгегеҙ киләме? Улайһа беҙҙең Телеграм каналдарға яҙыл:
Башҡортса: Һомай
Русса: Хомай/Homai/Һомай