Amazons “Automated Dub” bruker AI til å kopiere videoer til fremmedspråk

Med populariteten til så mange streamingplattformer blir innholdet ganske mangfoldig og annerledes. Flere og flere ser på fremmedspråklige show som "Money Heist" og "Dark", ettersom de er gode show og er tilgjengelige over hele verden. Noen av oss liker imidlertid å se våre show på et språk vi forstår. Noen ganger er ikke undertekster nok. Når det er sagt, kan dubbing av utenlandske show til et annet språk bli tidkrevende og dyrt for produksjonsbedrifter. Dette er den viktigste grunnen til at mange show ikke blir dubbet på fremmedspråk. Vel, Amazon-forskere kan ha en løsning på dette problemet.

I et papir publisert på pre-print-serveren Arxiv.org, teoretiserte Amazon-forskere og testet en ny "tale-til-tale" -teknologi. Det bruker AI for å konvertere original tale til en oversatt tale og avgrense den oversatte talen for å få den til å høres mer menneskelig ut. Dette er bare et første skritt mot å utvikle en enklere og mye billigere måte å synkronisere show og filmer på.

Hvordan det fungerer

Denne "tale-til-tale" teknologien er mye mer komplisert enn det høres ut. Å oversette en original tale til en fremmed tale ved bruk av datamaskiner er en hektisk oppgave. Det oversetter ikke et språk til et annet bare fra lydressursen, men det er flere trinn involvert.
Den automatiserte dubbingsprosessen inneholder i hovedsak tre trinn. Først må den originale talen konverteres i et tekstformat. Det andre trinnet innebærer å oversette teksten til ønsket språk. Til slutt genererer den oversatte teksten den nye talen.

Nå er det komplikasjoner ved å utvikle den nye talen fra den oversatte teksten til talen. Den oversatte talen skal samsvare med hastigheten og følelsene til den opprinnelige talen. Den skal også bære bakgrunnslydene og eliminere etterklangen.

For å få denne kompliserte prosessen til å fungere, bekreftet Amazon-forskere det deres tale-til-tale-teknologi har blitt trent på mer enn 150 millioner engelsk-italienske par av setning for å bestemme hastigheten til et talesegment av den oversatte talen for å matche hastigheten til den originale talen. Dette trinnet sikrer pausene og pausene i den oversatte talen for å matche den opprinnelige talen.

En modell i tekst-til-tale-fasen har trent på 47 timer med taleopptak. Denne modellen genererer en kontekstsekvens fra teksten som mates inn i en forhåndsutdannet vokoder, som dekker sekvensen til en talebølgeform.

Denne teknologien er også i stand til å trekke ut bakgrunnslyder fra den opprinnelige lyden og legge den i den oversatte lyden for å gjøre den mer lik den originale lyden. Til slutt brukes et eget trinn som kalles etterklangstrinnet for å legge til etterklang av den originale lyden til den oversatte.

Vil det være nyttig?

Prosessen er sikkert en komplisert, men forskere skrev at deres fremtidige arbeid vil være viet til forbedringene av automatisk dubbing. Det kan eliminere behovet for stemmeskuespillere til å kalle et show eller en film til et annet språk. Det vil bli mindre tidkrevende og mye billigere å dubbe innhold til ønsket språk. Og ja, det vil være til nytte for produksjonshusene å levere flere show og filmer til seerne ved å gjøre listen mye mer variert.