Nå kan Metas kunstige intelligens lese på leppene

Publisert

Denne artikkelen er over to år gammel.

Talegjenkjenning har etter hvert blitt en del av hverdagen vår. Vi kan snakke til mobilen, bilen og smarthøyttaleren hjemme, og bli forstått – stort sett. I hvert fall hvis det er rolig rundt oss og vi snakker veldig t-y-d-e-l-i-g. Er det bakgrunnsstøy, flere som snakker eller vi mumler litt, forstår den kunstige intelligensen ingen ting. Det har Meta gjort noe med.

Prater du med hørselshemmede, klarer de ofte å forstå hva du sier selv om du ikke hever stemmen eller bruker tegnspråk. De leser på leppene, og forstår hvilke ord du uttaler selv om de hører lite eller ingen lyd. Den samme teknikken har Meta nå begynt å bruke i sine talegjenkjenningssystemer.

Audio-Visual Hidden Unit BERT (AV-HuBERT) er en kunstig intelligens-modell som bruker både lyd og video for å forstå tale og gjøre det om til tekst. Ifølge selskapets egne tester med umerkede lyd- og videofiler, er AV-HuBERT 75 prosent mer nøyaktig enn noe annet system på markedet.

For å trene opp AV-HuBERT trenger Meta kun en tidel av den mengden treningsdata som normalt er nødvendig. Det gjør at det er mye enklere å trene kunstig intelligens til å forstå «små» språk, som norsk.

Den nye teknologien gjør det mulig å bruke talegjenkjenning i situasjoner som dagens systemer ikke takler, som tilfeller hvor det er mye bakgrunnsstøy eller flere personer som snakker i munnen på hverandre. Ved å tolke både lyd, leppebevegelser og tannbevegelser kan AV-HuBERT skille hvem som sier hva og tolke ord som overdøves av bakgrunnsstøy eller andre stemmer.

I en test hvor volumet på tale og bakgrunnsstøy er like høyt viser Metas tester at en standard talegjenkjenningssystem har en feilrate på 25% etter 433 timer trening. Under de samme forutsetningene har AV-HuBERT en feilrate på kun 3%, eller én feil per 30 ord.

Meta ser for seg mange område hvor den nye teknologien kan være nyttig. I tillegg til at bedre talegjenkjenning kan bli tilgjengelig på flere språk, mener de at AV-HuBERT vil gi bedre verktøy for mennesker med tale- eller hørselshemminger. De ser også for seg at systemet kan bidra til at det blir lettere å avsløre deepfakes, og at det kan gi digitale avatarer mer naturlige munnbevegelser.

Powered by Labrador CMS