cottonbro fra Pexels

Nå kan Metas kunstige intelligens lese på leppene

Ståle Lindblad Ståle Lindblad Ekspert på sosiale medier

Publisert 19.01.2022 - 12:26

Denne artikkelen er over to år gammel.

Talegjenkjenning har etter hvert blitt en del av hverdagen vår. Vi kan snakke til mobilen, bilen og smarthøyttaleren hjemme, og bli forstått – stort sett. I hvert fall hvis det er rolig rundt oss og vi snakker veldig t-y-d-e-l-i-g. Er det bakgrunnsstøy, flere som snakker eller vi mumler litt, forstår den kunstige intelligensen ingen ting. Det har Meta gjort noe med.

Prater du med hørselshemmede, klarer de ofte å forstå hva du sier selv om du ikke hever stemmen eller bruker tegnspråk. De leser på leppene, og forstår hvilke ord du uttaler selv om de hører lite eller ingen lyd. Den samme teknikken har Meta nå begynt å bruke i sine talegjenkjenningssystemer.

Lendo inn som sponsor i Dennis Haugers Formel 2- debut

Audio-Visual Hidden Unit BERT (AV-HuBERT) er en kunstig intelligens-modell som bruker både lyd og video for å forstå tale og gjøre det om til tekst. Ifølge selskapets egne tester med umerkede lyd- og videofiler, er AV-HuBERT 75 prosent mer nøyaktig enn noe annet system på markedet.

For å trene opp AV-HuBERT trenger Meta kun en tidel av den mengden treningsdata som normalt er nødvendig. Det gjør at det er mye enklere å trene kunstig intelligens til å forstå «små» språk, som norsk.

Den nye teknologien gjør det mulig å bruke talegjenkjenning i situasjoner som dagens systemer ikke takler, som tilfeller hvor det er mye bakgrunnsstøy eller flere personer som snakker i munnen på hverandre. Ved å tolke både lyd, leppebevegelser og tannbevegelser kan AV-HuBERT skille hvem som sier hva og tolke ord som overdøves av bakgrunnsstøy eller andre stemmer.

I en test hvor volumet på tale og bakgrunnsstøy er like høyt viser Metas tester at en standard talegjenkjenningssystem har en feilrate på 25% etter 433 timer trening. Under de samme forutsetningene har AV-HuBERT en feilrate på kun 3%, eller én feil per 30 ord.

Meta ser for seg mange område hvor den nye teknologien kan være nyttig. I tillegg til at bedre talegjenkjenning kan bli tilgjengelig på flere språk, mener de at AV-HuBERT vil gi bedre verktøy for mennesker med tale- eller hørselshemminger. De ser også for seg at systemet kan bidra til at det blir lettere å avsløre deepfakes, og at det kan gi digitale avatarer mer naturlige munnbevegelser.

McKinsey henter TRY Råd-partner

Nå kan Metas kunstige intelligens lese på leppene

Lendo inn som sponsor i Dennis Haugers Formel 2- debut

McKinsey henter TRY Råd-partner

UD om medietrykket under kriser: – Vet ofte like mye som journalistene

Flodhestbæsj-sjokk for kommunikasjonstopp

– Tør å si nei til urimelige pitcher

Konkurs med milliongjeld

TRY lanserer Svipp

Ønsker du å holde deg oppdatert?

Ledige stillinger:

Skatteetaten søker kommunikasjonsleder - kompleksitet følger med

Støttegruppa 25. juni søker journalist

Klimaetaten søker Kommunikasjonsrådgiver - digitale kanaler og markedsføring

Sana Pharma Medical søker E-commerce ansvarlig

NLA Høgskolen søker Kommunikasjonskonsulent / ‑rådgiver

– Flere bør bytte side oftere

Apriil vant kampen om Festspillene i Bergen

– I et hav av porteføljer skiller man seg ut

Eksperter advarer: Ikke la sosiale medier ta sommerferie

– Den særeste ferien var da jeg stalket David Bowie

– Et lappeteppe å bemanne pressetelefonen

– Ta sats, ta plass, prøv og prøv

Visit Norway fikk full effekt av VM-eventyret: – En enda sterkere posisjon internasjonalt

– Oppskrifter er for folk som gjenskaper

Reklameforbudet skapte sponsorpanikk – Norway Cup unngår milliontap

Nå kan Metas kunstige intelligens lese på leppene

Lendo inn som sponsor i Dennis Haugers Formel 2- debut

McKinsey henter TRY Råd-partner

UD om medietrykket under kriser: – Vet ofte like mye som journalistene

Flodhestbæsj-sjokk for kommunikasjonstopp

– Tør å si nei til urimelige pitcher

Konkurs med million­gjeld

TRY lanserer Svipp

Ønsker du å holde deg oppdatert?

Ledige stillinger:

Skatteetaten søker kommunikasjonsleder - kompleksitet følger med

Støttegruppa 25. juni søker journalist

Klimaetaten søker Kommunikasjonsrådgiver - digitale kanaler og markedsføring

Sana Pharma Medical søker E-commerce ansvarlig­

NLA Høgskolen søker Kommunikasjonskonsulent / ‑rådgiver

– Flere bør bytte side oftere

Apriil vant kampen om Festspillene i Bergen

– I et hav av porteføljer skiller man seg ut

Eksperter advarer: Ikke la sosiale medier ta sommerferie

– Den særeste ferien var da jeg stalket David Bowie

– Et lappeteppe å bemanne pressetelefonen

– Ta sats, ta plass, prøv og prøv

Visit Norway fikk full effekt av VM-eventyret: – En enda sterkere posisjon internasjonalt

– Oppskrifter er for folk som gjenskaper

Reklameforbudet skapte sponsorpanikk – Norway Cup unngår milliontap

Konkurs med milliongjeld

Sana Pharma Medical søker E-commerce ansvarlig