Slik lærer datamaskiner oss å kjenne


Ved å kunne oppdage og lære mønster kan datamaskiner anbefale filmer, lese håndskriften din, og kanskje snart kjøre bilen din

Har du tenkt over hvordan Netflix finner ut hvilke filmer de tror du vil like? Og visste du at metodene de bruker har likhetstrekk med teknikker som gjør datamaskiner stadig bedre til å lese håndskrift? Begge disse problemstillinger tar nytte av at datamaskiner kan læres opp til bedre å analysere og forstå store datamengder.

La oss tenke over hvordan Netflix kommer frem til anbefalingene sine: Det er naturlig å ta utgangspunkt i hvilke filmer og serier seeren har sett og likt tidligere. Denne informasjonen kan brukes til å anbefale lignende filmer, eller å sammenligne med hva andre seere med lignende smak har gitt gode karakterer.

Selv om denne tanken kan virke opplagt, er det mange utfordringer med å utføre det i praksis. For eksempel: Hvordan kan vi sortere ut lignende filmer blant de tusenvis av filmene tilgjengelig på Netflix? Og hvordan sikre at anbefalingen blir personlig, i praksis vil det si tilpasset alt Netflix vet om seervanene til hver og en av oss, for slik å maksimere sjansen for at vi forblir betalende kunder?

Løsningen Netflix har valgt er kjent som maskinlæring. Utgangspunktet er at det er svært vanskelig, for ikke å si umulig, for mennesker å skrive ned fremgangsmåter som gir gode anbefalinger, så jobben må overlates til datamaskiner. Programmer for maskinlæring tar utgangspunkt i et sett med treningsdata som antas å være representativt, for Netflix kan dette være seerhistorikken til en stor mengde kunder. Programmet analyserer dataene på jakt etter sammenhenger, og lager hva vi kan tenke på som et sett med regler for å beskriver disse. Netflix brukes så reglene til å gi anbefalinger til nye seere, og jo flere filmer en kunde ser og gir karakter, jo bedre forstår programmet hvordan kunden passer inn i forhold til treningsdataene.

Vi ser nå at forskjellen fra anbefaling av filmer til tolkning av håndskrift er ikke så stor som en skulle tro: All håndskrift består av begrenset antall bokstaver, tall og tegn, skrevet ned på ymse vis. Dermed kan vi bruke skriftprøver til å lære en datamaskin å gjenkjenne skrift, på samme måte som seerhistorikk kan brukes til å anbefale filmer. Likheten mellom problemene er stor nok til at de samme programmene kan brukes til de to problemene, om enn med visse spesialtilpasninger.

Betyr dette at programmet på egen hånd har lært seg hvilke kunder som liker hvilke filmer, eller å lese håndskrift? Svaret er ikke helt rett frem: Programmet setter opp hva vi kan tenke på som en forklaringsmodell som er godt tilpasset treningsdataene. Modellen er satt opp med liten påvirkning av mennesker, nøyaktig hvor mye kommer an på hvilken metode innen maskinlæring vi bruker. Dette er en stor fordel med maskinlæring, det kan anvendes på data vi ikke har en god forståelse av. Samtidig er tilpasningen avhengig av metoden og dens brukerstyrte parametere, og andre valg brukeren tar kan gi andre forklaringsmodeller. I våre eksempler vil dette gi seg utslag i andre anbefalinger og andre tolkninger av håndskrift. Og har du en helt spesiell filmsmak eller skrift, og dermed ikke er godt representert av treningsdataene, vil kvaliteten på svarene være så som så.

De to eksemplene ovenfor illustrerer litt av bredden i felter der maskinlæring blir brukt, vi kunne og sett på anvendelser innen blant annet finans, helse, biler som kjører seg selv, eller å gjenkjenne lyden av hvaler. Feltet vil bli stadig viktigere i fremtiden, etter hvert som metodene blir bedre, mer data blir tilgjengelig og regnekraften øker – det er et tidsspørsmål før smarttelefoner er kraftige nok til å utføre maskinlæring på egenhånd, med alle mulighetene det åpner for.