AI
AI og hunder – overraskende like å trene
Har du en velopdragen hund? Da har du nok brukt mange av de samme prinsippene som AI bruker under trening.

Å forstå intelligens og å bygge intelligente maskiner er blant vår tids største vitenskapelige utfordringer. Et grunnleggende trekk ved både menneskelig og kunstig intelligens er evnen til å lære av erfaring.
Gammel teori
Allerede i 1948 skrev Alan Turing, ofte omtalt som datavitenskapens far, om ideen om å «oppdra» maskiner ved hjelp av belønning og straff. Dette la grunnlaget for det som i dag er kjent som forsterkende læring, en gren innen kunstig intelligens hvor man trener opp agenter til å ta beslutninger basert på hva som gir størst belønning over tid. Det skriver popular science.
Prinsippet bak forsterkende læring er det samme som brukes når man trener dyr. En hund får en godbit når den utfører en ønsket handling, og dermed øker sannsynligheten for at den gjentar denne handlingen. Det samme gjelder for en AI-agent, som kan være alt fra et program som spiller sjakk, til en robot som hjelper til i hjemmet.
Les også: AI kommer til datingapper – flørter du egentlig med et menneske?
Akkurat som dyr kan AI-agenter sanse omgivelsene og handle ut fra det. En sjakkspillende AI «ser» brettet og gjør trekk, mens en robot i et hjem bruker kameraer og sensorer for å navigere og utføre oppgaver. Hver agent har et mål. For sjakkprogrammet er det å vinne spillet, for roboten kan det være å hjelpe mennesket som eier den.
Belønningssystem
Utfordringen i forsterkende læring er å designe slike agenter slik at de når målene sine på en effektiv måte. Hele systemet bygger på ideen om belønning: et tall som uttrykker hvor bra en handling er i en gitt situasjon. Agentens oppgave er å maksimere summen av disse belønningene over tid.
Dette prinsippet kalles gjerne «belønningshypotesen». Det antas at ethvert mål kan uttrykkes gjennom en passende belønningsfunksjon, men dette er fortsatt et åpent spørsmål. For enkle oppgaver, som sjakk, er det enkelt å definere en slik funksjon. En seier gir +1, tap gir -1, og uavgjort gir 0. Men for mer komplekse oppgaver, som å være en hjelpsom robot i et hjem, er det vanskeligere å definere hva som bør belønnes og hvordan.
Kjempesuksess
Likevel har forsterkende læring blitt brukt med suksess i stadig flere områder. Et velkjent eksempel er AlphaGo, utviklet av DeepMind. Go ble tidligere sett på som for komplisert for datamaskiner, men AlphaGo slo verdensmesteren Lee Sedol i 2016. Forsterkende læring har også blitt brukt i utviklingen av språkmodeller som ChatGPT, hvor det hjelper med å forbedre samtalens relevans og nytteverdi.
Ideen om forsterkende læring fikk sin form på 1980-tallet da Andrew Barto og hans daværende doktorgradsstudent Richard Sutton formulerte det som en generell metode for problemløsning. De bygde ikke bare på dyrepsykologi, men også på kontrollteori og matematisk optimalisering. De utviklet både det teoretiske grunnlaget og de algoritmene som i dag brukes som standard innen feltet.
De skrev også læreboken Reinforcement Learning: An Introduction, først utgitt i 1998, med en ny utgave i 2018. Boken har hatt stor påvirkning på fagfeltet og er blitt sitert mer enn 75 000 ganger.
Relevant i forskning
I tillegg til kunstig intelligens har forsterkende læring også påvirket nevrovitenskap. Forskere har brukt slike algoritmer for å forklare hvordan dopamin-systemet i hjernen fungerer, særlig i forbindelse med belønning og læring hos både mennesker og dyr.
Barto og Suttons arbeid har satt tydelige spor. Det har bidratt til både akademisk utvikling og praktisk bruk, og har tiltrukket seg store investeringer fra teknologiselskaper. Det er sannsynlig at fremtidige forskere vil bygge videre på arbeidet deres og kunne se enda lenger ved å stå på skuldrene deres.
Les også: AI vs. menneskelig empati: Hvem vinner i helsevesenet?