Følg oss her

AI

De lot kunstig intelligens styre et selskap – resultatet sier mye om fremtidens arbeidsliv

Forskere ville finne ut om kunstig intelligens kan erstatte menneskelige ansatte. De opprettet derfor et simulert selskap bemannet utelukkende av AI-agenter. Svaret? Vi er ikke i nærheten ennå.

Publisert

d.

Foto: cono0430 / Shutterstock.com

AI på jobb – men lite ble gjort

Forskere ved Carnegie Mellon University gjennomførte et eksperiment hvor de lot ulike AI-modeller drive en simulert bedrift. Målet var å undersøke om dagens kunstige intelligens kan håndtere komplekse, virkelighetsnære arbeidsoppgaver – slik mange spekulerer i at fremtidens arbeidsliv vil se ut.

Les også: Google endrer søkefunksjonen – dette betyr det nye AI-symbolet

I eksperimentet fikk AI-modeller fra blant annet OpenAI (GPT-4o), Anthropic (Claude 3.5 Sonnet), Google (Gemini), Meta (Llama), Amazon (Nova) og Alibaba (Qwen) tildelt roller som økonomianalytikere, prosjektledere og programvareutviklere. De fikk også tilgang til en simulert kommunikasjonsplattform for å samarbeide med virtuelle kollegaer i for eksempel HR-avdelingen. Det skriver Futura.

De fleste oppgavene ble ikke løst

Resultatene var tydelige: AI-agentene klarte bare å fullføre en brøkdel av oppgavene de fikk. Den mest vellykkede modellen, Claude 3.5 Sonnet, fullførte kun 24 % av oppgavene. Om man regner med de delvis løste oppgavene, kom den opp i 34,4 %. Nærmest kom Gemini 2.0 Flash, som bare løste 11,4 % av oppgavene. De øvrige AI-modellene lå under 10 %.

Claude 3.5 Sonnet var også den dyreste i drift, med en simulert kostnad på 6,34 dollar, sammenlignet med bare 0,79 dollar for Gemini 2.0 Flash.

AI forstår ikke det underforståtte

Mye av utfordringen ligger i at AI-systemene ofte ikke forstår det som ikke sies direkte. For eksempel klarte de ikke å tolke instruksjoner som innebar å lagre et dokument i Word-format – selv om filendelsen «.docx» ble spesifisert.

I tillegg hadde mange av AI-agentene problemer med sosiale ferdigheter og samhandling, som å kommunisere med andre avdelinger. Et gjennomgående problem var også navigasjon på internett, spesielt når det gjaldt å håndtere popups og brukergrensesnitt. Flere av agentene «hoppet over» vanskelige trinn og konkluderte feilaktig med at de hadde løst oppgaven.

Konklusjon: AI er nyttig – men ikke klar til å overta

Studien viser at kunstig intelligens riktignok kan løse enkelte, klart definerte oppgaver – men at det fortsatt er langt igjen før AI kan drive et selskap på egen hånd. Evnen til å forstå kontekst, håndtere uforutsigbare situasjoner og samarbeide effektivt gjenstår å utvikle.

Kort sagt: Fremtidens arbeidsplasser kan få god hjelp av AI, men mennesket er fortsatt uunnværlig.

Les også: Skal du bruke AI til eksamen, må du lese her:

Annonse