AI
De lot kunstig intelligens styre et selskap – resultatet sier mye om fremtidens arbeidsliv
Forskere ville finne ut om kunstig intelligens kan erstatte menneskelige ansatte. De opprettet derfor et simulert selskap bemannet utelukkende av AI-agenter. Svaret? Vi er ikke i nærheten ennå.

AI på jobb – men lite ble gjort
Forskere ved Carnegie Mellon University gjennomførte et eksperiment hvor de lot ulike AI-modeller drive en simulert bedrift. Målet var å undersøke om dagens kunstige intelligens kan håndtere komplekse, virkelighetsnære arbeidsoppgaver – slik mange spekulerer i at fremtidens arbeidsliv vil se ut.
Les også: Google endrer søkefunksjonen – dette betyr det nye AI-symbolet
I eksperimentet fikk AI-modeller fra blant annet OpenAI (GPT-4o), Anthropic (Claude 3.5 Sonnet), Google (Gemini), Meta (Llama), Amazon (Nova) og Alibaba (Qwen) tildelt roller som økonomianalytikere, prosjektledere og programvareutviklere. De fikk også tilgang til en simulert kommunikasjonsplattform for å samarbeide med virtuelle kollegaer i for eksempel HR-avdelingen. Det skriver Futura.
De fleste oppgavene ble ikke løst
Resultatene var tydelige: AI-agentene klarte bare å fullføre en brøkdel av oppgavene de fikk. Den mest vellykkede modellen, Claude 3.5 Sonnet, fullførte kun 24 % av oppgavene. Om man regner med de delvis løste oppgavene, kom den opp i 34,4 %. Nærmest kom Gemini 2.0 Flash, som bare løste 11,4 % av oppgavene. De øvrige AI-modellene lå under 10 %.
Claude 3.5 Sonnet var også den dyreste i drift, med en simulert kostnad på 6,34 dollar, sammenlignet med bare 0,79 dollar for Gemini 2.0 Flash.
AI forstår ikke det underforståtte
Mye av utfordringen ligger i at AI-systemene ofte ikke forstår det som ikke sies direkte. For eksempel klarte de ikke å tolke instruksjoner som innebar å lagre et dokument i Word-format – selv om filendelsen «.docx» ble spesifisert.
I tillegg hadde mange av AI-agentene problemer med sosiale ferdigheter og samhandling, som å kommunisere med andre avdelinger. Et gjennomgående problem var også navigasjon på internett, spesielt når det gjaldt å håndtere popups og brukergrensesnitt. Flere av agentene «hoppet over» vanskelige trinn og konkluderte feilaktig med at de hadde løst oppgaven.
Konklusjon: AI er nyttig – men ikke klar til å overta
Studien viser at kunstig intelligens riktignok kan løse enkelte, klart definerte oppgaver – men at det fortsatt er langt igjen før AI kan drive et selskap på egen hånd. Evnen til å forstå kontekst, håndtere uforutsigbare situasjoner og samarbeide effektivt gjenstår å utvikle.
Kort sagt: Fremtidens arbeidsplasser kan få god hjelp av AI, men mennesket er fortsatt uunnværlig.