Studier foretaget af forskere i USA hævder, at de kunstige intelligens sprogmodeller, OpenAI’s ChatGPT 3.5 og 4, angiveligt har taget et dyk i deres præstationer, idet de leverer dårligere resultater i juni end i marts i år.
Forskerne, der arbejder i samarbejde mellem Stanford og Berkeley, bemærkede markante ændringer i svarene fra begge sprogmodeller, mens de udførte eksperimenter fra marts til juni. Det skriver The Register
ChatGPT 3.5-versionen er tilgængelig for alle brugere, mens ChatGPT 4 er tilgængelig for betalende Plus-brugere. Andre adgangspunkter til ChatGPT’s AI inkluderer Microsofts Bing-chat og Snapchats chatbot “My AI”.
Under testen blev ChatGPT 3.5 og 4’s evner til at løse matematiske problemer, svare på upassende spørgsmål, generere kode og genkende visuelle mønstre alle evalueret.
Bemærkelsesværdige resultater blev fundet i deres præstationer, især med hensyn til at afgøre, om et heltal var et primtal. I marts kunne GPT-4 korrekt afgøre dette i 97,6% af tilfældene, men i juni var denne præstation faldet til kun 2,4%. Omvendt forbedrede GPT-3.5 sig fra at have 7,4% korrekte svar i marts til 86,8% korrekte svar i juni.
Stanford-professor James Zou, der var medforfatter til studiet, udtalte til The Register, at “det er muligt, at en forbedring af modellens ydeevne på nogle områder kan have uventede bivirkninger, som svækker ydeevnen på andre områder.” Dette kunne muligvis forklare de betydelige forskelle, de observerede i præstationerne.
Et andet fund var, at GPT-4 synes at have forbedret sin evne til at undgå upassende spørgsmål, mens GPT-3.5 viste en øget responsrate på upassende spørgsmål. Forskerne spekulerer i, om denne ændring kunne være en sikkerhedsforanstaltning.
I lyset af disse opdagelser opfordrer forskerne AI-udviklere til at teste sprogmodellerne regelmæssigt for at opdage eventuelle ændringer, der kan påvirke applikationer og tjenester, der bruger disse modeller.
Der har været rygter om, at OpenAI har foretaget drastiske ændringer i layoutet af deres sprogmodeller, og at de muligvis har valgt at bygge mange mindre versioner af modellerne i stedet for en stor. Dette kan resultere i hurtigere svartider og mindre brug af maskinkraft, men på bekostning af kvaliteten af svarene.
En anonym udvikler beskrev endda GPT-4 som “hjernedød” i forhold til tidligere versioner, mens andre har kritiseret, at modellen er “gået i vasken”. OpenAI har endnu ikke kommenteret på disse påstande.