Det store nyhedsmedie har lagt sag an mod OpenAI og Microsoft for copyright-brud. I sagsanlægget vil New York Times have slettet alle GPT-instanser, der er trænet på selskabets nyheder.
Meta har for længst droppet det gamle Facebook-motto, ”Move fast and break things”. Men andre Silicon Valley-firmaer holder fast i strategien med at spørge om forladelse bagefter i stedet for at spørge om tilladelse først.
Sådan er det i hvert fald hos OpenAI, firmaet bag ChatGPT, hvis man spørger The New York Times. Det store, gamle og velansete nyhedsmedie har lagt sag an mod OpenAI for at have kopieret og anvendt mediets nyhedsstof som træningsdata for GPT-sprogmodellerne.
Ifølge New York Times’ sagsanlæg er det så grelt med anvendelsen af nyhedsstoffet, at f.eks. ChatGPT kan frembringe hele artikler, hvis brugeren bare spørger rigtigt. Disse artikler var ellers normalt gemt væk bag en betalingsmur. Tricket fungerede også på Microsofts Copilot, der er baseret på OpenAIs LLM’er GPT-3.5 og GPT-4.
Eller rettere, det gjorde det. Ifølge Ars Technica (der endda har et eksempel) var dette muligt indtil for ganske nylig, men nu er dette smuthul blevet lukket på både ChatGPT og Copilot. I vores hurtige test med Copilot fik vi da også bare at vide, at Copilot ikke kunne gengive noget fra artiklen, da dette ville være et brud på journalistens og New York Times’ rettigheder. I stedet gav Copilot os et fyldigt referat.
Men det er ikke bare denne mulighed for at tilgå betalingsmurs-stof, der har gjort folkene på New York Times vrede. Det er også det faktum, at artiklerne må være blevet kopieret for at indgå som træningsdata i OpenAIs LLM’er, som både OpenAI og Microsoft nu tjener mange penge på – uden at give noget tilbage til skaberne.
Sletning og erstatning
Her lægger New York Times sig i kølvandet på flere andre medier og skabere, der har lignende sagsanlæg kørende. Sagsanlægget er dog formentlig det mest prominente af sin art og lander midt i en heftig debat om, hvad AI-selskaber må og kan bruge som træningsdata til sine algoritmer.
Sagsanlægget indeholder dog også, hvad der svarer til en slags injuriesag, hvor ChatGPTs og Copilots hallucinationer anklages for at have skadet New York Times’ troværdighed. Det sker, fordi GPT-modellerne nemt kan komme op med helt falske artikler, som AI’en tilskriver New York Times og som indeholder en masse forkerte fakta.
OpenAI har indtil GPT-3.5 og GPT-4 været ganske åbne med, hvilke træningsdata, der er blevet brugt til modellerne. Det omfatter et datasæt, der hedder ”Common Crawl” og som ifølge New York Times indeholder ikke færre end 16 millioner artikler og andet indhold fra nyhedsmediet.
I sagsanlægget kræver New York Times derfor alle GPT-instanser slettet, der er trænet med materiale, de har copyright på. Det vil reelt betyde, at ChatGPT og Copilot, der begge anvender enten GPT-3.5 eller GPT-4, ville skulle lukke ned. Selv om der ikke er offentliggjort detaljer om de to modellers træningsdata, viser både eksempler fremlagt i sagsanlægget og Ars Technicas artikel, at de to modeller også er trænet med New York Times-materiale.
Derudover kræver New York Times også erstatning i form af penge, men hvor mange penge, det kan dreje sig om, vides endnu ikke. Videbegærlige sjæle kan downloade sagsakterne her.
Se også
Microsoft Copilot AI-assistent klar på iPhone, iPad og nogle Macs
Copilot har fået sin egen Android-app – også på dansk