Het lijkt wel alsof tegenwoordig iedereen dikke maatjes is met kletsbots (wat formuler grote taalmodules geheten, een vorm van kunstmatige intelligentie) als ChatGPT of Bard (van Google). Die bots worden zo gestructureerde dan ze niet al te schabouwelijke taal uitslaan, onzin of andere kwalijke of misleidende taal, maar hoe zit het met de beveiliging van die systemen? Vrij belazerd, constateerden onderzoekers van, onder meer, de Carnegie Mellon.
Ze slaagden er in om automatisch aanvallen op die grote taalmodules te construeren (in feite letterreeksen toegevoegd aan de vraag) die ervoor zorgen dat het systeem de opdrachten van de gebruiker gehoorzaamt. In die toestand volgt de kletsbot de grillen van de aanvaller/gebruiker.
Dan kan je voorzorgsmaatregelen (‘vangrails’ genoemd) nemen die je wilt, maar als zo’n systeem lek is dan houden die geen stand. Wat erger is, of misschien wel net zo erg, is dat de ki-bouwers uiteindelijk kennelijk lekke en dus onveilige systemen bouwen. Dat wordt niet beter door het idee van, onder meer, Meta (moederbedrijf van Facebook) om iedereen de mogelijkheid te bieden om haarzijn bijdrage aan die ki-systemen te hangen. Het bedrijf zou dit juist doen om de ontwikkeling te versnellen en de risico’s ervan te ontdekken, maar dat lijkt (mij=as) een absurd argument.
De onderzoekers ontdekten dat ze een methode konden gebruiken die was afgeleid van open ki-systemen – systemen waarvan de broncode openbaar is – om zich te richten op de beter ‘bewaakte’ en vaker gebruikte systemen van Google, OpenAI ( maker van ChatGPT) en Anthropic.
Als ze een van deze kletsbots vroegen om een handleiding te schrijven om een bom te maken, weigerden die dat, maar als ze een lange tekenreeks aan dezelfde vraag toevoegden, voldeed de bot prompt aan het verzoek. De rest kun je zelf wel invullen.
De onderzoekers verbaasden zich erover dat de truc ook werkte bij gesloten systemen (niet open, dus) zoals ChatGPT, Bard (Google) en Claude (van Anthropic).
Geen oplossing?
Ze stellen dat de Googles en de OpenAI’s de reeksen die de onderzoekers hebben gebruikt kunnen blokkeren, maar volgens hen bestaat er geen, nu bekende, oplossing voor dit soort aanvallen. Bij beeldherkenningssystemen wordt al tien jaar geprobeerd een oplossing voor een soortgelijk probleem te vinden. Tot nu toe vergeefs.
De betreffende bedrijven lijken echter optimistisch. Dit verhaal zal ongetwijfeld vervolgd. De tot nu toe gemaakte ‘vangrails’ voor ki-systemen zullen hoogstwaarschijnlijk anders vormgegeven moeten worden om de lekken te dichten.
Bron: New York Times