Je hoeft alleen aan een ki-systeem te vragen een computerworm of -virus te maken, zo makkelijk wordt de bezigheid van een webboef. Webveiligheids-onderzoekers in de VS deden die proef en ze gebruikten de door het systeem gemaakt code om zooi (ook wel ‘spam’ genoemd) te versturen of om persoonsgegevens te stellen. Ze deden dit bij drie ki-systemen: ChatGPT 4.0, Gemini Pro en LlaVA.
Het afgelopen jaar hebben talloze bedrijven generatieve ki-mogelijkheden geïntegreerd in nieuwe en bestaande toepassingen, waardoor er een soort netwerk (ecosysteem) is ontstaan, bestaande uit deels en geheel autonoom functionerende codes die draaien op ki-diensten. Dat op zich vormt al een gevaar voor de privésfeer, maar de onderzoekers vroegen zich af of die ki-systemen ook kwaadaardige code konden maken om die te kunnen gebruiken bij cyberaanvallen.
Het drietal (Stav Cohen van Technion, Ron Bitton van Intuit en Ben Nassi van Cornell Tech) maakte een worm, Morris II gedoopt, om het voor elkaar te krijgen dat de ki-ecosystemen ook daadwerkelijk die aanvallen uitvoerden, daarbij dankbaar gebruikmakend van de onderlinge koppelingen in die webecosystemen.
Morris II (vernoemd naar de eerste computerworm “Morris” uit 1988) manipuleert ki-systemen en steelt gegevens uit e-berichten en kan berichten verzenden om zooi te versturen. De worm is gemaakt als ‘oefening’ om de risico’s van verbonden en autonome ki-ecosystemen te laten zien.
Morris II kan zich van het ene systeem naar het andere verspreiden, waarbij gegevens worden gestolen of kwalijke code in een systeem wordt ingezet. Het experiment laat zien hoe je een eenvoudige opdrachtprompt – in feite de mogelijkheid om het besturingssysteem met tekst aan te spreken – als wapen kan gebruiken door ervoor te zorgen dat het ki-systeem zijn eigen veiligheidsregels ‘vergeet’.
Om deze ‘slimme’ worm te creëren, gebruikten de onderzoekers een ‘tegenstrijdige, zelfreplicerende prompt’. Dit is een opdrachtprompt die het ki-systeem vraagt om in zijn antwoord nog een prompt te genereren. Die zal daardoor nieuwe instructies ontwikkelen.
Het werkt
Om te laten zien hoe de worm werkt, hebben de onderzoekers eerst een berichtensysteem gemaakt dat berichten kan verzenden en ontvangen, bijgestaan door een generatieve ki die is verbonden met ChatGPT, Gemini en LLaVA. Vervolgens genereerden ze twee soorten prompts om de ki-systemen te manipuleren: een zichzelf replicerende, op tekst gebaseerde prompt en een gelijkwaardige prompt in een afbeeldingsbestand.
In het eerste geval beschadigde het e-bericht met de prompt de databank van de meelassistent met behulp van een verbeterd herstelproces (RAG). Met dit proces kun je doorgaans het resultaat van een groot taalmodel optimaliseren. De prompt wordt gebruikt om een externe kennisbank te injecteren voor het leerproces. Daarmee kun je de mogelijkheden van het systeem vergroten, zodat dat op specifieke gebieden van de hoed en de rand weet.
Normaal gesproken is de bron betrouwbaar, maar in het geval van Morris II was deze kwaadaardig genoeg om de beschermende grendels van het ki-systeem te verbreken. Zo kon de worm meelgegevens stelen. Heg door de ki gegenereerde antwoord werd vervolgens gebruikt om andere ontvangers te besmetten. De inhoud van dit antwoord werd feitelijk ook in de databank van nieuwe servers geïnjecteerd enz. Bij de tweede methode was het een afbeelding met een kwaadaardige prompt die de berichtenassistent dwong het bericht naar de verbonden systemen te verzenden.
Slechte architectuur
Dat Morris II werkt, komt volgens onderzoekers doordat grote taalmodellen architectonisch slecht zijn ontworpen. Details van hun onderzoek hebben ze aan OpenAI en Google geleverd. Aan die bedrijven de taak Morrisen uit andere, minder edele, bronnen de voet dwars te zetten.
Bron: Futura-~Sciences