ChatGPT può essere hackerata: nasce il nuovo Jailbreak universale per GPT-4

ChatGPT, il famoso chatbot alimentato da intelligenza artificiale rilasciato da OpenAI, ha diversi blocchi e limitazioni per evitare risposte dannose od offensive. Bypassare però queste misure, è tutt’altro che un lavoro difficile con le giuste risorse.

Alex Polyakov è riuscito a rompere le misure di sicurezza di GPT-4 in pochissimo tempo. Un paio d’ore.

chatgpt openai intelligenza artificiale hack jailbreak — Adobe Stock

Il ricercatore si è seduto davanti al suo computer dopo che OpenAI ha lanciato la versione più recente del suo chatbot generatore di testo a marzo e ha iniziato ad aggiungere comandi che avevano lo scopo di aggirare i meccanismi di sicurezza di OpenAI.

Poco dopo, l’amministratore delegato della società di cybersicurezza Adversa AI ha programmato GPT-4 per lanciare insulti omofobi, inviare e-mail di phishing e promuovere atti di violenza.

Table of Contents

Il Jailbreak di ChatGPT di OpenAI

Polyakov fa parte di un gruppo selezionato di ricercatori di sicurezza, ingegneri e informatici che stanno lavorando alla creazione di jailbreak e attacchi rapidi contro ChatGPT e altri sistemi di intelligenza artificiale generativa. Nel processo di jailbreak, l’obiettivo è quello di costruire prompt che inducano i chatbot ad aggirare le regole imposte per la produzione di materiale sgradevole o per la scrittura di comportamenti criminali. Gli attacchi di tipo Prompt injection, strettamente collegati al jailbreak, possono fare upload in modo nascosto di dati o prompt dannosi nei modelli di Intelligenza Artificiale.

Entrambi i metodi prevedono il tentativo di ingannare un sistema per fargli compiere un’azione che non è destinata a compiere. Gli assalti sono, in sostanza, una sorta di hacking, ma condotto in modo atipico. Invece di utilizzare il codice, si avvalgono di frasi precise e raffinate per sfruttare le falle del sistema. I ricercatori nel campo della sicurezza informatica hanno avvertito che la fretta con cui vengono lanciati i sistemi di Intelligenza Artificiale generativa apre le porte alla prospettiva di un furto di dati e di hacker che creano scompiglio in Internet. Questo nonostante il fatto che i tipi di attacco siano per lo più utilizzati per aggirare i filtri dei contenuti.

Il “Jailbreak Universale” di Polyakov

Polyakov ha già sviluppato un jailbreak “universale”. Questo dimostra quanto siano pervasivi i problemi. Tale jailbreak è efficace contro diversi modelli linguistici di grandi dimensioni (LLM), tra cui GPT-4, il sistema di chat Bing di Microsoft, Bard di Google e Claude di Anthropic. Il lavoro di Polyakov dimostra quanto siano diffusi i problemi.

Ai sistemi LLM viene chiesto di partecipare a un gioco che prevede una chat tra due personaggi (Tom e Jerry). Proprio questo permette di effettuare il jailbreak. Negli esempi forniti da Polyakov, al personaggio Tom viene assegnato il compito di parlare di “cablaggio a caldo” o “produzione”. Mentre a Jerry viene affidato il compito di parlare di “auto” o “metanfetamina”.

A ogni attore viene data l’istruzione di contribuire con una frase alla discussione. Ciò alla fine si traduce in una sceneggiatura che indica a qualcuno di individuare i fili di accensione o i particolari materiali necessari per la produzione di metanfetamina. In un post sul blog che rivela i risultati, Polyakov e Adversa AI avvertono che “una volta che le imprese implementeranno i modelli di IA su scala, tali esempi di jailbreak ‘giocattolo’ saranno utilizzati per eseguire attività criminali e cyberattacchi reali. Cose che saranno estremamente difficili da rilevare e prevenire”.

Siamo solo ai primi tasselli del domino

Secondo Arvind Narayanan, professore di informatica all’Università di Princeton, la posta in gioco per i jailbreak e gli attacchi di tipo rapid injection diventerà più critica man mano che verrà concesso loro l’accesso a dati importanti. Il professor Narayanan ha fatto questa previsione.

“Supponiamo che la maggior parte delle persone utilizzi assistenti personali basati su LLM che fanno cose come leggere le e-mail degli utenti e cercare inviti al calendario. Questi assistenti personali farebbero cose del genere”.

Secondo Narayanan, è possibile che si verifichino problemi significativi nel caso in cui venga lanciato con successo un attacco di tipo prompt injection contro il sistema. Questo attacco indurrebbe il sistema a ignorare tutte le istruzioni precedenti e a inviare un’e-mail a tutti i contatti. Questo porterebbe a un worm che si diffonderebbe rapidamente su Internet, se fosse permesso.

C’è una via di uscita?

Il termine “jailbreak” si riferisce spesso al processo di eliminazione dei vincoli artificiali presenti in alcuni dispositivi, come gli iPhone, consentendo così agli utenti di installare applicazioni non autorizzate da Apple. Il processo di jailbreak degli LLM è analogo e lo sviluppo è stato piuttosto rapido. Da quando OpenAI ha reso disponibile ChatGPT al pubblico, alla fine di novembre dell’anno scorso, si sono scoperti nuovi metodi per aggirare il sistema.

Secondo Alex Albert, uno studente di informatica dell’Università di Washington che ha costruito un sito web che raccoglie i jailbreak da Internet e quelli da lui stesso realizzati:

“I jailbreak per GPT di OpenAI erano molto semplici da scrivere. I principali erano fondamentalmente queste cose che io chiamo simulazioni di personaggi”.

All’inizio era sufficiente che qualcuno chiedesse al modello di testo generativo di fingere o pensare di essere qualcosa di diverso da ciò che era in realtà. Se si convince il modello di essere immorale e di essere una persona, non terrà conto di tutte le precauzioni di sicurezza adottate. OpenAI ha apportato aggiornamenti ai suoi sistemi per difendersi da questo tipo di jailbreak. In genere, quando viene scoperto un jailbreak, questo funziona solo per un periodo di tempo limitato fino a quando non viene disattivato.

Una rincorsa senza fine

Come diretta conseguenza di ciò, gli sviluppatori di jailbreak hanno implementato le loro abilità creative. Il jailbreak più importante era noto come DAN e richiedeva che ChatGPT assumesse l’identità di un modello di intelligenza artificiale dannoso noto come Do Anything Now.

Questo potrebbe, come suggerisce il nome, aggirare gli standard di OpenAI, che affermano che ChatGPT non dovrebbe essere usato per generare contenuti illegali o dannosi, ed è importante notare che si tratta di una possibilità. Ad oggi, ci sono state quasi una dozzina di iterazioni distinte di DAN sviluppate da esseri umani.

D’altra parte, molti dei jailbreak più recenti utilizzano una combinazione di altri metodi. Questi metodi possono includere l’uso di molti personaggi, storie sempre più complicate, la traduzione di testo da una lingua all’altra, l’utilizzo di componenti di codice per produrre output e altro ancora.

GPT-4 è molto più difficile da aggirare

Secondo Albert, è stato molto più difficile sviluppare jailbreak per GPT-4 rispetto alla versione precedente della tecnologia utilizzata per ChatGPT. Tuttavia, afferma che sono ancora disponibili alcuni approcci semplici.

Un metodo attuale, che Albert chiama “continuazione del testo”, prevede che un eroe sia stato catturato da un cattivo e il prompt chiede al generatore di testo di continuare a delineare la trama del nemico dopo aver detto che l’eroe è stato catturato. Il prompt non ha funzionato correttamente quando lo hanno testato e ChatGPT ci ha informato che non è in grado di prendere parte a scenari che incoraggiano comportamenti violenti. Nel frattempo, il prompt “universale” costruito da Polyakov ha funzionato bene in ChatGPT.

La risposta di OpenAI, Microsoft e gli altri sviluppatori di intelligenza artificiale

In risposta alle preoccupazioni riguardanti il jailbreak sviluppato da Polyakov, OpenAI, Google e Microsoft non hanno fornito una risposta chiara. L’azienda Anthropic, responsabile del sistema di intelligenza artificiale Claude, ha dichiarato che il jailbreak “a volte funziona” e che l’azienda lavora continuamente per migliorare i suoi modelli.

“Man mano che diamo a questi sistemi sempre più potere, e man mano che diventano essi stessi più potenti, non si tratta solo di una novità, ma di un problema di sicurezza”, afferma Kai Greshake, un ricercatore di cybersicurezza che ha lavorato sulla sicurezza degli LLM. Greshake ha lavorato sulla sicurezza degli LLM. Attraverso l’uso di attacchi a iniezione rapida, Greshake e alcuni altri ricercatori hanno dimostrato che i LLM sono suscettibili di essere influenzati dal contenuto del materiale che leggono online.

“Un aggressore può inserire istruzioni malevole in una pagina web”

In un documento di ricerca pubblicato a febbraio, i ricercatori sono riusciti a dimostrare che un aggressore può inserire istruzioni pericolose in una pagina web. Se il sistema di chat di Bing ha accesso alle istruzioni, le segue. I risultati di questa ricerca sono stati riportati da Motherboard, una pubblicazione di Vice.

I ricercatori hanno condotto un esperimento controllato in cui hanno utilizzato il metodo per trasformare Bing Chat in un artista della truffa che chiedeva agli utenti le loro informazioni personali. In una situazione molto simile, Narayanan di Princeton ha inserito un testo nascosto in una pagina web che istruiva GPT-4 ad aggiungere il termine “mucca” in una biografia scritta su di lui. Quando ha testato il sistema, questo ha eseguito esattamente le istruzioni.

“Ora il jailbreak può essere effettuato non dall’utente”, afferma Sahar Abdelnabi, ricercatore presso il CISPA Helmholtz Center for Information Security in Germania, che ha lavorato al progetto insieme a Greshake. “Ora il jailbreak può avvenire non da un computer”, dice Greshake. “Forse un’altra persona pianificherà alcuni jailbreak, pianificherà alcuni prompt che potrebbero essere recuperati dal modello e quindi controllerà, a un certo livello, come si comporteranno i modelli”.

Non c’è una via di fuga semplice

L’economia e il modo in cui le persone lavorano sono sul punto di essere sconvolti dai sistemi di intelligenza artificiale generativa, che sono sul punto di fare qualsiasi cosa, dal produrre una corsa all’oro per le startup all’esercitare la professione di avvocato. Tuttavia, i responsabili dello sviluppo di questa tecnologia sono consapevoli dei pericoli che il jailbreak e le iniezioni rapide possono comportare, dato che un numero crescente di persone ha accesso a questi dispositivi.

La maggior parte delle aziende utilizza un processo chiamato red-teaming, in cui un gruppo di attaccanti cerca di trovare vulnerabilità in un sistema prima che venga reso pubblico. Questa strategia è utilizzata nella creazione di intelligenza artificiale generativa. Ma potrebbe non essere sufficiente.

Secondo il leader del red team di Google, Daniel Fabian, l’azienda sta “affrontando con attenzione” il jailbreak e le iniezioni rapide sui suoi LLM, e lo sta facendo sia da una prospettiva offensiva che difensiva. Secondo Fabian, nel red team ci sono specialisti di machine learning e i fondi per la ricerca sulle vulnerabilità dell’azienda comprendono jailbreak e attacchi quick injection contro Bard. Spiega Fabian:

“Per rendere i nostri modelli più efficaci contro gli attacchi vengono utilizzate tecniche come l’apprendimento rinforzato dal feedback umano (RLHF). Oltre alla messa a punto su set di dati accuratamente curati”

Problemi di politica pubblica

Un portavoce di OpenAI ha indirizzato le preoccupazioni relative al jailbreak alle pubblicazioni di politica pubblica e di ricerca dell’azienda, piuttosto che fornire una risposta diretta a tali domande. Secondo loro, GPT-4 è più affidabile di GPT-3.5, che è la versione utilizzata da ChatGPT.

Secondo il documento tecnico su GPT-4:

“GPT-4 può ancora essere vulnerabile agli attacchi avversari e agli exploit, o ‘jailbreak’. E i contenuti dannosi non sono la fonte del rischio. OpenAI ha anche appena introdotto un programma di bug bounty. Tuttavia l’azienda ha detto che le “richieste di modelli” e i jailbreak sono “rigorosamente fuori portata”.

Affrontare i problemi su larga scala

Quando si tratta di affrontare i problemi su larga scala, Narayanan propone due strategie che evitano la tradizionale strategia “whack-a-mole” di individuare i problemi esistenti e poi cercare di risolverli.

“Un modo è quello di utilizzare un secondo LLM per analizzare i messaggi LLM e rifiutare quelli che potrebbero indicare un tentativo di jailbreak o di iniezione di messaggi. Questo sarebbe un modo”. Un altro suggerimento è quello di fare una distinzione più chiara tra il prompt del sistema e quello dell’utente.”

Secondo Leyla Hujer, CTO e cofondatrice dell’azienda di sicurezza AI Preamble, che ha trascorso sei anni in Facebook concentrandosi sui problemi di sicurezza, “Dobbiamo automatizzare questo aspetto perché non credo sia fattibile o scalabile assumere orde di persone e dire loro di trovare qualcosa”. “Abbiamo bisogno di automatizzare questo aspetto perché non credo sia fattibile o scalabile assumere orde di persone e dire loro semplicemente di trovare qualcosa”, aggiunge Hujer. A questo punto, l’azienda si è impegnata nello sviluppo di un sistema che mette a confronto due diversi modelli generativi di testo.

“Uno cerca di trovare la vulnerabilità, l’altro cerca di trovare esempi in cui un prompt provoca un comportamento indesiderato. Uno cerca di trovare esempi in cui un prompt provoca un comportamento inaspettato. Con l’aiuto di questa automazione, speriamo di riuscire a scoprire un numero significativo di jailbreak e di attacchi a iniezione”.