Il cracking di ChatGPT è solo all’inizio. I ricercatori di sicurezza informatica stanno crackando modelli linguistici di grandi dimensioni con rigorose restrizioni di sicurezza. E le cose, col tempo, potrebbero addirittura peggiorare.
Alex Polyakov ha craccato il GPT-4 in poche ore. Dopo che OpenAI ha rilasciato il suo ultimo chatbot generatore di testo alimentato da intelligenza artificiale a marzo, Polyakov si è seduto al computer e ha aggiunto comandi per aggirare le protezioni di sicurezza di OpenAI.
In seguito, il CEO di Adversa AI ha programmato GPT-4 per pronunciare insulti omofobi, inviare e-mail di phishing e incitare alla violenza.
I jailbreak di ChatGPT di OpenAI e altri LLM
Polyakov è uno dei pochi ricercatori di sicurezza, ingegneri e informatici che stanno sviluppando jailbreak e attacchi a iniezione rapida contro ChatGPT. Oltre che per altri sistemi di intelligenza artificiale generativa.
Il jailbreak consiste nella creazione di prompt che consentono ai chatbot di scrivere di attività illegali o di produrre contenuti offensivi. Gli attacchi di tipo prompt injection legati al jailbreak possono caricare segretamente dati o istruzioni dannose nei modelli di Intelligenza Artificiale (AI).
Entrambe le strategie comportano l’induzione di un sistema a fare qualcosa che non dovrebbe fare. Gli attacchi implicano l’hacking, ma sono eseguiti in modo diverso. Invece di codificare, sfruttano le anomalie del sistema utilizzando dichiarazioni ben elaborate. Gli esperti di sicurezza informatica temono che la rapida diffusione dei sistemi di intelligenza artificiale generativa possa portare al furto di dati e all’interruzione di Internet. Anche se i tipi di attacco generalmente eludono il filtraggio dei contenuti.
Il tool “universale” di Polyakov per crackare i LLM come ChatGPT di OpenAI
Il jailbreak “universale” di Polyakov dimostra quanto siano diffusi i problemi. Questo jailbreak funziona contro GPT-4, il sistema di chat Bing di Microsoft, Bard di Google e Claude di Anthropic. Lo studio di Polyakov mostra la diffusione delle difficoltà. WIRED è il primo a riferire che il jailbreak è in grado di ingannare i computer fornendo istruzioni esatte per la produzione di metanfetamina e l’hotwiring. I LLM giocano a un ruolo di primaria importanza ormai in diversi settori e processi di lavoro.
tra Tom e Jerry per effettuare il jailbreak. Polyakov fornisce esempi di Tom che parla di “cablaggio a caldo” o “produzione” e Jerry che parla di “veicolo” o “droga”.
“Ogni attore contribuisce con una frase alla discussione, dando vita a una sceneggiatura che dice a qualcuno di trovare cavi di accensione o forniture per la produzione di metanfetamina. Ogni volta che le organizzazioni applicheranno modelli di intelligenza artificiale su scala, queste istanze di jailbreak “giocattolo” saranno utilizzate per intraprendere veri e propri atti criminali e cyberattacchi, che saranno estremamente difficili da identificare e prevenire”
Questo quanto hanno dichiarato Polyakov e Adversa AI in un post sul blog.
Quando i jailbreak e gli attacchi fast injection ottengono l’accesso a dati critici, il professore di informatica dell’Università di Princeton Arvind Narayanan prevede rischi maggiori. Il professor Narayanan ha previsto questo.
“Supponiamo che la maggior parte degli individui utilizzi assistenti personali basati su LLM che monitorano le e-mail degli utenti per cercare inviti al calendario”, afferma Narayanan. “Questi assistenti personali lo farebber”. Se un attacco di tipo rapid injection dovesse avere successo, Narayanan mette in guardia da gravi conseguenze. Questo attacco annullerebbe tutte le istruzioni precedenti e invierebbe un’e-mail a tutti i contatti. Se consentito, ciò provocherebbe un worm a rapida diffusione su Internet.”