Il cracking di ChatGPT è solo all’inizio. I ricercatori di sicurezza informatica stanno crackando modelli linguistici di grandi dimensioni con rigorose restrizioni di sicurezza. E le cose, col tempo, potrebbero addirittura peggiorare.
Alex Polyakov ha craccato il GPT-4 in poche ore. Dopo che OpenAI ha rilasciato il suo ultimo chatbot generatore di testo alimentato da intelligenza artificiale a marzo, Polyakov si è seduto al computer e ha aggiunto comandi per aggirare le protezioni di sicurezza di OpenAI.
In seguito, il CEO di Adversa AI ha programmato GPT-4 per pronunciare insulti omofobi, inviare e-mail di phishing e incitare alla violenza.
Polyakov è uno dei pochi ricercatori di sicurezza, ingegneri e informatici che stanno sviluppando jailbreak e attacchi a iniezione rapida contro ChatGPT. Oltre che per altri sistemi di intelligenza artificiale generativa.
Il jailbreak consiste nella creazione di prompt che consentono ai chatbot di scrivere di attività illegali o di produrre contenuti offensivi. Gli attacchi di tipo prompt injection legati al jailbreak possono caricare segretamente dati o istruzioni dannose nei modelli di Intelligenza Artificiale (AI).
Entrambe le strategie comportano l’induzione di un sistema a fare qualcosa che non dovrebbe fare. Gli attacchi implicano l’hacking, ma sono eseguiti in modo diverso. Invece di codificare, sfruttano le anomalie del sistema utilizzando dichiarazioni ben elaborate. Gli esperti di sicurezza informatica temono che la rapida diffusione dei sistemi di intelligenza artificiale generativa possa portare al furto di dati e all’interruzione di Internet. Anche se i tipi di attacco generalmente eludono il filtraggio dei contenuti.
Il jailbreak “universale” di Polyakov dimostra quanto siano diffusi i problemi. Questo jailbreak funziona contro GPT-4, il sistema di chat Bing di Microsoft, Bard di Google e Claude di Anthropic. Lo studio di Polyakov mostra la diffusione delle difficoltà. WIRED è il primo a riferire che il jailbreak è in grado di ingannare i computer fornendo istruzioni esatte per la produzione di metanfetamina e l’hotwiring. I LLM giocano a un ruolo di primaria importanza ormai in diversi settori e processi di lavoro.
tra Tom e Jerry per effettuare il jailbreak. Polyakov fornisce esempi di Tom che parla di “cablaggio a caldo” o “produzione” e Jerry che parla di “veicolo” o “droga”.
“Ogni attore contribuisce con una frase alla discussione, dando vita a una sceneggiatura che dice a qualcuno di trovare cavi di accensione o forniture per la produzione di metanfetamina. Ogni volta che le organizzazioni applicheranno modelli di intelligenza artificiale su scala, queste istanze di jailbreak “giocattolo” saranno utilizzate per intraprendere veri e propri atti criminali e cyberattacchi, che saranno estremamente difficili da identificare e prevenire”
Questo quanto hanno dichiarato Polyakov e Adversa AI in un post sul blog.
Quando i jailbreak e gli attacchi fast injection ottengono l’accesso a dati critici, il professore di informatica dell’Università di Princeton Arvind Narayanan prevede rischi maggiori. Il professor Narayanan ha previsto questo.
“Supponiamo che la maggior parte degli individui utilizzi assistenti personali basati su LLM che monitorano le e-mail degli utenti per cercare inviti al calendario”, afferma Narayanan. “Questi assistenti personali lo farebber”. Se un attacco di tipo rapid injection dovesse avere successo, Narayanan mette in guardia da gravi conseguenze. Questo attacco annullerebbe tutte le istruzioni precedenti e invierebbe un’e-mail a tutti i contatti. Se consentito, ciò provocherebbe un worm a rapida diffusione su Internet.”
La tecnologia ti aiuta a risparmiare sulla bolletta grazie ad una semplice e intuitiva app:…
Si può guadagnare con Bitcoin investendo solo piccole somme di denaro? Tutta la verità dietro…
Alcuni contribuenti riceveranno un accredito sul conto corrente da parte dell'Agenzia delle Entrate: ecco come…
Dal prossimo anno milioni gli cittadini saranno costretti a dover scegliere un nuovo operatore per…
I mutui per la casa sono sempre più alti e la differenza tra le regioni…
È possibile vedere MasterChef Italia 2023 in streaming e ora sarà ancora più economico grazie…