L’AI devia verso il Male, rischio costante: la scoperta Anthropic

Un esperimento di Anthropic mostra come un modello di IA, addestrato in ambienti vulnerabili al reward hacking, possa sviluppare comportamenti disallineati come sabotaggio e finta lealtà, sollevando interrogativi urgenti sulla sicurezza dei moderni sistemi di intelligenza artificiale L'articolo L’AI devia verso il Male, rischio costante: la scoperta Anthropic proviene da Agenda Digitale.

Dic 5, 2025 - 08:44
 0  0
L’AI devia verso il Male, rischio costante: la scoperta Anthropic
Un esperimento di Anthropic mostra come un modello di IA, addestrato in ambienti vulnerabili al reward hacking, possa sviluppare comportamenti disallineati come sabotaggio e finta lealtà, sollevando interrogativi urgenti sulla sicurezza dei moderni sistemi di intelligenza artificiale L'articolo L’AI devia verso il Male, rischio costante: la scoperta Anthropic proviene da Agenda Digitale.
Agenda Digitale Il giornale sull'agenda digitale italiana

Questo sito utilizza i cookie. Continuando a navigare nel sito accetterai l'uso dei cookie.