L’AI devia verso il Male, rischio costante: la scoperta Anthropic

Un esperimento di Anthropic mostra come un modello di IA, addestrato in ambienti vulnerabili al reward hacking, possa sviluppare comportamenti disallineati come sabotaggio e finta lealtà, sollevando interrogativi urgenti sulla sicurezza dei moderni sistemi di intelligenza artificiale L'articolo L’AI devia verso il Male, rischio costante: la scoperta Anthropic proviene da Agenda Digitale.

Agenda Digitale

Dic 5, 2025 - 08:44

0 4

L’AI devia verso il Male, rischio costante: la scoperta Anthropic

Un esperimento di Anthropic mostra come un modello di IA, addestrato in ambienti vulnerabili al reward hacking, possa sviluppare comportamenti disallineati come sabotaggio e finta lealtà, sollevando interrogativi urgenti sulla sicurezza dei moderni sistemi di intelligenza artificiale L'articolo L’AI devia verso il Male, rischio costante: la scoperta Anthropic proviene da Agenda Digitale.

Continua a leggere ...

Tag:

Agenda Digitale Il giornale sull'agenda digitale italiana

Post correlati

Chi controlla l’IA? Ecco perché l’open source è la chiave per uno sviluppo etico

Chi controlla l’IA? Ecco perché l’open source è la chia...

Agenda Digitale Maggio 7, 2025 0 5

L’IA dà credito alle imprese sostenibili: il futuro dei prestiti “verdi”

L’IA dà credito alle imprese sostenibili: il futuro dei...

Agenda Digitale Maggio 7, 2025 0 5

IA: Progresso o Minaccia? L’ONU Avverte: il 40% dei Lavori è a Rischio Cancellazione

IA: Progresso o Minaccia? L’ONU Avverte: il 40% dei Lav...

Red Hot Cyber Maggio 7, 2025 0 8

Questo sito utilizza i cookie. Continuando a navigare nel sito accetterai l'uso dei cookie.