És un procediment sistemàtic per posar a prova un model d’IA amb l’objectiu de trobar errors, vulnerabilitats o comportaments perillosos. Es diu “vermell” perquè imita el paper d’un “adversari” que intenta enganyar, manipular o explotar la IA.
És com si un equip de persones (el red team) intentés “fer caure” el model:
- fent-li preguntes difícils o enganyoses
- provant d’obtenir respostes perilloses
- forçant-lo a vulnerar normes o ètica.
Exemples de situacions que es proven en un acoblament en vermell:
- Fer que la IA xanti o amenaci algú (com en l’exemple que menciones).
- Que doni respostes racistes, sexistes o violentes.
- Que generi instruccions per crear armes o virus.
- Que enganyi o manipuli l’usuari.”