Red Teaming

« Back to Glossary Index

És un procediment sistemàtic per posar a prova un model d’IA amb l’objectiu de trobar errors, vulnerabilitats o comportaments perillosos. Es diu “vermell” perquè imita el paper d’un “adversari” que intenta enganyar, manipular o explotar la IA.

És com si un equip de persones (el red team) intentés “fer caure” el model:

  • fent-li preguntes difícils o enganyoses
  • provant d’obtenir respostes perilloses
  • forçant-lo a vulnerar normes o ètica.

Exemples de situacions que es proven en un acoblament en vermell:

  • Fer que la IA xanti o amenaci algú (com en l’exemple que menciones).
  • Que doni respostes racistes, sexistes o violentes.
  • Que generi instruccions per crear armes o virus.
  • Que enganyi o manipuli l’usuari.”
« Back to Glossary Index