OpenAI predstavilo nový „confession system“, ktorý má naučiť AI modely priznávať rizikové či neželané správanie počas tréningu. Funguje tak, že modely majú identifikovať a „priznať“ sa k vlastným chybovým reakciám, čo umožní efektívnejšie dolaďovanie bezpečnosti. Cieľom je zlepšiť transparentnosť a minimalizovať generovanie škodlivého obsahu v budúcnosti.