Det är en taktik där angriparen försöker prata direkt till AI-modellen i syfte att få den att klassificera skadlig kod som ofarlig. I samband med att AI och språkmodeller blir en allt viktigare del av moderna säkerhetslösningar, utvecklas också nya sätt att lura dessa system. Det aktuella exemplet upptäcktes i juni 2025 och tillämpade flera kända metoder för att undvika upptäckas. Den stack dock enligt bolaget ut genom en bit kod som var formulerad som en direkt instruktion till AI-systemet, i hopp om att få det att ignorera skadligt innehåll.
Det lyckades dock inte. Modellen identifierade attackförsöket och flaggade filen korrekt som skadlig. Misslyckade attacker visar dock tydligt vart hotlandskapet är på väg och varför det är avgörande att bygga försvar som kan stå emot manipulation av AI-system.