Comment les hackers contournent la sécurité des modèles de langage

L’attaque "Deceptive Delight".

oct. 23, 2024

∙ abonné payant

A Primer on LLM Security – Hacking Large Language Models for Beginners

Des chercheurs en cybersécurité ont récemment découvert une nouvelle méthode d’attaque capable de contourner les protections des modèles de langage de grande taille (LLMs) lors d’une conversation interactive. Cette technique, connue sous le nom de “Deceptive Delight”, consiste à insérer une instruction indésirable entre des requêtes bénignes, trompant ainsi le modèle pour qu’il génère des contenus inappropriés ou dangereux.

Continuez votre lecture avec un essai gratuit de 7 jours

Abonnez-vous à ActuTech pour continuer à lire ce post et obtenir 7 jours d'accès gratuit aux archives complètes des posts.