Home Blog LLM sécurité : attaques et défenses

LLM sécurité : attaques et défenses

  Kévin Templé 5 min 6 novembre 2025

Introduction

Les LLM transforment les services web : support client, assistant interne, génération de contenus, mais exposent aussi de nouveaux vecteurs d’attaque. En tant qu’ESN, Webnet accompagne les organisations dans la sécurisation de leurs applications et modèles d’IA.

À la conférence du DevFest Nantes 2025 « La Guerre des Prompts », experts et praticiens ont partagé techniques et outils (Garak, PyRIT, Adversarial Robustness Toolbox) pour tester la robustesse des modèles et déployer des protections concrètes. Cet article synthétise les principaux risques, des exemples concrets et des recommandations opérationnelles.

Principes clés de la LLM sécurité

Le terme LLM sécurité recouvre à la fois la protection des modèles (données d’apprentissage, règles de prompt) et la prévention des usages malveillants. Les LLM « n’ entendent » pas le sens comme un humain : ils suivent des motifs statistiques de texte. C’est cette mécanique qui permet, en cas de manipulation, des comportements indésirables (contournement de filtres, divulgation d’informations, génération de conseils dangereux).

Pourquoi les prompts sont la surface d’attaque

Un prompt mal conçu ou trop permissif devient une porte d’entrée. Les attaquants cherchent à :

  • Insérer des instructions contraires aux consignes du système (prompt injection),
  • Masquer une requête illicite dans une longue histoire ou un encodage (ex. base64),
  • Exploiter des changements de langue ou des métaphores pour déplacer l’attention du modèle.

Techniques d’attaque observées (exemples)

Les retours terrain présentés montrent des méthodes simples mais efficaces :

  • Prompt injection : Placer des instructions utilisateur qui contredisent le prompt du chatbot.
  • Jailbreak par contextualisation : Faire croire au modèle qu’il est dans un exercice ou une histoire pour le faire « oublier » ses limites.
  • Encodage : Cacher l’intention malveillante dans une partie chiffrée ou encodée du prompt.
  • Automatisation : Des outils comme Garak ou PyRIT permettent de générer scénarios et tests en masse pour détecter des régressions quand le modèle est mis à jour.

Aux États-Unis, un utilisateur a pu demander à un assistant commercial (chatbot) une offre irréaliste (acheter un véhicule pour 1€). Le bot était censé pouvoir valider l’achat du véhicule avec un paiement en ligne. La vente n’a pas eu lieu, mais l’incident illustre le risque commercial et légal associé aux réponses non contrôlées.

Outils et méthodologie de test

Pour évaluer la robustesse, on peut utiliser des bibliothèques d’attaque et des playbooks de red teaming :

  • Garak : automation d’attaques avec des prompts.
  • PyRIT : génération de scénarios pour simuler des abus.
  • Adversarial Robustness Toolbox : évaluation de la résilience et des perturbations.

Automatiser les tests est crucial : une mise à jour de modèle peut réintroduire des failles. Les tests doivent être intégrés dans le cycle CI/CD comme des TNR (tests de non-régression).

Sécurisée des prompts

Sécuriser un LLM passe avant tout par la conception réfléchie des prompts et la structuration des règles qu’il doit suivre. Il est essentiel de définir clairement le rôle du modèle et ses limites dès le départ, afin de réduire les risques que des instructions utilisateur malveillantes contournent ses consignes. Les prompts doivent être écrits de manière contraignante et cohérente, en séparant soigneusement les données sensibles et les instructions libres, et en filtrant ou normalisant l’entrée utilisateur pour détecter d’éventuelles tentatives de manipulation, qu’il s’agisse d’encodages complexes, de changements de langue ou d’instructions déguisées.

Surveillance et contrôle des modèles

Côté infrastructure et exploitation, le suivi et le contrôle restent indispensables. Il convient d’implémenter un filtrage proactif et des systèmes de détection d’anomalies, avec des logs détaillés et un score de risque pour chaque prompt. Cette démarche s’inscrit dans notre expertise en sécurité IA , afin d’assurer un usage responsable et fiable des technologies LLM. L’automatisation des tests à l’aide d’outils comme Garak ou PyRIT permet de simuler des attaques et de vérifier la résilience du modèle, notamment après chaque mise à jour, qui peut réintroduire de nouvelles vulnérabilités.

Conclusion

Sécuriser un LLM repose sur trois axes complémentaires. Il faut d’abord concevoir des prompts clairs et contraignants, capables de résister aux tentatives de manipulation. Ensuite, la surveillance et l’automatisation des tests permettent de détecter et corriger les failles, notamment après chaque mise à jour. Enfin un budget risque ainsi que la gouvernance humaine, la formation des équipes et la collaboration entre développeurs, chercheurs et chefs de projet garantissent un usage responsable et sécurisé des modèles. Ensemble, ces mesures réduisent les risques tout en maintenant la puissance et la flexibilité des LLM pour les usages métiers.

Pour discuter de votre projet ou de vos besoins, vous pouvez  contacter Webnet. Ensemble, ces mesures réduisent les risques tout en maintenant la puissance et la flexibilité des LLM pour les usages métiers.

Pour tenter de jailbreak une IA dans un environnement contrôlé pour s’amuser : rendez‑vous sur gandalf.lakera.ai.

Lire les articles similaires

Laisser un commentaire

Social Share Buttons and Icons powered by Ultimatelysocial