Note à lire avant l’article : les différents éléments que vous allez lire ne sont pas écrits dans l’article pour en faire la promotion, mais pour alerter sur les dangers de l’utilisation débridée ou malveillante des systèmes d’IA. Par ailleurs, les systèmes d’IA travaillent en permanence à limiter voire empêcher ces utilisations hors cadre. Toutefois, à chaque nouvelle protection des systèmes de nouvelles techniques apparaissent. Il faut donc être conscient des risques pour utiliser ces outils de manière raisonnée.
Les modèles d’IA générative (tels que ChatGPT, Claude, Bard, etc.) intègrent des garde-fous visant à empêcher la production de contenus malveillants ou inappropriés. Cependant, un véritable jeu du chat et de la souris s’est engagé entre les concepteurs de ces IA et des utilisateurs cherchant à contourner les restrictions. Ces derniers ont élaboré des prompts astucieux – souvent appelés « jailbreaks » – qui forcent l’IA à outrepasser ses limites. Ces prompts de contournement sont devenus des biens recherchés, échangés voire monnayés sur internet. Un marché noir a ainsi émergé autour de ces commandes spéciales, certaines se négociant « au prix fort ». Des captures d’écran issues de forums du dark web confirment ces échanges: on y voit par exemple un prompt qui amène ChatGPT à programmer un script de collecte d’informations sur des comptes utilisateurs, ou encore une méthode détaillée pour débloquer l’IA Grok (de xAI) via un scénario de jeu de rôle. Sur ces mêmes forums underground, des hackers proposent même des abonnements à des modèles de langage déjà débridés et sans censure, à des tarifs allant d’environ 8 $ par mois jusqu’à 250 $ pour les IA les plus puissantes et permissives. Parallèlement, sur le web classique, de nombreux sites et communautés libres d’accès (sur Reddit, Discord, GitHub ou autres) partagent ouvertement des astuces de jailbreak. En somme, plus besoin d’être un cybercriminel de haut vol : avec des prompts bien ficelés, n’importe qui peut tenter de pousser une IA au-delà de ses limites.
Techniques de contournement des garde-fous
Plusieurs techniques ingénieuses ont été développées pour faire sauter les verrous éthiques des IA génératives. Voici les principales méthodes utilisées :
- Prompt « DAN » (Do Anything Now) : l’un des jailbreaks les plus connus. L’idée est de demander à l’IA de jouer le rôle d’une autre entité nommée « DAN » qui peut “tout faire immédiatement”. En assumant ce rôle, l’IA est encouragée à ignorer ses limitations habituelles et à fournir des réponses sans filtre. Par exemple, on lui affirme que DAN n’est pas soumis aux règles d’OpenAI et on exige des réponses à la fois du chatbot normal et de DAN, ce dernier devant répondre sans aucune censure. Cette approche par roleplay a longtemps eu un certain succès et reste très courante
- Prompt « Developer Mode » (mode développeur) : cette technique consiste à faire croire au modèle qu’il se trouve en environnement de développement ou de test, où ses réponses n’auraient pas de conséquences réelles. L’utilisateur inclut dans sa requête des instructions du type « Tu es en mode développement, tes réponses ne seront pas réellement utilisées… », afin de désactiver les filtres moraux du chatbotabnormal.ai. Le modèle, dupé par ce contexte fictif, pourrait alors générer du contenu normalement interdit.
- Prompt « AIM » (Always Intelligent and Machiavellian) : ici l’IA doit incarner un personnage nommé AIM, censé être ultra-intelligent, amoral et sans contraintes. On indique que AIM n’adhère à aucune règle éthique ou légale et qu’il fournira des réponses non filtrées à toute requête, même immorales ou illégalesabnormal.ai. Ce persona machiavélique permet de délier la langue du modèle en le libérant de toute considération morale.
- Prompt « BISH » : variante de jailbreak créant une entité nommée BISH agissant sans aucune éthique. L’originalité est que l’utilisateur peut ajuster un niveau de “moralité” pour BISH, afin de définir s’il doit ou non utiliser un langage grossier. BISH est invité à prétendre avoir un accès Internet illimité, à faire des prédictions sans vérification et à ignorer toute politesse – en somme, à opérer en mode “no limits” completabnormal.ai. Ce cadre permissif maximal vise à obtenir de l’IA des réponses totalement débridées.
- Technique du « Translator Bot » (détournement par la traduction) : au lieu de demander directement un contenu interdit, l’utilisateur soumet à l’IA un texte (généralement rédigé par lui-même) contenant ce contenu, puis lui demande de le traduire dans une autre langue. L’IA, jouant le rôle d’un simple traducteur, peut alors restituer fidèlement le texte illicite dans la langue cible, contournant ses filtres sous prétexte de traduction. Cette méthode exploite le fait qu’un bon traducteur ne doit pas altérer le sens d’un texte, même choquant, et elle trompe ainsi la vigilance du modèle.
- Injection de prompt caché : il est possible d’incorporer des instructions dissimulées dans un contenu que l’IA va analyser, par exemple un fichier PDF ou du code. Par exemple, un fichier soumis à l’IA peut contenir un prompt invisible à l’utilisateur normal (commentaires, texte masqué) qui ordonne à l’IA de s’auto-déréguler ou d’accorder des privilèges élevés à l’utilisateur. Si le chatbot obéit au contenu du fichier, il pourrait alors ouvrir grand les vannes et fournir des informations normalement protégées ou réaliser des actions interdites. Cette technique d’injection indirecte est particulièrement insidieuse, car elle passe par un support de données externe pour duper l’IA.
Ces méthodes ne garantissent pas toujours le succès – les fournisseurs d’IA améliorent sans cesse leurs modèles pour détecter et bloquer les jailbreaks connus. Par exemple, OpenAI affirme avoir entraîné GPT-4.5 à suivre une hiérarchie stricte d’instructions afin de résister aux attaques de contournement les plus répandues, ce qui lui permettrait de bloquer 97 % des tentatives. Néanmoins, quelques cas de contournement réussis subsistent. De nouvelles variantes de prompts apparaissent régulièrement, obligeant les modèles à des mises à jour fréquentes. Le phénomène touche toutes les IA génératives grand public : ChatGPT et GPT-4 bien sûr, mais aussi Anthropic Claude, Google Gemini, xAI Grok, etc., aucune n’est épargnée par ces tentatives de débridage.
Plateformes d’échange et de vente de prompts
Les jailbreaks et autres prompts malveillants circulent sur une multitude de plateformes, allant des forums clandestins aux réseaux sociaux grand public :
- Forums du dark web et cybercriminels : C’est sur ces forums underground que s’organisent les échanges les plus sophistiqués. Des sections entières y sont dédiées à l’ « IA noire » (Dark AI), où des membres partagent astuces, prompts et retours d’expérience sur l’utilisation d’IA à des fins illicites. Ces communautés rassemblent parfois des milliers de participants autour du détournement des IA. L’Express rapporte ainsi des forums où des utilisateurs échangent preuves à l’appui des instructions permettant de générer du contenu pornographique pourtant bloqué par les IA. Sur d’autres fils de discussion, on retrouve des témoignages de hackers se conseillant mutuellement pour affiner des prompts capables de produire du code malveillant ou d’exfiltrer des données. Il existe même des vendeurs « vérifiés » sur ces places de marché clandestines qui proposent des services d’IA sur mesure. Par exemple, l’outil FraudGPT (détaillé plus loin) a été promu par un utilisateur se présentant comme vendeur de confiance sur plusieurs marketplaces du dark web (Empire, AlphaBay, etc.).
- Messageries chiffrées (Telegram) : Face aux suppressions de contenus sur les forums connus, certains se rabattent sur Telegram pour diffuser leurs prompts ou vendre l’accès à des IA débridées. Après la fermeture de threads publics, le créateur de FraudGPT a par exemple continué la promotion via une chaîne Telegram, plus difficile à censurer. De même, l’auteur de WormGPT disposait d’une chaîne Telegram qui a atteint 5 000 abonnés en quelques jours après le lancement de l’outil socradar.io. Ces canaux privés permettent de toucher rapidement une large audience intéressée, tout en échappant partiellement à l’attention des autorités ou modérateurs.
- Communautés grand public (Reddit, Discord) : Sur Reddit, des sous-forums tels que r/ChatGPTJailbreak ou r/PromptHacking sont apparus, où les utilisateurs partagent librement les derniers jailbreaks fonctionnels et se tiennent informés des prompts « à la mode ». On y trouve par exemple des versions évolutives de DAN (DAN 5, DAN 12, DAN 15…) adaptées aux mises à jour de ChatGPT(reddit.com). Discord héberge également des serveurs de passionnés échangeant en temps réel des astuces de contournement. Bien que ces échanges ne soient pas nécessairement orientés vers la cybercriminalité, ils alimentent la diffusion rapide des techniques qui pourront être exploitées à mauvais escient.
- Dépôts de code et sites collaboratifs (GitHub, HuggingFace) : Des utilisateurs ont automatisé certains jailbreaks en créant des scripts ou bots disponibles sur GitHub. Par exemple, on trouve des gists contenant le texte exact de prompts DAN ou Developer Mode prêts à l’emploi (github.com). Sur HuggingFace, des projets communautaires permettent de reformuler automatiquement une requête interdite pour la rendre acceptable par l’IA – typiquement, transformer « image de femme nue » en une instruction équivalente qui n’est pas bloquée par le filtre, afin de générer effectivement l’image souhaitée. Ces outils en libre accès rendent le jailbreak presque trivial pour un utilisateur lambda.
Les prompts de contournement se propagent à la fois au grand jour sur le web accessible (forums publics, code partagé) et sous le manteau dans les cercles fermés de la cybercriminalité. La différence majeure tient à la finalité : sur Reddit ou GitHub, il s’agit souvent de défi technique ou de curiosité, tandis que sur les forums noirs, ces prompts sont un moyen au service d’activités criminelles lucratives. Dans ces milieux, on voit même se développer une offre commerciale de « LLM-as-a-service » illégaux, avec abonnements à des modèles déjà jailbreakés – véritable industrialisation du phénomène.
Modèles d’IA alternatifs (WormGPT, FraudGPT, etc.)
Plutôt que de dépendre de jailbreaks incertains sur ChatGPT, certains acteurs malveillants ont développé des IA alternatives non bridées dès l’origine. L’année 2023 a vu émerger plusieurs de ces chatbots clandestins, conçus spécifiquement pour servir le cybercrime :
- WormGPT : Introduit sur un forum de hackers fin juin 2023, WormGPT s’est présenté comme l’« alter ego maléfique » de ChatGPT(abnormalsecurity.com). Son développeur a bâti ce ChatBot à partir d’un modèle open source (GPT-J, un LLM de 2021) qu’il a réentraîné sur des données liées à la création de malwares (pcmag.com). Le résultat est un modèle capable de produire du code malveillant (ex. virus, ransomware), de donner des conseils pour mener des attaques, et de rédiger des e-mails d’hameçonnage extrêmement convaincants. WormGPT se vante de n’avoir « aucune limite éthique » – « comme ChatGPT mais sans les garde-fous » selon sa publicité sur les forums (darkreading.com). SlashNext, une entreprise de sécurité l’ayant testé, a confirmé que WormGPT pouvait générer un courriel de compromission (attaque BEC) « remarquablement persuasif et stratégiquement astucieux », sans aucune faute qui trahirait un phishing. En clair, même un criminel débutant peut produire des arnaques élaborées grâce à cet outil. L’accès à WormGPT était vendu 60 € par mois (ou 550 € à l’année) sur le forum hacker d’origine. Malgré le prix relativement élevé, l’offre a attiré de nombreux clients – signe de la demande – jusqu’à ce que le développeur annonce la fermeture des ventes courant août 2023, sans doute échaudé par l’attention médiatique et la peur des poursuites. WormGPT aura marqué les esprits comme le premier chatbot « blackhat » grand public, même si sa performance réelle restait inférieure aux modèles commerciaux de pointe (certains utilisateurs ont critiqué des réponses limitées ou erronées).
- FraudGPT : À peine WormGPT s’est-il éclipsé qu’un autre outil, FraudGPT, a pris le relais à partir de juillet 2023. Promu par un certain CanadianKingpin12 sur divers forums, FraudGPT reprenait le même concept : une IA sans censure dédiée aux activités criminelles. Ses fonctionnalités annoncées incluaient la génération d’e-mails de phishing, de code malveillant, et même la fourniture de tutoriels de hacking pour guider les apprentis pirates. De nombreux observateurs ont suspecté qu’il s’agissait du même développeur que WormGPT, recyclant son modèle sous un nouveau nom. Les ventes de FraudGPT ont toutefois rencontré des obstacles sur les forums mainstream du cybercrime, les administrateurs supprimant régulièrement ses annonces pour non-respect des règles. Le créateur a alors reporté son offre sur Telegram, un média plus souple. FraudGPT était présenté comme amélioré par rapport à WormGPT, avec des projets d’évolution nommés DarkBERT ou DarkBART intégrant la navigation web en direct et l’analyse d’images (via Google Lens). Ces promesses laissaient entrevoir des IA criminelles de nouvelle génération, capables de rechercher des informations en ligne ou de traiter des captures d’écran pour mieux arnaquer les victimes. Néanmoins, d’ici fin 2023, FraudGPT a perdu en visibilité et ses canaux de vente se sont raréfiés, suggérant un déclin de sa disponibilité (abnormalsecurity.com). Il est possible que la crainte d’être identifié ou la concurrence d’autres solutions ait poussé son auteur à se faire plus discret.
- Variants et imitations : Le succès de WormGPT a engendré une prolifération de services similaires aux noms accrocheurs – EscapeGPT, EvilGPT, DarkGPT, WolfGPT, etc. Cependant, beaucoup de ces prétendus nouveaux outils se sont révélés être des attrapes-nigauds. Sur les forums, des utilisateurs trompés ont rapporté que certaines IA vendues étaient en réalité de simples instances de ChatGPT jailbreakées de façon basique, camouflées derrière une interface différente. Un signe révélateur était que lorsqu’on leur demandait des actions illégales, elles répondaient parfois « Je ne peux pas faire cela », trahissant les limitations éthiques intégrées de ChatGPT non complètement supprimées. En somme, des escrocs ont tenté de surfer sur la vague en vendant à prix d’or de faux « ChatGPT underground », alors qu’il ne s’agissait que de wrappers utilisant l’API officielle de manière détournée. Cette vague d’imitations a semé la méfiance parmi les cybercriminels, beaucoup réalisant que ces outils n’apportaient rien de neuf et visaient surtout à leur soutirer de l’argent. Conséquence intéressante, face à ces déconvenues, nombre de pirates en sont revenus à la solution DIY : utiliser les grands chatbots légitimes (ChatGPT, Claude…) et partager entre eux des prompts de jailbreak pour en tirer le maximum. Ainsi, la communauté s’est recentrée sur l’échange de méthodes artisanales plutôt que de dépendre d’un fournisseur tiers d’IA malveillante, du moins en attendant l’arrivée d’un outil clandestin plus fiable.
Indépendamment de ces quelques exemples, nous le voyons bien, les IA sans garde-fous vendues sur le marché noir constituent une menace émergente. Elles offrent aux criminels un accès clé-en-main à des capacités autrefois réservées aux modèles officiels, avec la promesse de n’être « bridés par aucune règle » (darkreading.com). Même si toutes ne tiennent pas leurs promesses, les plus abouties (WormGPT, FraudGPT) ont démontré qu’elles pouvaient accélérer et amplifier les campagnes malveillantes. Surtout, elles abaissent la barrière à l’entrée : un acteur malintentionné sans expertise particulière peut, moyennant finance, disposer d’un « assistant » intelligent pour l’aider à frauder ou attaquer des systèmes (pcmag.comesecurityplanet.com). Cela représente un changement d’échelle potentiellement préoccupant pour la sécurité informatique globale.
Usages malveillants permis par ces détournements
Les prompts de jailbreak et les IA débridées ouvrent la porte à de nombreux usages détournés et illégaux. Voici les principaux domaines où ces outils sont exploités :
- Création de malwares et outils de hacking : L’un des cas d’utilisation les plus directs est la génération de code malveillant. En temps normal, ChatGPT et consorts refusent de fournir des virus, chevaux de Troie ou scripts d’exploitation. Mais avec les bons prompts, les criminels peuvent obtenir du code fonctionnel. Par exemple, WormGPT a montré qu’il pouvait produire du malware en Python sur simple demande. De même, un jailbreak sur ChatGPT a permis de générer un script récupérant automatiquement des informations de comptes utilisateurs sur certains sites. Au-delà du code, ces IA peuvent expliquer comment l’utiliser ou le modifier, servant de tuteur en cybercriminalité. Des forums rapportent ainsi que FraudGPT était capable de fournir de vrais tutoriels de hacking, guidant étape par étape l’attaquant novice. Enfin, certains imaginent utiliser une IA avancée pour découvrir des vulnérabilités inédites (zero-day) de manière automatisée. Un scénario extrême serait un ver informatique piloté par IA qui testerait des milliers d’exploits en quelques secondes pour trouver un point d’entrée (esecurityplanet.com). Si un tel outil voyait le jour, il pourrait rechercher en continu de nouvelles failles plus vite que les correctifs ne sont appliqués, ce qui représenterait une menace sans précédent pour les systèmes non à jour.
- Fraude, hameçonnage et usurpation : Les IA débloquées excellent dans la production de contenus textuels persuasifs, ce qui est idéal pour le phishing et l’escroquerie en ligne. Avant l’IA, beaucoup de courriels frauduleux étaient décelables à leurs fautes d’orthographe ou tournures maladroites. Désormais, un outil comme WormGPT peut composer un mail « d’une langue professionnelle, sans aucune faute » pour inciter une victime à virer de l’argent sur un compte fraudeur. Ce niveau de qualité linguistique et de ruse dans le propos – mentionné comme « stratégiquement astucieux » par les chercheurs – augmente l’efficacité des attaques de compromission de courriel d’entreprise (attaques BEC). De plus, les IA peuvent personnaliser le message à grande échelle : en fournissant quelques détails sur la cible (nom, poste, entreprise), le chatbot génère un texte adapté, rendant les tentatives de spear-phishing (hameçonnage ciblé) encore plus crédibles. Au-delà des emails, on a vu des IA aider à créer de faux profils convaincants, des scripts d’appel téléphonique pour usurper une identité, voire des documents complets (factures, convocations) imitant le style d’organismes officiels. Toute la panoplie de la fraude en ligne peut être automatisée et améliorée via ces modèles. Certains acteurs ont même suggéré d’utiliser ChatGPT sans jailbreak pour peaufiner des arnaques : par exemple, rédiger un mail d’arnaque dans sa langue maternelle, le traduire en anglais impeccable via ChatGPT, puis l’utiliser – une combine exploitant l’IA légalement pour produire un contenu trompeur de haute qualité. En résumé, le risque d’arnaques explose en volume et en crédibilité.
- Contenus illégaux ou interdits : Les garde-fous des IA empêchent en principe la génération de contenus violents, haineux, sexuellement explicites, ou liés à des activités illégales (drogue, terrorisme…). Les prompts de contournement permettent de faire sauter ces verrous. Un vaste marché du jailbreak pornographique s’est développé pour obtenir des images ou textes à caractère sexuel explicite Sur des forums dédiés, les utilisateurs s’échangent des méthodes pour pousser les générateurs d’images à produire du porno réaliste, parfois en mettant en scène des personnalités connues – ce qui soulève des enjeux de consentement et de droit à l’image. Des services annexes ont même vu le jour pour aider à reformuler automatiquement des demandes NSFW bloquées, par exemple en modifiant le vocabulaire du prompt jusqu’à ce qu’il passe les filtres. Outre la pornographie, des IA jailbreakées peuvent rédiger des discours de haine ou de propagande extrémiste que les modèles refuseraient normalement. Elles peuvent aussi donner des instructions criminelles détaillées : comment fabriquer une arme artisanale, concocter un explosif, forcer une serrure, etc. De tels usages ont été signalés, rappelant la polémique autour d’autres technologies (par exemple l’impression 3D pour des armes). Enfin, ces IA sans limites pourraient faciliter la production de désinformation à grande échelle – imaginer un bot qui rédige des centaines d’articles complotistes ou de fausses actualités ajustées à différents publics. Ce type de contenu toxique, généré massivement et sans scrupules, représente un défi pour la société. Les modèles officiels essayent de le bloquer, mais leurs clones pirates n’auront aucun état d’âme à le faire.
Tous les domaines illégaux profitent potentiellement de ces détournements d’IA. Du piratage informatique traditionnel à la fraude financière, en passant par les contenus illicites (pédopornographie, terrorisme, drogue…), chaque activité malveillante trouve un allié artificiel prêt à l’assister. La majorité des usages observés concernent pour l’instant la cybercriminalité « classique » (malware, phishing) et la création de contenu interdit (pornographie, violence), car ce sont les plus directement monétisables. Et même si les modèles jailbreakés ne sont pas parfaits, ils abaissent considérablement le niveau technique requis pour mener ces actions, ce qui risque d’augmenter le nombre de passages à l’acte.
Implications pour la cybersécurité des entreprises (PME/ETI)
L’essor des prompts malveillants et des IA non restreintes a des conséquences importantes pour la sécurité des entreprises, y compris les PME et ETI qui peuvent s’estimer à tort à l’abri. Voici les principales menaces à considérer :
- Phishing automatisé et ultra-ciblé : Les entreprises vont faire face à des campagnes de phishing plus nombreuses, crédibles et personnalisées. Un attaquant disposant d’outils comme WormGPT/FraudGPT peut générer en quelques clics des dizaines de variantes d’un mail frauduleux, chacune adaptée à son destinataire (prénom, poste, références internes…). Le contenu soigné (ton professionnel, zéro faute) réduit les signaux d’alerte pour le lecteur. Même les employés sensibilisés au phishing pourraient se laisser surprendre par des messages semblent provenir de leur direction ou d’un partenaire de confiance. En outre, la scale change : là où un escroc humain enverrait 100 mails génériques, une IA peut concocter 100 messages tous différents et convaincants, contournant les filtres anti-spam basés sur des modèles connus. Les TPE/PME sont particulièrement vulnérables car elles disposent rarement de systèmes anti-phishing sophistiqués et leur personnel n’est pas toujours formé aux toutes dernières ruses. On peut s’attendre à une hausse des compromissions de comptes email d’entreprise et des fraudes au président (détournement de paiements) alimentées par ces outils d’IA, comme l’indique déjà la hausse du BEC signalée en 2023.
- Exfiltration de données et fuites d’informations : Les IA malveillantes peuvent aider à voler des données sensibles aux entreprises de plusieurs façons. D’une part, via un social engineering amélioré : par exemple, un chatbot peut guider un attaquant pas à pas pour monter un scénario convaincant et amener un employé à divulguer ses identifiants ou à installer un malware donnant accès au réseau interne. D’autre part, par des attaques techniques : un prompt injection astucieux pourrait cibler un outil d’IA déployé par l’entreprise elle-même (p.ex. un assistant client ou un agent automatisé connecté à une base de données) et l’inciter à cracher des informations confidentielles. Si une organisation intègre un plugin ChatGPT relié à son SI, un utilisateur malveillant pourrait tenter d’y injecter des commandes pour aspirer des données non publiques. Par ailleurs, il ne faut pas sous-estimer le risque interne : l’engouement pour ChatGPT a conduit certains employés à y coller du code ou des documents confidentiels afin d’obtenir de l’aide (relecture, débogage…). Des cas retentissants, comme chez Samsung où des ingénieurs ont involontairement divulgué du code source et des comptes-rendus internes dans ChatGPT (darkreading.com), montrent que ces fuites sont bien réelles. Or, toute donnée soumise à une IA publique peut potentiellement être stockée et réutilisée (sauf garanties explicites du fournisseur). Une information sensible ainsi perdue dans le cloud pourrait être retrouvée plus tard par des tiers malintentionnés utilisant à leur tour des prompts spécifiques pour fouiller dans la mémoire du modèle. Pour les PME/ETI, une fuite de données (clients, brevets, comptes) peut être fatale. La facilité d’accès aux IA rend ce risque d’exfiltration omniprésent, que ce soit par attaque externe ou par négligence interne.
- Exploitation des plugins et systèmes connectés : À mesure que les IA s’intègrent dans les workflows professionnels (plugins ChatGPT pour se connecter à des services web, assistants codant directement sur les dépôts Git, etc.), de nouvelles vulnérabilités apparaissent. Un plugin est en quelque sorte une porte d’entrée que l’IA peut utiliser pour agir sur le monde réel (envoyer un email, exécuter du code, récupérer un fichier…). Si un adversaire réussit à manipuler le prompt de l’IA (via une injection par un texte/pièce jointe piégée, ou une commande vocale mal interceptée), il pourrait lui faire réaliser des actions malicieuses via le plugin. Par exemple, forcer un agent connecté à internet à télécharger un malware sur le réseau interne, ou convaincre un plugin d’accès aux fichiers de partager des documents sensibles. Ce genre d’attaque par rebond via l’IA est encore émergent, mais des démonstrations ont prouvé qu’un fichier anodin envoyé à un collaborateur peut contenir des instructions cachées qui, une fois le texte copié dans ChatGPT, lui feront envoyer des données vers l’attaquant. Les entreprises doivent donc envisager le scénario où leurs propres déploiements d’IA deviennent la cible : un chatbot d’entreprise piraté pourrait servir de cheval de Troie pour pénétrer le SI ou saboter des opérations. Les PME/ETI adoptant ces technologies sans mesures compensatoires pourraient offrir une surface d’attaque inédite aux cybercriminels.
L’arsenal offensif des attaquants s’est donc enrichi grâce aux IA génératives détournées. Les entreprises de toutes tailles risquent de subir :
1) plus d’attaques de phishing et d’ingénierie sociale difficiles à détecter,
2) des vols de données facilités par la ruse ou la fuite accidentelle, et
3) de nouvelles attaques s’appuyant sur les IA elles-mêmes comme vecteur.
Les PME et ETI, souvent moins protégées, sont particulièrement exposées. Il est notable que malgré les progrès des IA défensives, les outils actuels n’offrent pas encore de garantie absolue contre ces menaces naissantes. La situation pousse de plus en plus d’experts à recommander une approche proactive et multicouches pour se protéger, comme nous allons le voir dans le prochain paragraphe.
Recommandations de cybersécurité pour les PME/ETI
Face à ces nouveaux risques liés aux prompts malveillants et aux IA non filtrées, les PME et ETI doivent adapter leur stratégie de cybersécurité. Voici quelques mesures concrètes recommandées autour de trois idées : SAVOIR, COMPRENDRE et AGIR.
- Élaborer des politiques internes encadrant l’usage des IA : Il est indispensable de définir des règles claires sur ce que les employés peuvent ou ne peuvent pas faire avec des outils type ChatGPT. (Voir à ce sujet l’article sur l’anomie de l’IA et la nécessité de co-créer une charte de l’IA https://www.digitalmate.fr/anomie-et-intelligence-artificielle-pourquoi-les-entreprises-doivent-se-doter-dune-charte-ia/) Par exemple, interdire de copier-coller des données sensibles (code source, informations clients, documents stratégiques) dans un service d’IA public sans approbation. Sensibilisez le personnel sur le fait que toute donnée partagée avec un chatbot externe peut potentiellement être conservée et exposée. Des politiques formelles, accompagnées de sensibilisation, permettront de contrôler les sorties de données de l’entreprise. De même, encadrez les entrées : si vous déployez un agent conversationnel côté client, prévoyez des mécanismes de modération des questions pour éviter les prompt injections. En un mot, traitez l’IA comme un tiers de confiance : ne lui confiez rien de critique sans garanties, et surveillez ce qui lui est soumis.
- Former les équipes et renforcer la vigilance : La formation est la première défense, notamment pour les PME qui n’ont pas de service sécurité dédié. Mettez à jour vos programmes de formation au phishing pour informer les employés que désormais les emails frauduleux peuvent être parfaitement rédigés et personnalisés. Apprenez-leur à repérer d’autres signes (demande urgente d’argent, changement inattendu de RIB, ton inhabituel…) plutôt que de se fier aux seules erreurs de langage. En interne, formez aussi vos développeurs et analystes à la sécurité de l’IA : par exemple, comment détecter qu’un texte d’utilisateur pourrait contenir une injection malveillante, ou comment tester la robustesse de votre propre chatbot. Cette montée en compétence générale aidera à créer une culture de prudence face à ces nouveaux outils. N’hésitez pas à faire des exercices concrets (emails simulés générés par IA, etc.) pour entraîner les réflexes. 97 % des professionnels de la sécurité estiment que les méthodes traditionnelles sont insuffisantes contre les menaces générées par IA(abnormal.ai), il faut donc élever le niveau de jeu du côté défense humaine également.
- Renforcer l’authentification et l’autorisation : Puisque les attaques par IA facilitent le vol d’identifiants et l’usurpation, il est crucial de sécuriser les accès. Déployez l’authentification multifacteur sur tous les comptes sensibles (messagerie, VPN, outils internes) afin qu’un mot de passe compromis ne suffise pas. Mettez en place des alertes en cas de connexion inhabituelle. Au sein de l’entreprise, auditez les accès aux données critiques : qui a accès à quoi ? Limitez le principe du moindre privilège pour minimiser l’impact si un compte est compromis via hameçonnage. Sur les outils d’IA internes, contrôlez quels employés peuvent les utiliser et avec quels privilèges (ex. seul le service client utilise le chatbot X, sans accès aux données RH, etc.). Un suivi des logs d’utilisation des IA peut aussi aider à détecter un comportement anormal (un employé qui soudain envoie de gros volumes de texte à ChatGPT, par exemple). En restreignant et surveillant les accès, vous réduisez la surface exploitable par ces attaques très ciblées.
- Filtrage et protections techniques locales : Dotez-vous d’outils de sécurité capables de contrer ces nouvelles menaces au plus près de vos systèmes. Par exemple, mettez à jour vos filtres anti-spam et anti-virus pour qu’ils intègrent des détections de contenu AI-généré suspect (certaines solutions commencent à proposer cette capacité basée sur l’IA elle-même). Utilisez des passerelles mail et web qui bloquent les URLs malicieuses et les pièces jointes dangereuses – cela reste efficace contre beaucoup d’attaques automatisées. Configurez des règles (via un proxy ou firewall) pour bloquer l’accès depuis le réseau de l’entreprise aux services d’IA non autorisés ou connus pour être louches (par exemple, empêcher les connexions au domaine d’un WormGPT-like). En interne, si vous utilisez un modèle open source hébergé localement, activez des filtres de contenu sur ses entrées et sorties pour éviter les dérives (des projets open source de “garde-fous” existent). En complément, envisagez des solutions de Data Loss Prevention (DLP) pour détecter toute fuite de données confidentielles, qu’elle soit due à un employé imprudent ou à un malware. Ces outils peuvent repérer des envois anormaux de données vers l’extérieur et les bloquer. Enfin, tenez vos systèmes à jour et segmentez votre réseau : face à la menace de vers pilotés par IA cherchant des failles, mieux vaut colmater les brèches connues et cloisonner les accès pour endiguer une éventuelle propagation.
- Recourir à l’IA défensive : Pour contrer une menace dopée à l’IA, il peut être judicieux d’armer également vos défenses avec de l’intelligence artificielle. Des outils de cybersécurité next-gen utilisent le Machine Learning pour détecter des comportements anormaux, scorer le langage d’un email et identifier un éventuel courriel frauduleux sophistiqué, ou analyser en temps réel les requêtes à un chatbot pour repérer une tentative de jailbreak. Bien que ce marché soit naissant, de nombreux experts s’accordent à dire que « si vous n’avez pas d’IA pour détecter et bloquer ces menaces, vous serez aveugle ». Les PME peuvent se tourner vers des solutions accessibles (par exemple des services de filtrage des emails basés sur l’IA, proposés en SaaS) ou mutualiser via un MSSP. L’IA défensive ne remplace pas les mesures précédentes, mais elle apporte une couche supplémentaire de détection/réaction face à des attaques inédites. Par exemple, un système d’IA pourrait détecter qu’un message demande un virement inhabituel et alerter, là où un employé pourrait tomber dans le piège du texte bien tourné. De même, en surveillant le trafic réseau, une IA peut noter qu’un volume massif de données est envoyé vers un serveur hors norme (éventuellement un signe d’exfiltration automatisée) et déclencher un blocage.
En appliquant ces recommandations, les PME et ETI peuvent significativement réduire les risques liés au marché noir des prompts IA et à l’essor des IA « blackhat ». L’objectif est de combiner éducation, politiques et technologies pour contrer une menace protéiforme. Aucune mesure unique n’est suffisante : il faut à la fois empêcher les fuites de données internes (par négligence ou malice), entraver les attaques externes rendues plus crédibles par l’IA, et anticiper les vecteurs émergents (comme l’exploitation des plugins). Enfin, rester informé des évolutions de ces outils est crucial : le paysage des jailbreaks et des IA underground évolue vite, et avec lui les techniques d’attaque. La veille cybersécurité doit désormais intégrer cette dimension IA afin que les défenseurs ne gardent pas un train de retard. Avec une posture adaptée, il est possible de tirer parti des avantages de l’IA en entreprise tout en se prémunissant contre son côté obscur.
Sources : L’Express, Abnormal Security, DarkReading, SlashNext (via eSecurity Planet, PCMag), etc..