Conseil

Quand les bots lisent plus que les humains : le vrai défi du scraping AI

Les bots RAG (comme ChatGPT-User chez OpenAI ou PerplexityBot) dépassent les bots d’entraînement sur les sites média. Invisibles, incessants, non monétisés : ils obligent les éditeurs à changer de posture.

Le scraping de contenus par des bots d’IA ne se limite plus à l’entraînement des modèles. Désormais, les bots, utilisés pour générer des réponses en temps réel (RAG*), s’intensifie. Moins détectables, plus fréquents et sans retour clair en trafic ou revenus, ils posent un défi stratégique aux éditeurs. Un rapport de TollBit (US) révèle que ces bots sont aujourd’hui deux fois et demie plus actifs que ceux dédiés à l’entraînement.

1. Pourquoi ce sujet est crucial aujourd’hui ?

Les bots RAG grignotent la valeur en temps réel. Entre Q4 2024 et Q1 2025, leur activité a augmenté de 49 %, contre 18 % pour les bots de training. Ces bots servent à alimenter des réponses instantanées sur Perplexity, ChatGPT ou Gemini, sans stocker les contenus. Résultat : les éditeurs perdent visibilité, monétisation et contrôle. « C’est la différence entre vendre ses archives une fois, et alimenter un flux de syndication perpétuel », analyse Josh Jaffe, ancien président média chez Ingenio. Le volume monte, mais les modèles économiques ne suivent pas.

2. Ce qu’on croit savoir

On croit que tous les bots se valent. Faux. Les bots RAG sont continus, furtifs, et opèrent même si les éditeurs les bloquent via robots.txt. « Le plus souvent, ils accèdent aux contenus sans aucune forme de rémunération ou de trafic retour », pointe le Financial Times dans un rapport au Parlement britannique. Et contrairement aux bots d’entraînement, les RAG ne peuvent être ignorés : leur usage est structurel pour les IA génératives. Sans régulation, ces flux deviennent un puits de valeur non exploité.

3. Ce que ça change ailleurs

Les ratios de scraping montrent une perte sèche pour les éditeurs. Selon TollBit, pour chaque visite humaine renvoyée par Bing, il y a 11 scrapes. Pour OpenAI, c’est 179:1. Pour Perplexity, 369:1. Et pour Anthropic, 8692:1. Autrement dit, même quand les IA citent les sources, elles ne renvoient pas d’audience. Le tout pour 0,04 % de trafic externe généré. L’ère du “digital dumping”, selon le Financial Times, est bien entamée : l’information est extraite, synthétisée, diffusée… sans retour.

4. Le vrai enjeu à ne pas rater selon Upgrade Media

Ne pas confondre monétisation des inputs et des outputs. Miser uniquement sur les licences LLM est un piège : les modèles sont déjà formés. La vraie piste : faire payer l’usage en temps réel. TollBit propose déjà des “péages” techniques pour faire payer l’accès au contenu RAG. Mais leur efficacité reste marginale. « Le blocage via robots.txt est de plus en plus contourné », rappelle Olivia Joslin, cofondatrice de TollBit. Et selon Arvid Tchivzhel (Mather Economics), « l’intérêt économique est plus grand sur la monétisation des outputs que sur les inputs ».

5. À faire dès demain

  • Identifier et mesurer précisément le trafic RAG, au-delà des robots connus.
  • Activer des plateformes comme TollBit ou IAB Tech Lab pour poser des garde-fous techniques.

Pour en savoir plus : Here are the biggest misconceptions about AI content scraping (Digiday)

Pour en savoir plus : AI Scraping Is On The Rise. TollBit State of the Bots – Q1 2025 (TollBit State of the Bots report)

* Le terme RAG (Retrieval-Augmented Generation) peut prêter à confusion.
Dans cet article, il désigne les bots d’IA qui consultent en temps réel les sites web pour générer des réponses dans des outils comme ChatGPT ou Perplexity, sans stocker les contenus.
C’est un usage actif, massif, et continu du RAG, déployé en production par les plateformes.
À ne pas confondre avec l’approche RAG en ingénierie IA, qui désigne une architecture technique permettant à un LLM d’aller chercher des informations factuelles dans une base externe pour enrichir ses réponses.


À propos d’Upgrade Media : Upgrade Media est une agence créative, de conseils en stratégie, un centre de formation et de réflexion sur la transformation des médias.

◾️ Nous travaillons pour les médias et les entreprises communicantes, afin d’accélérer leurs transformations numériques, faire évoluer leurs organisations, leurs produits print et numériques, et aussi développer l’agilité des équipes.

◾️ Découvrez Upgrade Media et son Think Tank, à l’origine de l’événement Médias Pionniers, un rendez-vous incontournable pour explorer la transformation des médias par l’innovation, les échanges internationaux et les initiatives concrètes portées par les acteurs du changement.

◾️ Nous espérons que cet article et nos autres contenus vous inspireront !

Restez informé·e de toutes nos actualités en vous inscrivant à notre Newsletter par e-mail ou via Linkedin.

Merci pour votre lecture.


Avatar photo

Auteur

David Sallinen

PDG et fondateur d’Upgrade Media et de New World Encounters. Consultant en stratégies numériques. Référent pédagogique d’Upgrade Media Formation

Bannière de Consentement aux Cookies par Real Cookie Banner