Intégrer l'IA dans une PME à Toulouse sans donner ses données à OpenAI : le cas du RAG privé | ChappyGo
Retour aux articles

Intégrer l'IA dans une PME à Toulouse sans donner ses données à OpenAI : le cas du RAG privé

Intégrer l'IA dans une PME à Toulouse sans donner ses données à OpenAI : le cas du RAG privé

Une PME qui veut faire travailler ChatGPT sur ses contrats, ses fiches clients ou ses procédures internes a deux options : copier-coller le contenu dans une fenêtre de chat publique (ce qui transmet la donnée à OpenAI), ou construire une architecture qui héberge la base de connaissance localement et n'expose au modèle que des extraits choisis pendant le temps d'une requête. La seconde option s'appelle un RAG privé — Retrieval-Augmented Generation — et c'est ce qui transforme l'IA générative d'outil grand public en système d'entreprise utilisable sans céder la propriété intellectuelle ni exposer la conformité RGPD.

Pour une PME de Toulouse ou d'Occitanie qui traite des données sensibles (contrats, données clients, dossiers santé, propriété intellectuelle métier), le RAG privé est l'architecture de référence depuis 2024. Mais c'est aussi un projet plus exigeant techniquement qu'un simple "branchement à ChatGPT". Cet article explique pourquoi, comment, à quel coût, et dans quels cas ça vaut la peine.

Pourquoi le ChatGPT public ne convient pas à toutes les PME

ChatGPT et ses équivalents (Claude, Gemini, Mistral) sont des outils puissants mais leur usage avec des données d'entreprise pose deux questions différentes.

La transmission des données aux serveurs de l'éditeur. Quand vous tapez le contenu d'un contrat dans ChatGPT, ce contenu transite vers OpenAI et est stocké dans leur infrastructure pour la durée de traitement et au-delà selon les paramètres du compte. Pour les comptes gratuits et les comptes Plus, OpenAI peut utiliser ces données pour améliorer ses modèles, sauf opt-out explicite. Pour les comptes Teams et Enterprise, l'opt-out est par défaut, mais les données restent stockées chez OpenAI sous une forme qui dépend du plan choisi.

L'absence de contrôle sur les réponses. Un modèle public répond avec sa connaissance générale. Si vous demandez "Quel est le délai de paiement contractuel chez nos clients ?", il ne le sait pas. Vous devez lui copier le contrat dans la conversation à chaque fois. Pour un usage occasionnel, c'est gérable. Pour un usage quotidien d'équipe, ça devient un mode d'utilisation peu efficace et risqué pour la cohérence des réponses.

Le RAG privé répond aux deux problèmes simultanément : il garde la base de connaissance localement, et n'expose au modèle public que les extraits pertinents au moment d'une requête, pour quelques secondes.

Comment fonctionne un RAG privé, concrètement

Un RAG est composé de quatre briques techniques qui travaillent ensemble.

1. La base documentaire. Vos documents (contrats, procédures, fiches techniques, tickets historiques) sont déposés dans un système de fichiers ou un système documentaire. La base reste sous votre contrôle physique : serveur OVH/Scaleway en France, ou serveur on-premise dans vos locaux.

2. Le moteur d'indexation et la base vectorielle. Chaque document est découpé en passages, et chaque passage est transformé en représentation numérique (un "embedding") qui capture son sens. Ces embeddings sont stockés dans une base vectorielle (Qdrant, Weaviate, Milvus en open source, ou Pinecone en SaaS européen). C'est cette base qui permet de retrouver instantanément les passages pertinents pour une question donnée.

3. Le LLM (le modèle de langage). C'est le composant qui formule la réponse en langage naturel à partir des passages retrouvés. Il peut être public (GPT-4o, Claude Sonnet) ou privé (Mistral, Llama 3, modèles open source). Dans une architecture RAG privée stricte, on choisit un LLM hébergé en Europe (Mistral) ou en self-hosting (Llama 3 sur GPU privé).

4. Le pipeline orchestrateur. Reçoit la question de l'utilisateur, retrouve les passages pertinents dans la base vectorielle, les transmet au LLM avec un prompt structuré, et renvoie la réponse. Frameworks couramment utilisés : LangChain, LlamaIndex, ou un développement custom Python.

Le résultat, du point de vue de l'utilisateur final : il pose une question dans une interface (chat, intégration Slack, assistant interne) et reçoit une réponse construite à partir de la base de connaissance de l'entreprise, citée avec ses sources.

Trois architectures RAG selon le niveau de souveraineté souhaité

Toutes les PME n'ont pas les mêmes contraintes de souveraineté. Trois niveaux structurent les choix d'architecture.

NiveauStockage documentsLLM utiliséHébergement vector DBCoût initialCoût mensuel
Standard (RAG hybride)Vos serveurs / cloud EUOpenAI ou Claude (API)Pinecone EU ou self-hosted8.000 – 15.000 €100 – 400 €
Souverain européenVos serveurs / cloud EUMistral via API européenneQdrant self-hosted12.000 – 22.000 €150 – 500 €
Souverain on-premise totalVos locaux ou cloud privéLlama 3 / Mistral self-hosted GPUQdrant self-hosted25.000 – 60.000 €500 – 2.000 €

Le choix entre ces trois niveaux dépend de la sensibilité des données traitées. Pour une PME qui veut donner accès à ses procédures internes à ses commerciaux, le niveau standard suffit largement. Pour un cabinet d'avocats ou un cabinet médical qui traite des données protégées par le secret professionnel, le niveau souverain européen est généralement le bon compromis. Le niveau on-premise total est réservé aux secteurs sous contrainte réglementaire forte (défense, secteurs régulés, recherche pharmaceutique).

Ce que nous voyons dans les projets de RAG privé pour PME

Trois patterns sont fréquents dans les projets accompagnés.

Le premier : la PME démarre avec une ambition trop large. Indexer "tous les documents de l'entreprise" est une promesse séduisante mais opérationnellement coûteuse — la qualité de la base dépend directement de la qualité des documents indexés. Mieux vaut commencer par un périmètre clair et délimité (les procédures qualité, ou les fiches produits, ou les contrats clients) et étendre une fois la valeur démontrée.

Le deuxième : les documents existants ne sont pas indexables tels quels. Un PDF scanné illisible, un fichier Excel avec 15 onglets, une base SharePoint en désordre — ce sont les vrais blocages des projets RAG. La phase de préparation documentaire représente couramment 20 à 40% du budget total et n'est pas optionnelle. Une PME qui a son patrimoine documentaire bien organisé démarrera deux fois plus vite qu'une qui doit le restructurer.

Le troisième : la qualité des réponses dépend du prompt et de la structure des passages, pas seulement du modèle. Un même contenu indexé avec un découpage approximatif et un prompt générique donnera des réponses médiocres avec GPT-4o. Le même contenu, bien découpé, avec un prompt précis et des règles de citation des sources, peut donner d'excellentes réponses avec Mistral 7B local. Le réglage du pipeline est l'essentiel du métier ; le modèle est un composant interchangeable.

Combien coûte un RAG privé pour une PME en 2026

Les fourchettes de marché en France pour une PME de 10 à 100 personnes sont les suivantes :

Type de projet RAGPérimètreCoût initialCoût mensuel
RAG simple (1 type de document, 1 cas d'usage)50 à 500 documents8.000 – 12.000 €80 – 200 €
RAG multi-sources (2-3 types de documents)500 à 5.000 documents12.000 – 22.000 €150 – 400 €
RAG complet entreprise (toutes sources)5.000+ documents22.000 – 50.000 €400 – 1.500 €

Le coût mensuel se compose principalement du LLM (API publique : 50-300 €/mois selon volume ; self-hosted GPU : 200-1.000 €/mois selon machine), de la base vectorielle (gratuit en self-hosted, 50-200 €/mois en SaaS), et du serveur hébergeant les composants applicatifs.

Chez Chappygo, nous nous concentrons sur les RAG niveau standard et niveau souverain européen, qui couvrent la majorité des besoins PME et restent dans une fourchette de 10.000 à 25.000 € HT pour le déploiement initial — soit la fourchette publique du service "MVP IA" sur notre site.

Quand un RAG privé n'est pas la bonne réponse

Quatre cas où nous déconseillons un projet RAG.

Quand le volume documentaire est trop faible. Un RAG sur 30 documents n'apporte rien qu'un dossier partagé bien organisé n'apporterait. La règle pratique : il faut au moins 200 à 300 documents distincts pour qu'un RAG commence à devenir intéressant face à un dossier classique avec recherche fulltext.

Quand le besoin est en réalité une recherche fulltext, pas une compréhension. Si vos utilisateurs cherchent "le contrat avec ACME signé en mars 2024", ils ont besoin d'un moteur de recherche, pas d'un LLM. Un système comme Elasticsearch ou Algolia coûtera 5 à 10 fois moins qu'un RAG complet et fera mieux le travail.

Quand l'équipe ne maintiendra pas la base. Un RAG dont la base documentaire n'est pas mise à jour devient obsolète en quelques mois. Les contrats expirent, les procédures changent, les fiches produits évoluent. Il faut soit un référent côté client qui assume la mise à jour, soit un automatisme de synchronisation avec la source documentaire vivante. Sans l'un des deux, le RAG perdra de la valeur dans les 6 à 12 mois.

Quand la donnée à indexer est triviale. Si la connaissance utile tient sur 5 pages, écrivez les 5 pages comme un mémo bien structuré et donnez-les en pièce jointe à un assistant ChatGPT public. Le surcoût technique d'un RAG ne se justifie pas pour ce volume.

Comment se déroule un projet RAG privé avec Chappygo

Un projet RAG type pour PME suit cinq phases.

1. Cadrage (1 à 2 jours). Identification du périmètre exact, audit du patrimoine documentaire, choix du niveau d'architecture, validation du devis ferme.

2. Préparation documentaire (1 à 3 semaines). Nettoyage, restructuration et conversion des documents source. C'est la phase la plus chronophage et celle qui détermine la qualité finale.

3. Construction du pipeline (2 à 4 semaines). Mise en place de la base vectorielle, configuration de l'orchestrateur, choix du LLM et tests d'embeddings, intégration à l'interface (Slack, web, application interne).

4. Réglage et validation (1 à 2 semaines). Tests sur questions réelles métier, ajustement du prompt, ajustement du découpage des passages, validation par les utilisateurs cibles.

5. Mise en production et formation (1 semaine). Déploiement, formation des utilisateurs référents, documentation opérationnelle, mise en place du monitoring.

Soit un projet total de 5 à 10 semaines selon la complexité.

Questions fréquentes

Le RAG privé est-il vraiment nécessaire pour une PME, ou est-ce du sur-mesure inutile ?

Cela dépend strictement de la sensibilité des données. Pour une PME qui veut un assistant interne sur ses procédures non confidentielles ou ses fiches produits publiques, ChatGPT Teams avec un Custom GPT bien configuré peut suffire — coût autour de 25 EUR/utilisateur/mois, pas de projet de développement. Pour une PME qui traite des données soumises au secret professionnel, à l'AI Act, à la directive NIS 2, ou simplement à un engagement contractuel de non-divulgation envers ses clients, le RAG privé devient une obligation pratique. Le critère n'est pas la taille de l'entreprise mais la nature des données.

Peut-on construire un RAG sans dev en interne ?

Oui, mais avec un partenaire technique externe. Une fois le pipeline construit, son maintien quotidien est gérable par un référent fonctionnel côté client (ajout de documents, validation de la qualité des réponses). La construction et les évolutions structurelles nécessitent un profil technique : développeur Python, ingénieur ML ou agence spécialisée. Une PME sans dev en interne peut parfaitement avoir un RAG privé fonctionnel en s'appuyant sur un prestataire pour le build et un référent fonctionnel interne pour le run.

Quels secteurs ont le plus à gagner d'un RAG privé en 2026 ?

Trois secteurs concentrent les cas d'usage les plus rentables : les services professionnels avec patrimoine documentaire structuré (cabinets d'avocats, experts-comptables, conseils en management), les industries avec base de connaissance technique (BTP, mécanique, aéronautique de sous-traitance — secteurs forts en Occitanie), et les organismes de formation. Dans les trois cas, la valeur du RAG vient du fait que les collaborateurs passent significativement de temps à chercher de l'information dans des documents existants — temps que le RAG transforme en accès quasi-instantané.

Diagnostic gratuit

Vous voulez savoir si un RAG privé est pertinent pour votre PME ? Réservez votre diagnostic gratuit — un échange de 30 minutes pour évaluer la sensibilité des données, le volume documentaire et les cas d'usage, et obtenir une recommandation claire (RAG privé, ChatGPT Teams, ou autre architecture). Garantie ROI à 30 jours sur les déploiements que nous accompagnons.

Prêt à démarrer ?

L'IA que les grands groupes ont. Le budget PME.

Sites web, MVPs, agents IA, formation, SEO — on déploie tout. ROI mesurable dès 30 jours. Certifié Qualiopi.

Sans engagement • Réponse sous 24h