Si vous faites du SEO sérieusement, vous passez forcément du temps dans Google Analytics, Google Search Console, vos logs, vos exports… et vous vous retrouvez avec des données parfois sales, mal segmentées, difficiles à lire.
Adresses URL avec des paramètres inutiles, requêtes « brand » mélangées au reste, pages de pagination dans vos rapports, spam, tracking interne… Tout ça vient polluer vos analyses, vos décisions, et au final vos résultats.
La plupart des SEO laissent passer ça. Les autres utilisent un outil sous-coté : les regex.
Non, les regex (expressions régulières) ne sont pas réservées aux développeurs. Utilisées intelligemment, elles deviennent une arme pour :
- nettoyer vos données,
- affiner vos rapports,
- et booster la performance de vos contenus.
On va voir comment, de façon concrète et actionnable.
Pourquoi les regex sont un game changer en SEO
Les regex, c’est un langage ultra compact pour filtrer, regrouper ou transformer des chaînes de caractères (URL, requêtes, hostnames, événements…).
En SEO, ça change la donne pour trois raisons :
- Vous gagnez en précision : au lieu de « contient / ne contient pas », vous pouvez cibler très finement un pattern (structure d’URL, type de requête, etc.).
- Vous gagnez du temps : un seul filtre regex remplace parfois 10 filtres classiques.
- Vous gagnez en lisibilité : vos rapports sont nettoyés, vos dashboards deviennent enfin lisibles et actionnables.
Et surtout : c’est réutilisable. Une bonne regex, vous pouvez la copier-coller entre Analytics, Data Studio (Looker Studio), Google Search Console, voire vos outils maison.
Où utiliser les regex dans votre stack SEO
Vous n’avez pas besoin de tout refondre dans vos outils. Commencez là où l’impact est direct.
- Google Analytics / GA4 : filtres de rapports, segments, audiences, définitions de conversions, vues exploratoires.
- Google Search Console : filtres sur les requêtes, les pages, les pays, les devices.
- Looker Studio (ex-Data Studio) : champs calculés, filtres avancés, regroupement de pages.
- Analyse de logs : filtrer les hits bots vs humains, isoler certains patterns d’URL, exclure des ressources techniques.
- Tableurs et scripts : Google Sheets, Excel (partiellement), scripts Python ou Apps Script pour nettoyer des exports SEO.
L’idée n’est pas de devenir expert regex, mais de maîtriser 20 % des patterns qui vous donneront 80 % des gains.
Les bases des regex à connaître pour le SEO
Pas besoin d’apprendre un nouveau langage. Gardez juste ces briques en tête :
- . : n’importe quel caractère (sauf saut de ligne).
- * : 0 ou plusieurs répétitions.
- + : 1 ou plusieurs répétitions.
- ? : 0 ou 1 répétition (optionnel).
- [] : un ensemble de caractères autorisés (par exemple
[0-9]). - | : « ou » logique (OR).
- ^ : début de chaîne.
- $ : fin de chaîne.
- \ : échappe un caractère spécial (par exemple
\?pour un vrai point d’interrogation). - () : groupe (pratique pour combiner plusieurs éléments avec un
|).
Exemple simple :
^/blog/.* = toutes les URLs qui commencent par /blog/.
Exemple un peu plus utile :
^/(blog|guide|ressources)/.* = toutes les URLs qui commencent par /blog/ ou /guide/ ou /ressources/.
Des patterns très utiles tout de suite
Voici quelques regex « prêtes à l’emploi » qui couvrent la majorité des cas SEO.
1. Exclure les pages de pagination
Vous avez des URLs du type : /categorie/?page=2, /categorie/?page=3…
Regex :
\?page=[0-9]+
Utilisation typique : exclure ces URLs de certains rapports de performance pour se concentrer sur les pages principales.
2. Cibler uniquement les pages produits
Vos produits suivent le pattern /produit/nom-du-produit ou /product/....
Regex :
^/(produit|product)/.+
3. Exclure les paramètres de tracking
Vous avez des URLs avec utm_source, utm_medium, fbclid, etc.
Regex (pour identifier ces paramètres) :
(utm_(source|medium|campaign)|fbclid|gclid)=
Ensuite, vous pouvez les exclure de vos rapports ou les normaliser en amont via vos outils.
4. Séparer brand vs non-brand dans vos requêtes SEO
Votre marque est « Web2e » (ou une variante).
Regex brand :
(web2e|web 2e|web-2e)
Vous pouvez filtrer :
- les requêtes qui contiennent la marque (brand),
- puis, en inversant le filtre, celles qui ne la contiennent pas (non-brand).
5. Filtrer les requêtes transactionnelles
Vous voulez isoler les requêtes avec intention « achat ». Exemple pour un site e-commerce généraliste :
(acheter|prix|pas cher|promo|réduction|code promo)
À utiliser dans Google Search Console sur les requêtes pour voir ce que génère vraiment « l’intention business » de votre SEO.
Nettoyer vos données : le socle d’un bon pilotage SEO
Un SEO qui se respecte ne prend pas de décisions sur des données sales. Les regex vous aident à rendre vos rapports à peu près honnêtes.
1. Éliminer le bruit des URLs parasites
Typiquement, vous voulez :
- retirer les pages de test (
/test/,/staging/), - exclure les URLs techniques (
/wp-admin/,/wp-json/,/api/), - sortir les pages internes (
/login,/mon-compte, etc.).
Une regex possible pour exclure ces pages dans GA4 :
^/(wp-admin|wp-login\.php|wp-json|api|staging|test)/
2. Fusionner des variations d’URLs
Problème classique : la même page se retrouve en plusieurs versions dans vos rapports à cause de paramètres ou de trailing slash.
Exemples :
/guide-seo/guide-seo//guide-seo?utm_source=newsletter
Avec une regex, vous pouvez par exemple :
- identifier toutes les URLs qui commencent par
/guide-seo:^/guide-seo(/|\?|$), - les regrouper dans un champ calculé (Looker Studio) pour n’avoir qu’une ligne « /guide-seo ».
3. Assainir les rapports de logs
Les fichiers de logs sont souvent une décharge totale. Vous pouvez rapidement :
- exclure les ressources statiques :
\.(css|js|png|jpg|jpeg|gif|svg|ico)$, - ne garder que les pages HTML :
^/(?!wp-admin|wp-json|api).*combiné à un filtre sur le code HTTP 200/301.
Résultat : vous vous concentrez sur ce qui intéresse vraiment les bots de Google côté SEO.
Affiner vos rapports : passer de « joli » à « utile »
Un rapport SEO sans segmentation, c’est de la décoration. Les regex permettent de construire des segments pertinents, directement exploitables.
1. Segmenter par type de contenu
Supposons que vos URL suivent ce type de structure :
- Blog :
/blog/ - Guides :
/guide/ - Outils :
/outil/
Regex de regroupement dans Looker Studio :
- Blog :
^/blog/ - Guides :
^/guide/ - Outils :
^/outil/
En créant un champ calculé « Type de contenu » basé sur ces regex, vous pouvez analyser :
- le trafic,
- le taux de conversion,
- le temps passé,
par type de contenu, et pas URL par URL.
2. Construire un vrai rapport brand vs non-brand
Dans Google Search Console :
- Appliquez un filtre « Requête » qui contient votre marque via une regex.
- Sauvegardez ce rapport comme vue « SEO Brand ».
- Créez l’inverse (requêtes qui ne contiennent pas la marque) pour « SEO Non-Brand ».
Vous saurez enfin :
- ce que vous devez vraiment au SEO pur,
- ce qui vient juste de la notoriété.
3. Isoler les pages qui comptent vraiment dans les KPI
Toutes les pages ne valent pas la même chose. Vous pouvez :
- garder uniquement les templates à fort enjeu (produits, catégories, pages de conversion) avec une regex bien ciblée,
- exclure tout le reste pour certains rapports de performance (blog informationnel, pages légales, etc.).
Exemple pour un e-commerce :
^/(produit|categorie|panier|checkout)/
Appliqué dans GA4, ce filtre vous donne une vision « business-first » de votre SEO.
Booster la performance de vos contenus avec les regex
À partir du moment où vos données sont propres et vos rapports segmentés, vous pouvez utiliser les regex pour aller chercher des opportunités très concrètes.
1. Identifier les contenus à fort potentiel latent
Dans Google Search Console, sur l’onglet « Performances » :
- Filtrez les pages de blog via une regex sur les URLs.
- Tri par impressions décroissantes.
- Repérez les pages avec beaucoup d’impressions mais un CTR faible.
Vous pouvez raffiner encore avec une regex sur les requêtes :
- Par exemple, cibler uniquement les requêtes informationnelles (sans « prix », « acheter », etc.) pour prioriser des optimisations de titres / meta et de rich snippets.
2. Repérer les requêtes mal adressées par vos contenus
Vous pouvez créer des regroupements de requêtes par intention grâce aux regex :
- Informations :
(comment|pourquoi|qu’est-ce que|définition|guide) - Comparaison :
(vs|contre|comparatif|meilleur|top 10) - Transaction :
(acheter|prix|tarif|devis|commande)
En filtrant par cluster de requêtes, vous voyez immédiatement :
- les contenus qui attirent des requêtes « transactionnelles » alors qu’ils sont purement informationnels (et inversement),
- les angles éditoriaux à développer ou rééquilibrer.
3. Prioriser les optimisations on-page
En combinant :
- un filtre regex sur les URLs (ex. uniquement les pages guides),
- un filtre regex sur les requêtes (ex. requêtes avec « comment », « guide », etc.),
- les positions moyennes entre 5 et 15,
vous obtenez une short-list précise :
- des contenus déjà bien placés,
- sur les bonnes requêtes,
- mais pas encore dans le top 3.
C’est là que vos efforts on-page (titre, H1, structure, enrichissement sémantique, UX) vont rapporter le plus vite.
Un workflow simple pour intégrer les regex dans votre quotidien SEO
Pour ne pas vous perdre, structurez votre usage des regex comme un process.
Étape 1 : cartographiez vos patterns
- Listez les grands types de contenus (blog, produits, catégories, pages d’atterrissage, etc.).
- Notez la structure de vos URLs pour chaque type.
- Identifiez vos mots-clés de marque, vos expressions transactionnelles, vos clusters thématiques.
Étape 2 : créez une bibliothèque de regex
- Un simple Google Sheet avec colonnes : « Objectif », « Contexte (GA4, GSC, Logs…) », « Regex », « Commentaires ».
- Ajoutez chaque nouvelle regex que vous testez et validez.
Étape 3 : testez systématiquement
- Utilisez des outils de test de regex (regex101, regexr…) pour vérifier vos patterns.
- Commencez toujours en lecture seule (filtres de rapports) avant de les utiliser dans des filtres permanents qui modifient ou excluent des données.
Étape 4 : industrialisez dans vos rapports
- Appliquez vos regex dans des segments sauvegardés, des explorations GA4, des filtres GSC.
- Créez des champs calculés dans Looker Studio pour regrouper les types de pages, d’intentions, etc.
Étape 5 : faites évoluer vos patterns
- À chaque refonte d’architecture ou nouvelle catégorie, mettez à jour vos regex.
- Nettoyez de temps en temps votre bibliothèque pour retirer les patterns obsolètes.
Les pièges classiques à éviter
Quelques erreurs récurrentes qui font perdre du temps (ou des données) :
- Les regex trop larges : un
.*mal placé, et vous incluez ou excluez beaucoup trop de choses. Toujours tester sur un échantillon. - Oublier d’échapper les caractères spéciaux :
?,.,+,|ont une signification particulière ; si vous voulez les utiliser « littéralement », pensez au\(par exemple\?pour un point d’interrogation). - Ajouter des filtres destructifs en production sans backup : surtout dans GA/GA4, un filtre peut détruire des données à la source. Commencez par tester tout dans les rapports ou des vues de test.
- Ne pas documenter : six mois plus tard, vous ne saurez plus à quoi servait cette regex tordue que vous avez mise dans un dashboard. Documentez.
Passer à l’action dès maintenant
Si vous deviez résumer l’usage des regex en SEO en une phrase : elles vous permettent de voir ce qui compte vraiment dans vos données.
Pour les intégrer à votre pratique, vous pouvez dès aujourd’hui :
- Créer deux segments dans Google Search Console : « Brand » et « Non-Brand » via une simple regex sur vos requêtes.
- Nettoyer vos principaux rapports GA4 en excluant les URLs techniques et de test.
- Mettre en place, dans Looker Studio, un champ « Type de contenu » basé sur vos structures d’URL et quelques regex bien pensées.
Vous verrez très vite la différence : moins de bruit, plus de signal, et surtout des décisions SEO plus nettes.
Les regex ne rendent pas votre contenu meilleur par magie. En revanche, elles vous donnent une vision beaucoup plus claire de là où vos efforts éditoriaux et techniques auront le plus d’impact. Et pour un SEO orienté performance, c’est exactement ce dont vous avez besoin.
