Skip to main content

Lancer les Analyses - Les Crawls

Une fois votre configuration de plan de marquage établie, il est temps de la confronter à votre site. C'est le rôle des crawls. Un crawl est un processus durant lequel les robots de Netvigie Tracking parcourent votre site pour collecter des données et les comparer aux règles que vous avez définies.

Type de Crawl vs Mode de Crawl : la distinction clé

Il est essentiel de bien comprendre la différence entre ces deux concepts pour configurer des analyses pertinentes.

  • Type de Crawl : Définit le PÉRIMÈTRE de l'analyse.
    • C'est la réponse à la question : "Quelles pages va-t-on tester ?"
    • Crawl de Monitoring : Le plus rapide. Il ne teste que les URLs exemples que vous avez définies dans vos contextes et les scénarios. Idéal pour des vérifications fréquentes (toutes les heures) des pages et parcours les plus critiques.
    • Crawl Partiel : Un bon compromis. Il teste les URLs de monitoring, plus un nombre limité et défini d'autres pages du site qu'il découvre en suivant les liens. Utile pour une vérification quotidienne qui peut déceler des problèmes sur des pages moins centrales.
    • Crawl Complet : Le plus exhaustif. Le robot tente d'explorer l'intégralité de votre site en suivant tous les liens qu'il trouve (dans la limite des filtres que vous avez mis en place). Parfait pour des audits hebdomadaires ou mensuels.
  • Mode de Crawl : Définit l'ÉTAT du navigateur avant l'analyse.
    • C'est la réponse à la question : "Quel type d'utilisateur simulons-nous ?"
    • Un mode de crawl est une configuration qui met le navigateur du robot dans des conditions spécifiques avant de commencer à tester les pages.

Configurer les Modes de Crawl

Vous pouvez créer autant de modes de crawl que de profils d'utilisateurs pertinents pour vos tests. Allez dans Crawls > Modes de crawl.

  • Exemples de Modes de Crawl :
    • Visiteur identifié ("Identified Visitor") :
      • Objectif : Tester le site du point de vue d'un utilisateur connecté. Indispensable pour vérifier les données personnelles, les pages de compte client, etc.
      • Configuration : Vous devez créer un scénario d'identification (qui ouvre la page de login, saisit l'email/mot de passe et valide). Ce scénario est ensuite sélectionné comme "Scénario préparatoire" dans la configuration du mode de crawl.
    • Crawl Mobile :
      • Objectif : Simuler une visite depuis un smartphone pour vérifier les tags et les comportements spécifiques au mobile.
      • Configuration : Vous devez d'abord créer un Appareil de type mobile (voir plus bas), puis le sélectionner dans la configuration du mode de crawl.
    • Crawl sans acceptation des cookies :
      • Objectif : Vérifier la conformité RGPD en s'assurant que les tags non essentiels ne se déclenchent pas quand le consentement est refusé.
      • Configuration : Similaire au visiteur identifié, vous créez un scénario qui interagit avec votre bannière de cookies (CMP) pour refuser le consentement. Ce scénario devient le "Scénario préparatoire".

Planifier les Crawls

C'est ici que vous assemblez le tout pour lancer une analyse.

  1. Allez dans Crawls > Planification.
  2. Cliquez sur Ajouter une configuration de crawl.
  3. Nommez votre crawl (ex: "Monitoring Horaire Desktop").
  4. Choisissez le Type de crawl (Monitoring, Partiel, Complet).
  5. Sélectionnez le ou les Modes de crawl à utiliser pour cette analyse.
  6. Définissez la fréquence (toutes les heures, tous les jours, etc.) ou laissez-la en lancement manuel.
  7. Option d'alerte : Cochez la case "Ce crawl pourra envoyer des alertes" si vous souhaitez être notifié en cas de problème détecté par cette analyse.
  8. Sauvegardez.

Important : N'oubliez pas de générer une version après avoir modifié votre configuration et avant de lancer un crawl, afin que vos changements soient pris en compte.

Composants du Crawl

Plusieurs éléments vous permettent d'affiner précisément le comportement de vos crawls.

  • Filtres URL (Crawls > Filtres url)
    • Objectif : Contrôler précisément quelles pages le robot a le droit de visiter. C'est essentiel pour éviter qu'il ne se perde sur des liens sortants ou des parties non pertinentes de votre site.
    • Fonctionnement : Vous créez des filtres basés sur des expressions régulières (REGEX).
      • Filtre d'inclusion : L'URL doit correspondre à la REGEX pour être crawlée. Vous devez avoir au moins un filtre d'inclusion.
      • Filtre d'exclusion : Si l'URL correspond à cette REGEX, elle sera ignorée, même si elle correspond à un filtre d'inclusion.
    • Exemple : Inclure https://monsite.com/.* et exclure .*\\/blog\\/.* pour crawler tout le site sauf le blog.
  • Appareils (Devices) (Crawls > Appareils)
    • Objectif : Définir les caractéristiques du navigateur simulé.
    • Configuration : Vous pouvez spécifier le User-Agent, et la taille de l'écran (Width et Height). C'est ici que vous créerez un appareil "Mobile" pour votre mode de crawl mobile.
  • En-têtes personnalisés (Crawls > En-têtes personnalisés)
    • Objectif : Modifier ou ajouter des en-têtes HTTP aux requêtes envoyées par le robot.
    • Exemple : Forcer un en-tête Accept-Language à fr-FR pour tester une version spécifique de votre site.
  • Modificateurs de ressources (Crawls > Modificateurs de ressources)
    • Objectif : Intercepter et modifier les requêtes réseau (les "hits" de vos tags) avant qu'elles ne soient envoyées.
    • Types :
      • Bloquer la ressource : Empêcher complètement un tag de se déclencher (utile pour éviter de polluer les statistiques d'un partenaire pendant les tests).
      • Modifier un paramètre : Changer la valeur d'un paramètre dans l'URL du tag (ex: ajouter un paramètre test=true).
      • Modifier un en-tête : Changer un en-tête de la requête du tag.

Gérer les URLs Orphelines

  • Définition : Une page orpheline est une page qui existe sur votre site mais qui n'est accessible par aucun lien interne (ex: une landing page de campagne accessible uniquement depuis un email).
  • Problème : Par défaut, le crawler ne peut pas la trouver.
  • Solution :
    1. Allez dans Site > Urls orphelines.
    2. Créez un groupe d'URLs (ex: "Landing Pages Campagnes").
    3. Listez toutes les URLs orphelines dans ce groupe.
    4. Dans la configuration de votre crawl (partie Planification), sélectionnez ce groupe pour qu'il soit inclus dans les pages à analyser.