Screaming Frog | Guide d’utilisation du crawler

1 – Adapter l’interface : onglets et colonnes

L’interface de Screaming Frog est très chargée. Pour bien lire les infos dont on a besoin, il faut désélectionner onglets et colonnes. La disposition est sauvegardée à la fermeture de Screaming Frog.

  • Les onglets sont des rapports complets
    • Internal donne le maximum d’informations
    • Les autres sont des focus par problématique
    • La synthèse Overview dépend du choix des onglets actifs :
      • moins d’onglets = + de lisibilité
      • permet de filtrer les infos des onglets
  • Les colonnes sont des affichages (ou non) des informations dans un rapport. Elles sont déplaçables.

A – Onglets principaux

Les onglets indispensables

Sélectionner ses onglets sur Screaming Frog
  • Internal → rapport complet du crawl
  • Response Codes → vue rapide des codes HTTP
  • Canonicals → isole les différents cas de canonicalisation
  • Hreflang → recettage des problèmes habituels de hreflang

Les onglets optionnels, au cas par cas

  • External → liens externes
  • URL → si on cherche des patterns
  • Titles → si recettage longueur, duplication
  • Meta Description
  • H1 → si recettage duplication, absence
  • H2
  • Content
  • Images → pour relever l’absence de balise ALT
  • Directives → relève les balise robots
  • AMP
  • Structured Data
  • Sitemaps
  • Custom Search
  • Custom Extraction
  • Analytics
  • Search Console

Les onglets à oublier

  • Security → pb de HTTPS non conforme
  • Meta Keywords
  • Pagination
  • AJAX
  • PageSpeed → besoin de l’API
  • Link Metrics → pour enrichir ses rapports avec des données tierces (Ahrefs ou Majestic)

Astuce : Le filtre des onglets est relié aux lignes de l’Overview : filter le rapport à gauche mettra en surbrillance la ligne correspondante et récapitulative dans l’onglet Overview / sélectionner une ligne dans l’Overview filtrera le rapport.

Un clic sur une ligne de l’Overview filtre le rapport de gauche

B – Onglets d’URL

  • URL Details → la ligne complète du rapport Internal pour l’URL concernée, en colonne
  • Inlinks → liens entrants vers l’URL, avec ancre de liens, position (Navigation ou Content)…
  • SERP Snippet → simulation du snippet selon Title + Description (modifiables), mobile et desktop
  • Rendered Page → rendu visuel de la page (si toutes ressources crawlées)
  • View Source → Code HTML de la page (à configurer avant le crawl)
  • Duplicate Details → liste les URLs dupliquées et leur taux de duplication
  • et les autres optionnels
Onglets d’URL – rapports détaillés pour une URL individuelle

Astuce : sélectionner plusieurs URLs permet de grouper toutes leurs informations dans l’onglet Inlinks

Liens internes vers une sélection d’URLs

C – Colonnes

Dans Screaming Frog, on est vite noyé sous la quantité d’informations de chaque rapport. Si à chaque ligne correspond une URL crawlée, à chaque colonne correspond une information unique sur cette URL. L’idéal est de ne conserver que les colonnes indispensables afin de travailler sur un rapport lisible, donc de désélectionner les colonnes non pertinentes pour votre analyse du jour. C’est le même principe que sur Excel lorsqu’on masque des colonnes. Même si on masque les colonnes au départ d’un crawl, les données sont toujours collectées par le crawler et donc disponible lorsqu’on veut les afficher.

Les colonnes indispensables

  • Address → l’URL
  • Status Code → le code HTTP
  • Indexability → indique si l’URL* est indexable
  • Title
  • H1
  • Word Count → Nombre de mots de la page
  • Crawl Depth → Profondeur (base : URL de départ de crawl)
  • Unique Inlinks → Liens internes dédoublonnés
Dans Screaming Frog, les colonnes se désélectionnent par le picto + et on peut changer leur ordre en les déplaçant.

Les colonnes optionnelles

  • Indexability Status → explique pourquoi l’URL n’est pas indexable (Code HTTP, Canonique…)
  • Title Length → si on recette les meta tags
  • Title Pixel Width
  • Meta Description
  • Meta Description Length
  • Meta Description Pixel Width
  • H2
  • Meta Robots → sera déjà signalé par Indexability si on est en noindex
  • X-Robots Tag
  • Meta Refresh
  • Unique Outlinks → liens vers d’autres pages
  • Canonical Link Element → balise canonical de la page
  • amphtml
  • Size → poids du fichier HTML
  • Link Score → calcul du PR interne sur 100
  • External Outlinks → liens sortants vers d’autres sites
  • Closest Similarity Match
  • No. Near Duplicates
  • Hash → si on a un doublon : DUST
  • Redirect URL → cible de la redirection

Les colonnes inutiles

  • Content Type → indique si une URL pointe vers une page web, PDF, image
  • Status → détail en lettres du Status Code
  • Meta Keywords → LOL
  • H1 Length
  • H2 Length
  • Inlinks → liens internes, avec doublons
  • Outlinks
  • rel= »next » / rel= »prev »
  • Text Ratio → pas un KPI SEO
  • Inlinks % of Total
  • Unique External Outlinks
  • Response Time → temps de réponse du serveur (+TTFB)
  • Last Modified
  • Cookies
  • HTTP Version
  • URL Encoded Address
  • Spelling Errors
  • Grammar Errors

2 – Mode arborescence

Peu utilisé car mal maîtrisé, le mode arborescence (Tree table view) est pourtant remarquablement utile. Alors que le rapport de base présente l’ensemble des URLs d’un site d’une manière étalée et donc horizontale, ce mode ventile les URLs par leur répertoire.

Le discret bouton pour passer un rapport en mode Arborescence.

Avantages :

  • Décompose le site en répertoires (à dérouler) selon la structure des URLs
  • Compte les URLs dans chaque répertoire
  • Liste les URLs + autres répertoires dans chacun
Le répertoire fr/ contient 4 sous-répertoire et 3 URLs

A – Diagnostiquer un problème par une arborescence

Tous les Onglets (donc les rapports) peuvent être affichés en arborescence et exportés en CSV. Exemple : l’onglet Noindex sous forme d’arborescence indique le répertoires où se trouvent les URLs en noindex.

On déroule jusqu’à identifier les URLs.

Ou encore avoir une vision du site par pages faibles en contenu – le rapport permet de quantifier le problème et d’identifier les typologies de pages concernées.

URLs à contenu faible déroulées par répertoire.

B – Analyse du site par son arborescence – Site structure

Croiser le mode arborescence avec la vue Site structure permet de générer des équivalents de Tableaux Croisés Dynamiques. On peut ainsi croiser les répertoires avec la dimension qui nous intéresse, par exemple les pages Indexables / Non-indexables.

Ventilation des pages Indexables / Non-indexables par répertoire

Ou encore croiser les répertoires avec les codes HTTP (Response Codes) pour avoir une vue d’ensemble d’où se situent vos URLs en erreur.

Ventilation des URLs par code HTTP par répertoire

3 – Analyser le contenu dupliqué d’un site avec Screaming Frog

Parmi les fonctionnalités récentes et très attendues par la communauté des utilisateurs du crawler, l’analyse du contenu dupliqué (exact ou proche) est remarquablement efficace pour peu qu’on arrive à paramétrer l’outil correctement.

A – Paramétrage

1 – Configuration > Content > Area

  • Permet d’exclure des zones à prendre en compte : menu, footer, bandeau promo…
  • Exclut de base nav et footer, ce qui fonctionne pour l’essentiel des sites
  • Sinon, il faut identifier l’élément à exclure par sa class CSS ou son ID dans le code source
Identifier la class CSS via l’Inspecteur de code dans votre navigateur.

2 – Configuration > Content > Duplicates

  • Choisir ou non d’inclure les pages canonicalisées dans le scope
  • Choisir d’inclure les pages partiellement dupliquées
  • Définir le seuil de duplication (à titre d’exemple, Botify propose 75% et 90%)

3 – Crawl Analysis > Content

Si ce n’est pas lancé par défaut après le crawl : crawler puis lancer l’analyse (Crawl Analysis > Start)

B – Rapport de contenu dupliqué

Overwiew & Onglet Content

  • Exact duplicates → DUST – pages identiques en tout point
  • Near duplicates → Contenu dupliqué selon le seuil défini
  • Low Content Pages → Pages au contenu inférieur à 200 mots (par défaut, paramétrable)
Rapport du contenu dupliqué dans l’onglet Overview

Dans l’onglet Content, ces lignes correspondent donc à des colonnes :

  • Closest Similarity Match → % de duplication de la page la plus proche
  • No. Near Duplicates → Nombre de pages dupliquées

C – Comparer deux pages au contenu dupliqué

  1. Sélectionner une URL
  2. Trouver l’onglet du bas “Duplicate Details”
  3. Sélectionner une des URLs dupliquées
  4. Comparer les contenus entre les 2
L’onglet Duplicate Details indique les différences dans les contenus identiques d’une même page.

D – Export brut du rapport de contenu dupliqué

Content > Near Duplicates.

Ce rapport indique pour chaque URL un doublon par ligne, avec son taux de similarité.

4 – Astuces diverses sur Screaming Frog

Etant SEO, vous vous doutez que je regarde la Search Console de mon site pour ajouter du contenu pour viser de nouvelles requêtes où je suis en page 2.

En SEO, le ratio texte / code HTML est une vieille obsession, qu’il convient d’oublier en 2021 si c’est encore une considération pour le positionnement d’une page. Ce ratio sert peut-être à des front-end developers, mais sa présence dans Screaming Frog est discutable. Toujours est-il que ce ratio est présent dans l’outil, pour peu qu’on le configure pour permettre de le relever : à cocher dans Configuration > Spider > Extraction > Page Details

La colonne Text Ratio dans Screaming Frog

Le site officiel du crawler le définit par : nombre de caractères non-HTML présents dans le d’une page, divisé par le total de caractères composant la page (HTML + non-HTML).

Pour marque-pages : Permaliens.

Les commentaires sont fermés