Contents
Adapter l’interface : onglets et colonnes
L’interface de Screaming Frog est très chargée. Pour bien lire les infos dont on a besoin, il faut désélectionner onglets et colonnes. La disposition est sauvegardée à la fermeture de Screaming Frog.
- Les onglets sont des rapports complets
- Internal donne le maximum d’informations
- Les autres sont des focus par problématique
- La synthèse Overview dépend du choix des onglets actifs :
- moins d’onglets = + de lisibilité
- permet de filtrer les infos des onglets
- Les colonnes sont des affichages (ou non) des informations dans un rapport. Elles sont déplaçables.

A – Onglets principaux
Les onglets indispensables

- Internal → rapport complet du crawl
- Response Codes → vue rapide des codes HTTP
- Canonicals → isole les différents cas de canonicalisation
- Hreflang → recettage des problèmes habituels de hreflang
Les onglets optionnels, au cas par cas
- External → liens externes
- URL → si on cherche des patterns
- Titles → si recettage longueur, duplication
- Meta Description
- H1 → si recettage duplication, absence
- H2
- Content
- Images → pour relever l’absence de balise ALT
- Directives → relève les balise robots
- AMP
- Structured Data
- Sitemaps
- Custom Search
- Custom Extraction
- Analytics
- Search Console
Les onglets à oublier
- Security → pb de HTTPS non conforme
- Meta Keywords
- Pagination
- AJAX
- PageSpeed → besoin de l’API
- Link Metrics → pour enrichir ses rapports avec des données tierces (Ahrefs ou Majestic)
Astuce : Le filtre des onglets est relié aux lignes de l’Overview : filter le rapport à gauche mettra en surbrillance la ligne correspondante et récapitulative dans l’onglet Overview / sélectionner une ligne dans l’Overview filtrera le rapport.

B – Onglets d’URL
- URL Details → la ligne complète du rapport Internal pour l’URL concernée, en colonne
- Inlinks → liens entrants vers l’URL, avec ancre de liens, position (Navigation ou Content)…
- SERP Snippet → simulation du snippet selon Title + Description (modifiables), mobile et desktop
- Rendered Page → rendu visuel de la page (si toutes ressources crawlées)
- View Source → Code HTML de la page (à configurer avant le crawl)
- Duplicate Details → liste les URLs dupliquées et leur taux de duplication
- et les autres optionnels

Astuce : sélectionner plusieurs URLs permet de grouper toutes leurs informations dans l’onglet Inlinks

C – Colonnes
Dans Screaming Frog, on est vite noyé sous la quantité d’informations de chaque rapport. Si à chaque ligne correspond une URL crawlée, à chaque colonne correspond une information unique sur cette URL. L’idéal est de ne conserver que les colonnes indispensables afin de travailler sur un rapport lisible, donc de désélectionner les colonnes non pertinentes pour votre analyse du jour. C’est le même principe que sur Excel lorsqu’on masque des colonnes. Même si on masque les colonnes au départ d’un crawl, les données sont toujours collectées par le crawler et donc disponible lorsqu’on veut les afficher.
Les colonnes indispensables
- Address → l’URL
- Status Code → le code HTTP
- Indexability → indique si l’URL* est indexable
- Title
- H1
- Word Count → Nombre de mots de la page
- Crawl Depth → Profondeur (base : URL de départ de crawl)
- Unique Inlinks → Liens internes dédoublonnés

Les colonnes optionnelles
- Indexability Status → explique pourquoi l’URL n’est pas indexable (Code HTTP, Canonique…)
- Title Length → si on recette les meta tags
- Title Pixel Width
- Meta Description
- Meta Description Length
- Meta Description Pixel Width
- H2
- Meta Robots → sera déjà signalé par Indexability si on est en noindex
- X-Robots Tag
- Meta Refresh
- Unique Outlinks → liens vers d’autres pages
- Canonical Link Element → balise canonical de la page
- amphtml
- Size → poids du fichier HTML
- Link Score → calcul du PR interne sur 100
- External Outlinks → liens sortants vers d’autres sites
- Closest Similarity Match
- No. Near Duplicates
- Hash → si on a un doublon : DUST
- Redirect URL → cible de la redirection
Les colonnes inutiles
- Content Type → indique si une URL pointe vers une page web, PDF, image
- Status → détail en lettres du Status Code
- Meta Keywords → LOL
- H1 Length
- H2 Length
- Inlinks → liens internes, avec doublons
- Outlinks
- rel= »next » / rel= »prev »
- Text Ratio → pas un KPI SEO
- Inlinks % of Total
- Unique External Outlinks
- Response Time → temps de réponse du serveur (+TTFB)
- Last Modified
- Cookies
- HTTP Version
- URL Encoded Address
- Spelling Errors
- Grammar Errors
Mode arborescence
Peu utilisé car mal maîtrisé, le mode arborescence (Tree table view) est pourtant remarquablement utile. Alors que le rapport de base présente l’ensemble des URLs d’un site d’une manière étalée et donc horizontale, ce mode ventile les URLs par leur répertoire.

Avantages :
- Décompose le site en répertoires (à dérouler) selon la structure des URLs
- Compte les URLs dans chaque répertoire
- Liste les URLs + autres répertoires dans chacun

A – Diagnostiquer un problème par une arborescence
Tous les Onglets (donc les rapports) peuvent être affichés en arborescence et exportés en CSV. Exemple : l’onglet Noindex sous forme d’arborescence indique le répertoires où se trouvent les URLs en noindex.

Ou encore avoir une vision du site par pages faibles en contenu – le rapport permet de quantifier le problème et d’identifier les typologies de pages concernées.

B – Analyse du site par son arborescence – Site structure
Croiser le mode arborescence avec la vue Site structure permet de générer des équivalents de Tableaux Croisés Dynamiques. On peut ainsi croiser les répertoires avec la dimension qui nous intéresse, par exemple les pages Indexables / Non-indexables.

Ou encore croiser les répertoires avec les codes HTTP (Response Codes) pour avoir une vue d’ensemble d’où se situent vos URLs en erreur.

Analyser le contenu dupliqué d’un site avec Screaming Frog
Parmi les fonctionnalités récentes et très attendues par la communauté des utilisateurs du crawler, l’analyse du contenu dupliqué (exact ou proche) est remarquablement efficace pour peu qu’on arrive à paramétrer l’outil correctement.
A – Paramétrage
1 – Configuration > Content > Area
- Permet d’exclure des zones à prendre en compte : menu, footer, bandeau promo…
- Exclut de base nav et footer, ce qui fonctionne pour l’essentiel des sites
- Sinon, il faut identifier l’élément à exclure par sa class CSS ou son ID dans le code source

2 – Configuration > Content > Duplicates
- Choisir ou non d’inclure les pages canonicalisées dans le scope
- Choisir d’inclure les pages partiellement dupliquées
- Définir le seuil de duplication (à titre d’exemple, Botify propose 75% et 90%)

3 – Crawl Analysis > Content
Si ce n’est pas lancé par défaut après le crawl : crawler puis lancer l’analyse (Crawl Analysis > Start)
B – Rapport de contenu dupliqué
Overwiew & Onglet Content
- Exact duplicates → DUST – pages identiques en tout point
- Near duplicates → Contenu dupliqué selon le seuil défini
- Low Content Pages → Pages au contenu inférieur à 200 mots (par défaut, paramétrable)

Dans l’onglet Content, ces lignes correspondent donc à des colonnes :
- Closest Similarity Match → % de duplication de la page la plus proche
- No. Near Duplicates → Nombre de pages dupliquées
C – Comparer deux pages au contenu dupliqué
- Sélectionner une URL
- Trouver l’onglet du bas “Duplicate Details”
- Sélectionner une des URLs dupliquées
- Comparer les contenus entre les 2

D – Export brut du rapport de contenu dupliqué
Content > Near Duplicates.
Ce rapport indique pour chaque URL un doublon par ligne, avec son taux de similarité.

Astuces diverses sur Screaming Frog
Etant SEO, vous vous doutez que je regarde la Search Console de mon site pour ajouter du contenu pour viser de nouvelles requêtes où je suis en page 2.
En SEO, le ratio texte / code HTML est une vieille obsession, qu’il convient d’oublier en 2021 si c’est encore une considération pour le positionnement d’une page. Ce ratio sert peut-être à des front-end developers, mais sa présence dans Screaming Frog est discutable. Toujours est-il que ce ratio est présent dans l’outil, pour peu qu’on le configure pour permettre de le relever : à cocher dans Configuration > Spider > Extraction > Page Details
Le site officiel du crawler le définit par : nombre de caractères non-HTML présents dans le d’une page, divisé par le total de caractères composant la page (HTML + non-HTML).
Télécharger un fichier de configuration Screaming Frog
Configurer l’outil prend un certain temps, toutes les cases sont cochées par défaut et bien sûr, toutes ne sont pas utiles. On se retrouve avec des rapports chargés inutilement de CSS et de balise meta keywords. Voici donc un fichier de configuration tout prêt pour un crawl light, utilisé chez Artefact et largement suffisant pour les usages courants.
- Vitesse
- 2 threads
- 2.0 URLs / seconde
- Ressources
- aucune
- Liens
- Internes
- Canoniques (Store uniquement)
- Pagination
- User-Agent
- Screaming Frog SEO Spider