SEO, SEA & Web Marketing | performance-marketing.it
Fattori che influenzano il crawl di Google

Fattori che influenzano il crawl di Google

How does Google crawl the web? È il titolo dello studio presentato da Alpha Keita e Dimitri Brunel di  Botify al Search Marketing Expo tenutosi a Parigi il 12 e 13 giugno scorso.

Analizzando 413 milioni di pagine e 6 miliardi di risultati di scansioni di Googlebot, Keita e Brunel hanno cercato di dare una risposta ad alcune delle domande più comuni di chi si occupa quotidianamente di SEO. Che impatto hanno i tempi di caricamento sul crawl di Google? In che misura i “bad http codes” influenzano il crawl? La grandezza di un sito ha degli effetti sul comportamento di Googlebot?

Per capire i risultati dello studio, è prima necessario chiarire le “key metrics” usate dai ragazzi di Botify:

  • Compliant URL: un URL che restituisce uno status code 200,  che non ha tag canonical o solo autoreferenziale, che ha una percentuale alta di testo/html ed il cui contenuto è indicizzabile (meta tag index)
  • Crawl Ratio: percentuale di compliant URLs scansionati da Google nell’arco di 30 giorni
  • Crawl Frequency: numero medio di volte che l’URL di un sito è stato scansionato da Google in 30 giorni

La crawl ratio ed i tempi di caricamento

Keita e Brunel iniziano la loro presentazione con una credenza comune nel modo della SEO, cioè che i tempi di caricamento di un sito influenzino la crawl ratio, e si pongono le seguenti domande: i tempi di caricamento hanno lo stesso impatto su tutti i siti? Ed in che misura?

Statistiche di scansione in base ai tempi di caricamento

Come c’era da aspettarsi, la figura mostra chiaramente come la crawl ratio diminuisca enormemente all’aumentare dei tempi di caricamento nei siti che hanno un numero di pagine superiore a 10.000 mentre, abbastanza a sorpresa, l’impatto per i siti “piccoli” (meno di 10.000 pagine) è nettamente inferiore.

La crawl ratio e la grandezza del sito (numero di pagine)

Ed eccoci al fattore che probabilmente influenza maggiormente la frequenza di scansione: la grandezza di un sito

Statistiche di scansione in base alla grandezza di un sito

Keita e Brunel affrontano ognuno dei fattori presi in esame dapprima mostrando quello che l’esperienza del passato gli ha dimostrato per poi paragonarla ad i risultati del test: in questo caso viene confermata in pieno la tesi secondo la quale un numero maggiore di pagine influenzi negativamente Googlebot, nel senso di una percentuale minore di pagine presenti in SERP. L’analisi dell’enorme mole di dati a disposizione conferma questa tesi iniziale, confermando che.

  • i siti web di piccole dimensioni sono scansionate meglio da Google, ma non interamente
  • tutt’altra cosa invece per i siti di grandi dimensioni: la crawl ratio rappresenta un problema. È per questo che l’ottimizzazione del crawl budget continua ad avere grande importanza nell’ottimizzazione in ottica SEO
  • Alcuni KPIs  come il numero di pagine orfane (pagine non linkate internamente), il tempo di caricamento o la percentuale di parole rispetto al template non hanno quasi nessun impatto sui siti web di piccole dimensioni, ma hanno un impatto notevole sui siti web di grandi dimensioni
  • Altri KPIs come la distribuzione del PageRank, la profondità di una pagina (il numero di clic necessari a raggiungerla partendo dalla home page) e la dimensione del contenuto hanno un grande impatto sul crawl di Google, indipendentemente dalle dimensioni del sito web

Tirando le somme: quali elementi influenzano sensibilmente il crawl di Google?

Appurato che in un sito lento e con un elevato numero di pagine la crawl ratio cala drasticamente, lo studio si focalizza in seguito su altri fattori, dando una risposta su quali di questi KPIs ed in quale misura influenzino Googlebot.

Elementi che influenzano il crawl di GoogleCosa ci spiega l’immagine qui sopra?

  • Il crawl Google non effettua distinzioni tra settori diversi, vale a dire che un sito di notizie è trattato allo stessa stregua di un e-commerce.
  • Come abbiamo già visto, la grandezza di un sito è un fattore estremamente rilevante. In negativo ovviamente.
  • Un dato molto importante riguarda le compliant pages (abbiamo già visto prima cosa caratterizza questo tipo di pagine). In base all’esperienza del passato, dicono Keita e Brunel, il tempo che Googlebot “dedica” ad un sito è influenzato negativamente da un estensivo uso del noindex, dagli errori del server e da un utilizzo sbagliato del canonical tag. Ebbene, lo studio di Botify mostra un dato interessante: su 100 pagine sottoposte a scansione, il 37% di queste sono non compliant pages, il 73% invece lo sono.

Influsso delle compliant pages sulla crawl ratio

Lo studio conferma quindi che  avere più pagine non conformi sottoposte a scansione da parte di Google ha un impatto negativo sulla crawl ratio delle pagine conformi. Quando la percentuale di pagine non conformi sottoposte a scansione da parte di Google aumenta, il rapporto di scansione diminuisce.

  • Sorprendenti sono invece, e non solo per i ragazzi di Botify, le statistiche di scansione delle pagine aventi uno stato http diverso dal 200. A sorpresa perché, a differenza di quanto si poteva supporre, gli stati di codice “negativi” hanno un minimo impatto sul crawl di Google.
  • Ben altro risultato presenta l’analisi delle pagine orfane, vale a dire quelle pagine che per qualsivoglia motivo sono fuori dalla struttura del sito e quindi non linkate internamente. Dai dati di scansione a disposizione, si evince come le pagine orfane rubano circa ¼ del crawl. Questo tipo di pagine tendono a cannibalizzare il budget di scansione e di conseguenza a influenzare negativamente la crawl ratio delle pagine strutturali. Come già visto, l’impatto di questo problema è più grosso tanto è maggiore il  numero di pagine.
  • Ennesima conferma: se il page rank (tramite link interne) viene indirizzato su compliant pages, la crawl ratio di queste migliora nettamente. Quindi, non sprecare page rank a causa  di tag nofollow e noindex!
  • Punto fondamentale: la profondità di una pagina. maggiore è la profondità di una pagina (numero di clic partendo dalla homepage),  minore è la probabilità che questa venga scansionata da Google.
  • Ultimo punto: l’impatto del contenuto sul crawl. La quantità di contenuto ha un impatto significativo sul crawl di Google. Si tratta quindi di una conferma di ciò che ci aspettavamo, vale a dire che i siti web con più contenuti, a prescindere dal numero di pagine,   vengono scansionati scansionati più frequentemente da Google.

Impatto della quantità dei contenuti sulla crawl ratio

Takeaways: cosa abbiamo imparato da questo studio?

#1 Come prima cosa, e non a sorpresa, viene confermato che i siti piccoli sono scansionati meglio di quelli grossi, ma mai interamente. Un’ulteriore conferma è l’importanza dell’ottimizzazione del crawling budget, tanto maggiore è la dimensione di un sito.
Niente di scontato, certo, ma l’ottimizzazione lato SEO è e rimane un punto fondamentale di ogni strategia di marketing.

#2 Le dimensioni di un sito hanno un impatto enorme sulla scansione di Google

#3 Contenuto, profondità e pagine orfane sono metriche fondamentali: crea contenuti di qualità, tieni le pagine più importanti il pià “in alto” possibile e non sprecare il crawl budget per pagine inutili|!

Qui trovate il link alla slideshare della presentazione al SMX di Parigi: https://www.slideshare.net/BotifySEO/how-does-google-crawl-the-web-botify-at-smx-paris-2018. Buona lettura!

Add comment

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.