Dal blog ufficiale tutti i segreti dietro all’indicizzazione di Google rivelati! Un titolo d’impatto che sfocia nel lancio di un nuovo strumento e due grafici a disposizione di SEO e Webmaster. Lo strumento in questione si chiama “Stato dell’indicizzazione” e consente di controllare la quantità di pagine del nostro sito che Google ha indicizzato.
Notare come in fondo ad ogni grafico compaia la scritta:
I numeri riportati nel grafico potrebbero non corrispondere ad alcuni filtri che impediscono la visualizzazione degli URL indicizzati nei risultati della ricerca. Ulteriori informazioni.
Notare che nella guida linkata viene specificato il seguente punto:
Totali indicizzati. Il numero totale di URL attualmente presenti nell’indice di Google. Questi URL sono disponibili per la visualizzazione nei risultati di ricerca, insieme ad altri URL che Google potrebbe scoprire con altri mezzi. Questo numero dovrebbe aumentare nel tempo, man mano che vengono aggiunte e indicizzate nuove pagine e che le vecchie pagine vengono rimosse. Il numero di URL indicizzati è quasi sempre notevolmente inferiore rispetto al numero di URL sottoposti a scansione perché non include gli URL che sono stati identificati come duplicati, non canonici, meno utili o contenenti un meta tag noindex.
Sul non canonici ora sorge qualche dubbio soprattutto dopo che JohnMu in hangouts ha lasciato intendere che non è detto che le risorse canoniche non vengano indicizzate, ma che semplicemente vengono filtrate in fase di risposta ad una determinata query. In sintesi significa che facendo un site: le risorse canonicalizzate potrebbero comunque essere mostrate, e ne consegue che sono dunque indicizzate.
Tralasciando questo punto (che proverò ad approfondire con qualche test) può essere molto interessante confrontare i dati dello stato di indicizzazione con il livello di indicizzazione delle nostre sitemap.
A giudicare dal grafico del sito in questione, per fare un esempio, si potrebbe decidere di andare a scoprire quale sarebbe questo milione e mezzo di URL che mancano 🙂
Utile no?
Visualizzazione avanzata dello stato di indicizzazione
All’interno di questo grafico possiamo controllare i dati delle pagine come segue:
- Totale indicizzate (spiegato sopra)
- Mai sottoposte a scansione (notare che c’è un errore nel webmaster tool)
Il conto cumulativo degli URL del tuo sito che Google ha scansionato. Non tutte le URL scansionate vengono indicizzate e alcune volte possono derivare da link esterni. - Non selezionate
URL del tuo sito che fanno redirect ad altre pagine o URL che sono sostanzialmente duplicate rispetto ad altre nell’indice. - Bloccate dai robot
URLs a cui Google non riesce ad accedere a causa di disallow nel file robots.txt.
Da notare che questo grafico mostra i dati cumulativi e dunque un calo di una delle linee potrebbe significare che qualcosa sta accadendo nel tuo sito e quindi se ritieni di non aver fatto nulla di particolare meglio fare un controllino.
In ogni caso se vuoi maggiori informazioni sull’indicizzazione ti ricordo che esiste una sezione specifica sul forum mentre se vuoi leggere altri articoli sui vari strumenti puoi cercare nella specifica categoria strumenti e tools del seo blog.
Un errore. Nella versione italiana Google si permette un errore che cambia le cose dal bianco al nero. Cioè la linea grafica rossa mostra le pagine analizzate almeno una volta piuttosto che quelle mai analizzate come sembra dalla dicitura? Scandaloso. Da cardiopalma.
Se ci pensi era davvero improbabile che ci fossere statistiche su mai analizzate anche perché ragionandoci su se non sono mai state analizzate come fanno a sapere che ci sono 🙂
Pardon, cosa c’entra? Sanno che ci sono perché basta un semplice contatore che scansiona gli url nell’xml… ma non li indicizzano 😀
Sarebbe utile che WMT facesse un confronto fra il sitemap inviato e le pagine indicizzate
@Andrea:
Forse dall’analisi dei link? 😉
Concordo comunque che come metrica avrebbe poco senso/utilità.
Sì potrebbe essere ottima intuizione, ma come tu dici senza molto senso.
Grazie dell’intervento.
Buongiorno, non ho ancora capito come è possibile, dall’esempio riportato, che la sitemap comunica a google 640.000 URL e lui ne scansioni circa il triplo.
grazie
Ciao Roberto,
la sitemap dell’esempio è solo 1 infatti nel tab a destra ce n’è una seconda che li non si vede. In ogni caso la sitemap è una indicazione che si da a Google, ma ciò non toglie che le pagine scansionate e esistenti possano essere di più.
Ci sono tanti casi per cui queste possono essere maggiori della sitemap (che spesso può essere fatta anche solo parzialmente).
Fammi sapere se è tutto chiaro.
Innanzitutto grazie per la risposta. Non essendo molto esperto in materia, volevo capire meglio. In sostanza gli URL del mio sito sono la somma di tutte le pagine presenti quindi ciò che io comunico a google con la sitemap. Google però può indicizzare + pagine di quante ne contenga il sito e blog…pertanto non mi è chiaro quali siano queste pagine…possono essere pagine di altri siti che contengono link del mio dominio o di un articolo del blog? Roberto
Non conosco il tuo caso, ma nel caso di questo post dipende dal fatto che la sitemap è solo una parte delle URL.
In ogni caso se avviene anche a te un esempio potrebbero essere URL fuori dal tuo controllo e che genera il tuo cms o il tuo software senza che tu lo sappia quindi alcuni motivi possono essere:
– problemi cms
– pagine linkate dall’esterno
– pagine vecchie
– pagine generate da servizi che fornisci a terzi
– pagine di ricerca non gestite bene
– risposte http errate
– etc etc…
salve, ho un problema e non capisco il perchè.
Il mio sito è stato indicizzato ho controllato su google ma non capisco perchè non si trova utilizzando le chiave di ricerca inserite nel tag key descripton: il sito esce su google solo se scrivo per interero il dominio completo.
Ciao Giovanni ti consiglio di chiedere qua sul forum Posizionamento nei motori di ricerca
ciao grazie del consiglio
Per un sito “vergine” con ancora migliaia di pagine da indicizzare, quali sono i fattori che possono influire in un andamento della curva orrizzontale o addirittura negativo? (parlo in riferimento al primo grafico) Escludendo i motivi che webmaster tool segnala, come contenuti duplicati, tag tile assenti, etc, ce ne son altri di “nascosti” ?
Ciao Marco,
è sempre difficile identificare un fattore singolo (e ora sto scrivendo da smartphone:), ma sicuramente posso dirti che ad esempio la profondità della tua architettura e dunque di crawling potrebbe essere una delle prime cose.