Indicizzazione google

Questo thread è stato citato da Leonardo web in Siti comunali non più indicizzati - Community Google Search Central

Chi vuole clicchi su “Ho la stessa domanda” in modo da alzare l’attenzione al thread da parte del team google

Grazie

3 Mi Piace

Buongiorno,
segnalo che anche noi abbiamo riscontrato lo stesso problema di indicizzazione da parte di Google sui siti istituzionali di due comuni.
Dal 30 ottobre abbiamo una improvvisa, progressiva, costante diminuzione delle pagine indicizzate di questi siti che fino al giorno prima erano ben posizionate nei risultati di ricerca (se si digitava su Google “comune di xxx” comparivano entrambi come primo risultato con i relativi sitelink alle pagine più visitate). Ora compaiono ancora come primo risultato ma abbiamo solo il link alla home page e l’indicizzazione è in costante peggioramento.
Guardando la situazione nelle corrispondenti proprietà della Google Search Console, dal 30 ottobre al 9 novembre, per un sito siamo passati da 2.903 pagine indicizzate a 1.071 mentre per l’altro da 1.290 a 530. Le pagine non più indicizzate ora compaiono nella Search Console tra quelle “Scansionate ma attualmente non indicizzate”. Nella colonna “Sorgente” dove si indica il “Motivo” per cui le pagine non sono indicizzate vi è riportato “Sistemi di Google” e non “Sito Web”. Questa situazione sembrerebbe non legata strettamente al sito web (al tipo di template, alla struttura delle pagine, ai contenuti, ai meta tags, alle direttive dei file robots.txt, ecc.).
Se si sottopone l’url di una pagina non più indicizzata allo strumento “Controllo URL” la Search console riporta che “l’Url non si trova su Google”, e, nella voce “Rilevamento → Sitemap” compare la voce “Errore temporaneo di elaborazione”. Se si risottopone la stessa pagina allo stesso controllo per una seconda volta nella stessa sezione “Rilevamento → Sitemap” compare la voce “Nessuna Sitemap di referral rilevata”.
Procedendo poi con la richiesta di indicizzazione della pagina compare il messaggio che “l’URL è stato aggiunto ad una coda di scansione prioritaria”, ma a distanza di diversi giorni la pagina risulta ancora non indicizzata.

Escluderei legami con Halley considerando che questi due siti non hanno mai avuto la gestione del dominio, l’hosting ecc. con questo fornitore.
La cosa strana è che abbiamo nello stesso server web in hosting il sito di una Unione di comuni realizzato con la stessa identica tecnologia (stesso CMS, stesso template compliant con il modello Agid di qualche anno fa, stessa architettura dell’informazione) che per ora (e incrocio le dita) non ha perso nessuna pagina indicizzata.
Che ci possa essere anche, tra le concause, tra siti paragonabili per indicizzazione e traffico un qualche legame al tipo di dominio comune.nomecomune.nomeprovincia.it ?.
Abbiamo nella stessa infrastruttura un sito di un comune capoluogo di provincia, con una media di 5.000 visite al giorno e decine di migliaia di pagine indicizzate, realizzato con la stessa tecnologia, template, stessa struttura dell’informazione ecc. che per ora non ha riscontrato problemi di indicizzazione (toccando ferro).

Il timore è che presto non coparirà più nei risultati di ricerca nessuna url di questi due siti comunali con il problema come sta accadendo a tanti di voi.
Abbiamo provato a descrivere anche noi la situazione a Google inviando i feedback dalla Search Console. Stiamo preparando una nuova site map xml da proporre a Google (in un sito già l’avevamo ma credo abbia un impatto relativo in questa situazione). Forse il problema potrebbe essere dovuto a qualche effetto colaterale legato a qualche modifica recente del motore di ricerca Google (con Bing non abbiamo problemi).

Speriamo che il Team di Google che ha preso in carico il problema riesca a capirne le cause e a risolvere la situazione.

1 Mi Piace

Nei diversi casi che ho potuto osservare, i siti web in questione presentano un redirect temporaneo (302) da http ad https. Questa situazione, in concomitanza con gli aggiornamenti delle serp di Google riguardanti località, può portare alla rivalutazione negativa dei siti coinvolti e in ultima istanza alla loro recente sparizione dalle serp.

Il problema è che il redirect 302 non traduce valore di ranking. Il problema sarebbe comunque tecnico e non già legato a valutazioni arbitrarie del motore di ricerca.

@francescomargherita
Per ora l’opinione (preliminare) degli esperti Google riportata nel thread di supporto citato sopra escluderebbe dalle cause un problema di “qualità” dei contenuti (non) indicizzati, compresi dunque eventuali redirect mal strutturati.
Più un incidente puramente tecnico, quindi.

E d’altronde non sono solo pagine in 302 a essere state interessate; in mezzo c’è ogni sorta di sito e di pagina, e dunque ogni sorta di possibile spiegazione… o di razionalizzazione a posteriori.
Ad es., in un’altra discussione sullo stesso forum vedo che si ipotizza che c’entri pure la struttura del sottodominio. Ma finché non avremo un responso ufficiale da Google, ogni ipotesi lascia il tempo che trova.

Ciao a tutti.

E’ un grande piacere partecipare a questa community e portare un contributo che spero sarà utile a tutti quelli coinvolti dal problema.

Scrivo per aggiornarvi sulla situazione visto che il buon @Mauro_Amico mi ha menzionato.

Siamo riusciti ad avere un riscontro da alcuni del Search Team di Google e stanno verificando la situazione.

L’ipotesi più probabile cadendo la casistica nelle “Crawled but not indexed” è che qualche aggiornamento algortimico abbia avuto il side-effect di filtrare le pagine che usano il template in questione. Purtroppo sono effetti negativi che avvengono spesso e di cui nessuno si accorge finché non viene colpito quindi non c’è da stupirsi che Google possa sbagliare (a dire il vero succede spesso).

Riguardo le varie ipotesi legate a tecnicismi sono in questo caso da escludere colpendo la cosa in modo trasversale tecnologie sia backend che frontend differente e con unico elemento comune il template.

La motivazione sul robots.txt fornita sopra ovviamente non sta in piedi. E’ una spiegazione tecnicamente fallace per varie ragioni. Il robots.txt di un sito Y non può mai inibire l’indicizzazione (anzi la de-indicizzazione/filtraggio in questo caso) di un sito X anche perché il robots.txt non è uno strumento che regola l’indicizzazione (se non in particolari casi fuori standard), ma il crawling.

Rispetto anche ai 302 è una ipotesi altamente improbabile in quanto appunto parliamo di siti indicizzati che improvvisamente vengono filtrati in massa, ma soprattutto Google è ben in grado di comprendere che quel 302 tra http e https sia da considerare alla stregua di un 301. In ogni caso non tutti i siti de-indicizzati presentano la problematica del 302 quindi l’ipotesi già decade.

Spero di aver fatto cosa gradita aggiornandovi.

2 Mi Piace

Lo stesso Gianmaria Mazzeo (che conosco), nello stesso thread a cui fai riferimento scrive:

Citazione

In ogni caso, se il restyling dei siti, dove effettuato, non ha comportato modifiche alla struttura URL e/o dove questo è avvenuto ma sono stati adottati i relativi redirect 301, gli interventi di adeguamento non avrebbero dovuto determinare un calo dell’indicizzazione o quantomeno una deindicizzazione di massa …

In questo caso per l’appunto le modifiche strutturali sono state accompagnate da un redirect temporaneo (302) e non da un definitivo (301), come sarebbe stato opportuno. Molto probabilmente per risolvere il problema basterebbe cambiare status code sul protocollo http e su eventuali sottocartelle che ospitano i nuovi temi. Se Gianmaria ne fosse al corrente, darebbe lo stesso suggerimento. Lo fa infatti, implicitamente.

Ciao Andrea,

ti lancio la mia ipotesi a fronte di quanto mi ha spiegato anche Gianmaria Mazzeo: Google ha trovato uno stesso errore in molti siti con lo stesso tema o comunque con un aspetto tecnologico condiviso, quindi per fare prima ha concluso che tutti i siti fatti in quel modo non vanno bene a prescindere.

Fanno eccezione i siti dei capoluoghi di provincia o comunque quelli molto visitati, perché Google è costretto a mostrarli.

Per risolvere il problema non servirà individuare un pattern comune a tutti, ma solo “il più frequente” e fixarlo.

Che ne pensi?

Sinceramente stento a seguire il ragionamento dietro queste teorie.

Chi di Google ha trovato questo stesso errore? Ma soprattutto se prima erano indicizzati con il 302 perché dopo de-indicizzarli perché c’è un 302 che manco dovrebbe interessare in http essendo oramai consolidata la versione https? Cosa vuol dire che per fare prima hanno concluso che non vanno bene.

Non mi pare che abbia molto senso come spiegazione…anche perché la maggior parte di quei siti su 5 livelli non ha il problema del 302.

Anche qui non capisco. Cosa vuol dire che Google è costretto a mostrarli? Google non è costretto a fare nulla. Da chi sarebbe costretto?

Stento a capire anche questa affermazione.

Il problema c’è o non c’è. Chi non ha quel problema cosa dovrebbe fixare?

Al netto di questo non stiamo parlando di un pool di siti perfetti lato SEO. Anzi molti hanno problemi di varia natura, ma qui il tema è che sono finiti in qualche filtro di qualche tipo che ha iniziato ad agire dal 28 Ottobre.

Togliamo un attimo il focus dal fatto che fossero ottimizzati o meno ed escludiamo macro-problemi legati a blocchi di qualche tipo o errori grossolani. Per quanto non ottimizzati sembra evidente che colpire un cluster di siti completamente diversi, ma accomunati da un fattore, crea un indizio.

Quindi se parliamo di probabilità diciamo che Google dovrebbe concentrarsi sul verificare cosa ha fatto scattare quel tipo di filtro…poi mia congettura è che centri qualcosa un classificatore basato su AI/ML e ora non sanno dove mettersi le mani se non provando a creare qualche eccezione o brutalmente facendo un rollback che avrebbe poi un’altra serie di side effect.

Temo che la cosa non sarà breve.

Unica reale possibilità credo sia che i comuni facciamo una bella campagna per far rumore e magari di concerto con le province inizino a parlare dell’accaduto come comunicato verso i cittadini.

1 Mi Piace

Ciao Andrea,

diciamo probabilmente la stessa cosa.

Cerco di spiegarmi meglio: lascia perdere la storia dei redirect temporanei, per quanto sia un problema comune a diversi tra i siti web di cui discutiamo.

Immagina che su 100 siti colpiti, 10 abbiano un problema X, 20, un problema Y, 30 un problema Z e tutti gli altri nessun problema. La mia ipotesi è che un problema presente su tanti siti web dello stesso tipo - statisticamente il problema Z - abbia fatto scattare qualcosa per cui un aggiornamento di Google (non una persona, un update) avrebbe colpito tutti i siti web dello stesso tipo a prescindere. Non chiedermi perché, altrimenti mi costringi a svelarti che Google nell’ultimo anno funziona utilizzando scorciatoie folli che hanno abbattuto la visibilità di centinaia di ottimi siti web senza motivo per favorirne altri senza merito.

I Capoluoghi di provincia non sarebbero colpiti, perché collezionando un numero maggiore di segnali navboost, ottengono un lasciapassare… sostanzialmente lo stesso che nel 2024 ha consentito a molti big di governare le serp di Google, indipendentemente dalla qualità dei contenuti.

Certamente se lavori su fattori secondari diciamo di “trust” e “popolarità” ne esci (ed è infatti il dettaglio dell’ultimo paragrafo del mio precedente post) perché sposti i pesi, ma il problema di base (chiamiamolo bug) lato Google resta.

Non puoi deliberatamente affossare N siti legittimi perché hai preso una cantonata.

Mi pare un problema + di Google che dei siti destinatari di questa botta in testa e visto che parliamo di siti istituzionali magari Google qualcosa lo farà se sollecitato e attaccato.

Io concordo che il problema sia di classificazione, magari basata sul nome di dominio e che per questo motivo i comuni capoluogo di provincia non vengono “filtrati” in quanto hanno il dominio differente, stessa cosa le unioni. Ho la sensazione che il problema sia la parola COMUNE, che potrebbe essere stata travisata o tradotta male. propendo per l’ipotesi dell’AI, per la quale diventa molto problematico fare diagnosi e soprattutto apportare correzioni, in quanto la correzione altro non è che un percorso di apprendimento che non può essere immediato…
Speriamo in questo team di google che ci sta lavorando …

1 Mi Piace

Però anche il Comune di Carrara è sparito da Google, mentre Massa no.

Ciao a tutti, non era mia intenzione entrare in questa discussione, essendo già coinvolto, con alcuni di voi, in quelle aperte, sullo stessa tema, nella Community Search Central di Google.

Ho scelto di intervenire, non perché abbia qualcosa di più o di diverso da dire ma solo perché l’interpretazione che @francescomargherita fa delle mie parole è assolutamente antitetica al mio pensiero (il che rappresenta uno sprone a provare ad essere più chiaro di quanto non sia stato) ma soprattutto rischia di alimentare teorie che non fanno che intorbidire le acque, già poco chiare, e possono pertanto risultare dannose.

Nello specifico, così da rispondere anche alle obiezioni di @andreapernici poste a Francesco, ho già spiegato ieri, nella discussione nella Community, che NON ritengo plausibile la teoria del 302, sia per ragioni strettamente tecniche (sostanzialmente le stesso addotte da Andrea) che per constatazioni oggettive, giacché ci sono moltissimi siti in cui quel problema non è presente (infatti ho fornito un esempio concreto e mi pareva che la questione potesse chiudersi lì).

NON penso che Google abbia trovato lo stesso errore (meno che mai posso averlo lasciato intendere) perché ho analizzato decine di siti, tutti con un campionario veramente ampio di errori, ma nessuno di questi comune a tutti i siti coinvolti e/o che potesse far pensare ad un problema tecnico presente all’interno dei siti. Se anche fosse sfuggito a me, cosa assolutamente probabile, ci sono decine di professionisti che stanno facendo le stesse analisi e non mi risulta che qualcuno abbia trovato questo fantomatico problema X.

NON credo che i siti dei capoluoghi di provincia facciano eccezione, anche in questo caso sostanzialmente per le medesime ragioni di Andrea ma prima ancora perché tra i siti colpiti dal problema ci sono anche quelli di alcuni capoluoghi di provincia.

Come ho scritto già ieri e ribadisco nuovamente, allo stato attuale NON penso che alcun intervento messo in atto sui siti coinvolti possa essere risolutivo.

Aggiungo poi, qualora possa essere utili a chi sta indagando sul caso, se non ho inteso male, Andrea ipotizzava una concomitanza del problema con l’utilizzo di un tema comune

Citazione

L’ipotesi più probabile cadendo la casistica nelle “Crawled but not indexed” è che qualche aggiornamento algortimico abbia avuto il side-effect di filtrare le pagine che usano il template in questione.

Questa era una delle ipotesi indagate, fino a quando non mi sono imbattuto in siti che invece non hanno ancora adottato quel tema, inducendomi a pensare che neanche quello sia il fattore “comune”.

Quindi per concludere, quando ci saranno dettagli ulteriori dal team di Google, con il quale stiamo condividendo tutti i dati raccolti dalle nostre e vostre analisi, li comunicheremo prontamente nella Community, e pregherei chi di voi è presente sia qui che lì di riportare in questa sede le informazioni (preferibilmente senza attribuirgli interpretazioni personali).

P.S.
non sono in condizione di portare avanti discussioni su più fronti, quindi, sperando di aver fugato dubbi sulla mia posizione riguardo al problema specifico, seguirò l’evolversi di questa discussione senza però prendervi più parte, rimanendo invece a disposizione per qualsiasi confronto nella Community Search Central.

2 Mi Piace

Buongiorno a tutti,

Collaboro con un’amministrazione comunale che ha recentemente affidato a una ditta la completa rifacitura del proprio sito, passando da un dominio di primo livello con template 2018 a un nuovo dominio di terzo livello. Il sito rinnovato è stato messo online il 2 luglio, mentre il precedente è stato rimosso senza alcun reindirizzamento, né temporaneo (302) né definitivo (301). Sin dall’inizio, la ditta incaricata non ha prestato particolare attenzione all’ottimizzazione per l’indicizzazione: non sono stati configurati file robots.txt adeguati né generata una sitemap.xml, e non è stata nemmeno rivendicata la proprietà del nuovo dominio su Google Search Console.

Nonostante ciò, nei primi giorni il sito era comunque visibile nei risultati di ricerca con termini come “Comune di …”, ma verso agosto abbiamo osservato una drastica scomparsa del sito dai risultati di Google. Inizialmente abbiamo attribuito questo problema alla mancanza di una segnalazione formale a Google del nuovo sito e delle relative impostazioni.

Ora, leggendo i recenti aggiornamenti e confrontando quanto accaduto con altre esperienze, mi sembra che tra agosto e settembre Google abbia introdotto modifiche ai suoi algoritmi o ai parametri dei crawler che potrebbero influenzare la visibilità di questi nuovi template. Inoltre, l’intervento di altri utenti su questo forum mi ha fatto riflettere: potrebbe trattarsi di un problema legato alla mancanza di specifici tag SEO e HTML, come il canonical, che effettivamente non sono stati implementati nel sito.

Quindi chiedo vostro parere: è possibile che la mancata indicizzazione sia dovuta a un’incompatibilità tra questi nuovi template e le attuali esigenze di Google per siti istituzionali, magari accentuata dall’assenza di tag adeguati? Perché ad esempio il tag canonical manca e ho ricevuto una delle notifiche di Google riguardo a questo.

Grazie per qualsiasi feedback o suggerimento!

Ciao Valerio,

a giudicare da quanto scrivi sembra un caso diverso rispetto all’attuale quindi forse meglio affrontarlo in altra sede.

Come dicevamo sopra gli aspetti tecnici ovviamente possono influire, ma nessuno è necessariamente determinante e vanno valutati caso per caso.

Ad esempio il canonical auto-referenziale…in alcuni casi non è necessario in altri può essere utile, in altri una salvezza…ma tutto dipende da come è fatto il motore sotto al sito.

Quindi una risposta univoca non c’è e non ci sarà mai. Solo best practice da adottare per avvicinarsi quanto più possibile al controllo di cosa possiamo controllare. Alla fine buona parte della SEO è questo. Presa di controllo di cosa e come vogliamo che il motore di ricerca identifichi nel modo migliore possibile.

Ciao a tutti, ho il sospetto (senza però prove concrete) che abbiano introdotto l’AI all’interno del search e che quest’ultima abbia avuto un “comportamento” (bug) non preventivato. In questo periodo hanno spinto parecchio per l’introduzione di Gemini all’interno delle Google Apps e i competitor non sono stati a guardare (vedi SearchGPT).
Rimaniamo in attesa (inermi).

1 Mi Piace

In questi giorni ho ricevuto anche notifiche di cancellazione da GMaps di attività esistenti e regolarmente operative, ma improvvisamente ritenute “non idonee” alla pubblicazione. Il sospetto nei confronti di Gemini è venuto pure a me, sempre senza prove.

Ciao @gianmaria_mazzeo mi scuso per aver travisato le tue parole. Il tema è parecchio complesso e discuterne per iscritto rende tutto ancora più complicato.

Pare di capire, che l’origine della situazione sia tutta di Google. Del suo algoritmo più o meno guidata dalla salvifica intelligenza artificiale.
Attendiamo quindi.
Nel frattempo, oltre a spippolare - a chi gli piace e può - nella search console per trovare indizi e tratti comuni(*), oltre a sperare di riapparire su Google, che si fa? SI pensa a come siamo fragili e inermi di fronte ai motori di ricerca?

(*) che poi magari l’algoritmo artificialmente intelligente ha preso una piega perbenista e ha deciso che qualche termine tecnico-amministrativo-burocratico per descrivere quale procedimento comunale sia disdicevole. vallo a sapere, non poniamo limiti alla realtà…

2 Mi Piace

Se l’Europa avesse un proprio motore di ricerca funzionante, come l’hanno altre nazioni avanzate in campo IT, il problema sarebbe meno pressante. Ma a Bruxelles preferiscono legiferare a cose ormai fatte senza sporcarsi le mani con una riga di codice. Quanti dei soloni che scrivono le regole di AI sanno che cos’e’ un “Ping”? O avrebbero l’umilta’ di chiederlo a chi lo sa?
In questi giorni sono partite le critiche a X. Vale lo stesso discorso. E’ una comunicazione molto semplice, si tratta di avere server adatti e dimensionati. Nessun calcolo avanzato. L’Europa e’ in grado di creare una soluzione alternativa? Se la risposta e’ “no”, allora accettiamo quanto ci passano gli altri. I prossimi mesi ne vedremo delle belle…

2 Mi Piace