Validità del robots.txt dei comuni italiani

Buongiorno e buon anno a tutti,

Vi contatto in merito ad una questione per la quale ho trovato documentazioni abbastanza discordanti.
Avendo necessità di realizzare una banca dati delle email degli uffici tecnici dei comuni di tutta italia, utilizzo un web scraper, basato su Scrapy, che scandaglia gli url dati come input e salva le email contenente precise keywords.
Ora, nei setting dello scraper, è impostato di default l’ obbedienza al file robots.txt, il quale presenta il comando Disallow per la quasi totalità degli scraper utilizzabili.
Poichè questo limita notevolmente le possibilità di ricerca, volevo sapere quale sia la normativa o la prassi, nel caso io volessi rimuovere l’impostazione nello scraper e dunque scandagliare lo stesso il sito.

Grazie in anticipo e buona giornata,

Daniele

Ciao @DanieleUsai,
non so dal punto di vista generare il perche di questa scelta,
ma prima di fare lo scraping credo che sia meglio che prendi una decina di comuni e controlli i termini di utilizzo del sito / termini legali, qui dovrebbe esserci la parte di licenza dei contenuti, controlla che nei siti in cui lo scrapper ha il problema del robots.txt se i contenuti sono a licenza libera (è in teoria, ma verifica, qui dovresti essere ok per procedere con lo scraping) altrimenti prova a vedere se c’è scritto come ottenere l’ok per usare i dati/conteunti

qui un essempio del mio comune di residenza:

Licenza dei contenuti

In applicazione del principio open by default ai sensi dell’articolo 52 del decreto legislativo 7 marzo 2005, n. 82 (CAD) e salvo dove diversamente specificato (compresi i contenuti incorporati di terzi), i dati, i documenti e le informazioni pubblicati sul sito sono rilasciati con licenza CC-BY 4.0. Gli utenti sono quindi liberi di condividere (riprodurre, distribuire, comunicare al pubblico, esporre in pubblico), rappresentare, eseguire e recitare questo materiale con qualsiasi mezzo e formato e modificare (trasformare il materiale e utilizzarlo per opere derivate) per qualsiasi fine, anche commerciale con il solo onere di attribuzione, senza apporre restrizioni aggiuntive.

Spero di esserti stato d’aiuto,

Grazie

Ciao Alessio,

ti ringrazio per la dritta. Ero si a conoscenza del fatto che non c’è per forza correlazione tra le indicazioni del file robots.txt e i termini di licenza. Avendo fatto la prova con una cinquantina di siti, ho potuto verificare che in circa la metà la ricerca viene bloccata. Tenendo a mente ciò ora capirò in maniera più consapevole come muovermi.

Saluti,
Daniele