Che cos’è il file robots.txt?
In breve
Robots.txt è un file che indica ai motori di ricerca le pagine di un sito web alle quali è consentito accedere e quelle a cui non si dovrebbe. Aiuta i proprietari di siti a controllare il modo in cui il proprio sito viene scansionato e indicizzato dai motori di ricerca.
Le prime cose da sapere sono che il file robots.txt si trova all’interno tuo sito web e che gli spider dei motori di ricerca cercheranno automaticamente il tuo file robots.txt per ricevere istruzioni prima di eseguire la scansione del tuo sito. Pertanto, dovresti sempre ospitare il tuo file robots.txt nella directory principale del sito, poiché questo è il primo posto in cui gli spider andranno a cercare le istruzioni.
Per verificare se il file robots.txt è presente nel tuo sito web, puoi cercarlo digitando www.ilnomedeltuositoweb.com/robots.txt.
Google consiglia a tutti coloro che possiedono un sito web di implementare il file robots.txt. Se infatti, i crawler di Google non riescono a trovare il tuo file robots.txt, è molto probabile che il motore di ricerca non eseguirà la scansione di tutte le pagine importanti del tuo sito web. Ricorda che il compito di un motore di ricerca è quello di scansionare e indicizzare il tuo sito web per renderlo accessibile alle persone.
File robots.txt: a cosa serve?
Robots.txt ti consente di “nascondere” parti del tuo sito web e di indicizzarne altre. Puoi scegliere cioè, di “consentire” (Allow) o “non consentire” (Disallow) che determinate pagine e cartelle del tuo sito web vengano indicizzate.
Autorizzando determinate pagine ad essere indicizzate (Allow), consentirai agli spider di accedere a quelle aree specifiche del tuo sito e di indicizzarle. Al contrario, Disallow significa che non vuoi che gli spider trovino determinate pagine e aree del tuo sito web.
Robots.txt consente al tuo sito web di essere disponibile e accessibile sui motori di ricerca. Quindi, ad esempio, se hai una pagina di contatto sul tuo sito web, puoi decidere di bloccare quella pagina, con l’aiuto di robots.txt, in modo che Google possa scansionare altre pagine importanti del tuo sito e non perdere tempo a scansionare una pagina che non ti interessa davvero che le persone trovino attraverso il motore di ricerca.
In questo modo, comunichi a Google che non deve eseguire la scansione del contenuto della tua pagina di contatto. Naturalmente, se è ciò che desideri, puoi anche bloccare il tuo sito web per intero utilizzando a robots.txt.
Come funziona robots.txt?
Esistono vari tipi di crawler disponibili per diversi motori di ricerca e piattaforme. Di solito, chiamiamo questi crawler “User Agent”. Quindi, quando decidi di consentire o meno la scansione di una determinata area del tuo sito web, puoi scegliere di identificare un crawler specifico come User Agent, ad esempio Googlebot (i crawler di Google), oppure puoi semplicemente utilizzare un * e fare riferimento a tutti i crawler presenti sul World Wide Web.
Ci sono diverse funzioni avanzate che puoi sfruttare con i robots.txt. Per esempio, puoi bloccare URL, directory o anche parametri URL specifici.
La stessa tecnica si applica alle pagine che vuoi che Google sottoponga a scansione e sulle quali desideri che ponga maggiore attenzione. Puoi indicizzare queste pagine preferite con l’aiuto di robots.txt.
Ritardi (Time delays)
Puoi includere dei ritardi (Time delays) nel file robots.txt. Per esempio, se non desideri che un crawler esegua la scansione del tuo sito web rapidamente, puoi inserire dei ritardi. Cosa significa? Stai dicendo agli spider di eseguire la scansione del tuo sito web fino a quando non è stato specificato un ritardo.
Dovresti utilizzare il time delay per assicurarti che i crawler non sovraccarichino il tuo server web.
Tuttavia, tieni presente che Google non supporta i ritardi e che quindi, se non vuoi sovraccaricare il tuo server web, con i bot di Google dovrai intervenire sulla velocità di scansione. Puoi scegliere la tua velocità di scansione preferita in Google Search Console e provare a rallentare gli spider.
Pattern matching
Se disponi di un sito web esteso, puoi prendere in considerazione l’implementazione del pattern matching. Che si tratti di Google o di qualsiasi altro motore di ricerca, puoi indicargli di esaminare e scansionare le tue pagine in base a una serie di regole.
Il pattern matching implica una serie di regole che vuoi che i crawler seguano. Ad esempio, potresti voler bloccare gli URL che contengono la parola “sito web”.
Perché dovresti usare robots.txt?
Molte persone utilizzano robots.txt per impedire a terzi di eseguire la scansione dei propri siti web. Devi sapere infatti, che non sono solo i motori di ricerca a scansionare il tuo sito web; anche altre terze parti cercano costantemente di accedere al tuo sito. Di conseguenza, tutte queste scansioni non fanno che rallentare il tuo sito web e il tuo server, causando un’esperienza negativa per l’utente. Inoltre, questi widget di terze parti possono causare problemi al server, che poi dovrai essere tu a risolvere.
Puoi anche utilizzare robots.txt per impedire a terzi di copiare contenuti dal tuo sito web o analizzare le modifiche apportate al tuo sito web. Robots.txt è un ottimo modo per nascondere le cose che non vuoi mostrare sul tuo sito web.
Non dimenticare che se qualcuno è molto interessato nel tuo sito web, può ricorrere all’utilizzo di software, come Screaming Frog, che gli permettono di aggirare il “blocco” e procedere alla scansione del tuo sito. Pertanto, quando si tratta di proteggere determinati aspetti del tuo sito web, non dovresti fare completamente affidamento sul file robots.txt.
Robots.txt checker
Puoi utilizzare Google Search Console per vedere se stai bloccando una pagina con il robots.txt checker . È bene controllare questo aspetto di tanto in tanto per assicurarti di non aver bloccato accidentalmente una pagina importante.
Fai molta attenzione quando lavori con il file robots.txt, perché se blocchi accidentalmente l’indicizzazione dell’intero sito web, puoi causare gravi danni al tuo sito.