Il file robots.txt è una delle vie principali che si utilizza al fine di poter comunicare al meglio con i motori di ricerca. Tutti i motori di ricerca principali supportano le funzionalità che ti offre questo file.
Magari tu mi dirai: “cosa significa comunicare con i motori di ricerca!?”.
Non ti preoccupare che a breve te lo spiego.
In questa guida dettagliata ti spiego bene che cos’è il file robots.txt e successivamente vedremo anche come lo si deve utilizzare. Come vedrai il file risulterà abbastanza facile da compilare però sappi che devi porre massima attenzione quando andrai a modificare questo file.
Un minimo errore potrebbe compromettere il tuo posizionamento sui motori di ricerca.
Ora, non farti prendere dal panico perché grazie a questa guida riuscirai anche tu a creare il file robots.txt senza grossi problemi. Se dovessi avere dei dubbi comunque puoi sempre lasciarmi un tuo commento in fondo all’articolo. Partiamo con la guida.
Il file robots.txt è un normale file di testo contenente delle stringhe speciali che servono per poter comunicare con i motori di ricerca quali Google, Bing, Yahoo etc.
Se non lo sai i motori di ricerca per controllare lo stato del tuo sito web utilizzano appunto dei robot, ovvero delle “macchine”.
Puoi creare questo file semplicemente utilizzando il blocco note di Windows in quanto questo programma ti salva già il file nel formato .txt. Naturalmente qualsiasi altro formato non è leggibile dai motori di ricerca.
La sintassi che bisogna utilizzare per la creazione del file robots.txt è molto semplice perché deve essere facilmente leggibile da questi robot quando passeranno a controllare il tuo sito web.
Puoi fare diverse cose grazie all’utilizzo di questo file e ora te le vado a spiegare.
Il file robots.txt serve solamente per controllare il traffico di scansione al tuo sito web.
Generalmente serve per evitare che il server (il tuo hosting) venga sovraccaricato dai robot che passano a visitare il tuo sito oppure serve anche per non sprecare risorse preziose andando a bloccare l’accesso a pagine o ad articoli che non siano rilevanti.
Attenzione: non devi assolutamente andare ad utilizzare il file robots.txt come mezzo per nascondere le tue pagine web o i tuoi articoli dai risultati di ricerca.
Se non vuoi far visualizzare una tua pagina sui motori di ricerca, ti consiglio di utilizzare un altro metodo. Ad esempio potresti utilizzare il plugin per WordPress “Yoast SEO” in quanto ti consente di aggiungere il tag “noindex” ad ogni singolo pagina web.
In alternativa puoi aggiungere questo tag manualmente inserendo il seguente codice nella sezione “head” all’interno della pagina che non vuoi indicizzare sui motori di ricerca:
<meta name="robots" content="noindex">
Detto questo devi tener presente che alcuni “robot” potrebbero non seguire correttamente il meta tag “noindex“. Di conseguenza, è possibile che la tua pagina continui ad apparire nei risultati di certi motori di ricerca.
Per quanto riguarda i motori di ricerca quali Google, Bing e Yahoo non ti preoccupare che leggeranno correttamente il file robots.txt.
Ora che abbiamo visto a cosa serve esattamente il file robots.txt, vediamo la sintassi corretta che devi utilizzare al fine di creare questo file.
La prima cosa che devi sapere è che s’inizia sempre a scrivere questo file andando a definire un “user-agent“. Questa dicitura non è altro che il nome del robot che visita il nostro sito web.
Dunque per ogni motore di ricerca abbiamo un “user-agent” diverso così possiamo andare a dialogare in modo più specifico.
Vediamo qui di seguito un esempio pratico così puoi capire meglio:
User-agent: * Disallow: / User-agent: Googlebot Disallow: User-agent: bingbot Disallow: /non-per-bing/
Come vedi sulla prima riga abbiamo inserito l’user-agent con l’asterisco. L’asterisco sta a significare che vogliamo che la seguente regola venga letta da tutti i motori di ricerca.
Nel secondo esempio invece ho scritto “User-agent: Googlebot” il che sta a significare che la regola successiva verrà letta solamente dai robot di Google e non anche dagli altri motori di ricerca.
Stessa cosa per quanto riguarda “User-agent: bingbot”, il robot di Bing.
Qui di seguito trovi una tabella contenente gli user-agent più comuni della rete.
Sulla seconda riga come vedi abbiamo la dicitura “Disallow: /“.
La voce “Disallow” serve per dire ai motori di ricerca di non passare a controllare delle determinate pagine o files del nostro sito web così da non appesantire troppo il carico sul tuo server (se hai un sito di grandi dimensioni).
Se scriviamo “Disallow: /” significa che non stiamo dando libero passaggio ai robot. Per bloccare l’accesso ad una determinata directory o cartella, devi compilare il file come segue:
User-agent: * Disallow: /foto
In questo modo stiamo dicendo a tutti i motori di ricerca di non passare a visitare la cartella “/foto” che c’è sul nostro sito web. Fai attenzione che il file robots.txt è sensibile alle lettere maiuscole o minuscole. Quindi scrivere “/foto” o “/Foto”, non è la stessa cosa.
Ora andando più nello specifico, se vuoi puoi dire ai robot di non leggere una determinata estensione sempre all’interno della cartella “/foto”. Lo puoi fare in questo modo:
User-agent: * Disallow: /foto/*jpg
Così facendo tutti i motori di ricerca non andranno a leggere tutte le tue immagini .jpg che sono all’interno della cartella “/foto” ma bensì leggeranno tutte le foto o i files che hanno un’estensione diversa.
Oltre alla funzionalità “Disallow” ce ne sarebbero altre ma in base alla mia esperienza personale ti posso garantire che non le ho mai viste usare da nessuno anche perché non sono supportate da tutti i motori di ricerca.
Per questo motivo io ti consiglio di focalizzarti solamente nell’utilizzo della funzione “Disallow”.
Una volta che sarai andato a creare il file robots.txt (lo puoi fare anche con il blocco note di Windows), lo si deve andare ad inserire nella root principale del tuo sito web.
In altre parole devi inserire questo fine sulla cartella principale del tuo sito web, ovvero all’interno del tuo dominio.
Esempio: www.tuosito.it/robots.txt
Fai molta attenzione a rinominare il file correttamente altrimenti i motori di ricerca non riusciranno a trovarlo e quindi non potranno scannerizzare il tuo sito web. Il file deve essere rinominato in “robots.txt” così come lo vedi scritto, tutto in minuscolo.
Una volta che avrai inserito il file nella cartella principale del sito, prova a verificare che tale file venga visualizzato correttamente. Puoi fare questo semplicemente andando a visitare l’URL dove è stato inserito il file, ovvero su www.tuosito.it/robots.txt.
Usare il file robots.txt come abbiamo detto è utile per alleggerire il carico al nostro sito web ma devi fare attenzione perché questo file non ti consente di bloccare un contenuto dall’essere indicizzato sui motori di ricerca.
Se vuoi fare questo ti consiglio di usare il plugin “Yoast SEO” se utilizzi la piattaforma WordPress, ti sarà di enorme utilità al fine di migliorare il tuo posizionamento sui motori di ricerca.
Se vuoi approfondire un po’ di più l’argomento della SEO ti consiglio di andarti a leggere questa mia guida: cos’è la SEO e come funziona.
Ora che hai inserito il file robots.txt all’interno del tuo sito web, è arrivato il momento di andarlo a verificare tramite lo strumento per webmaster di Google, ovvero il “Google WebMaster Tool“.
Spero vivamente che tu abbia già registrato il tuo sito web presso questo servizio in quanto è indispensabile al fine di indicizzare al meglio il proprio sito web sul motore di ricerca di Google. Se non hai ancora un’account, ne puoi creare uno da qui: iscriviti al programma.
Una volta che avrai effettuato l’accesso, clicca sul menu di sinistra e vai alla voce “Scansione > Tester dei file robots.txt“. Dovresti vedere una schermata come questa:
Esegui l’operazione come vedi nell’immagine e verifica che il file robots.txt dia l’accesso ai bot di Google. Naturalmente puoi fare questa operazione anche per gli altri motori di ricerca se lo desideri.
In questo articolo oggi ti ho spiegato bene che cos’è il file robots.txt e come lo puoi andare a creare. Come ti ho detto fai massima attenzione quando vai a compilare il file di testo in quanto è molto importante che la sintassi sia corretta altrimenti i motori di ricerca non leggeranno il file.
Fai anche attenzione a scrivere tutto in minuscolo, mi raccomando che questa è un’operazione delicata da fare. Se hai dei dubbi o se hai delle domande da farmi a riguardo di come creare il file robots.txt, lasciami pure il tuo commento qui sotto all’articolo, sarà un piacere per me aiutarti.
Se vuoi ricevere del traffico gratuito da parte dei motori di ricerca e non sai come fare, puoi continuare la lettura del mio blog leggendoti questo articolo: ottimizzazione SEO per WordPress!
Roberto Marchesini è il creatore e fondatore di Assistenza WP. Inoltre é l'autore del manuale completo su WordPress con cui è riuscito ad aiutare migliaia di persone a realizzare i propri progetti online.
Grazie Roberto dei tuoi consigli preziosi. Ti seguo da un anno circa ed è grazie anche ai tuoi approfondimenti su YouTube che mi sono appassionata ai siti web con WordPress e alla SEO.
Infatti grazie a qualche corso che ho seguito e ad una formazione continua con video tutorial mi sono affermata nel mondo del digital marketing con Nextre Digital. Grazie ancora per le spiegazioni super chiare ?
Buongiorno Roberto
Hai anche realizzato qualche post su come far viaggiare o indicizzare
wordpress nelle posizioni più in alto di Google.
Pasquale, per quello ho realizzato un intero video corso online: https://assistenzawp.assistenzawponline.net/prodotti-digitali/