Che cos’è il file robots.txt?

Prisma Solution

SEE UPDATES

Che cos’è il file robots.txt?

Hai un sito web e ti stai chiedendo come dire al motore di ricerca di quali parti fare una scansione e quali no. Beh, in questo caso il file robots.txt può venirti in aiuto! Vediamo insieme di cosa si tratta!

Che cos’è il file robots.txt?

Robots.txt è un file di testo creato con le istruzioni per i bot (principalmente i crawler dei motori di ricerca ) che tentano di accedere a un sito web.

Definisce a quali aree dei crawler del sito è consentito o non consentito l’accesso. Puoi facilmente escludere interi domini, directory complete, una o più sottodirectory o singoli file semplicemente utilizzando questo file di testo. Ma protegge da accessi non autorizzati.

Robots.txt è archiviato nella directory principale di un dominio. Quindi è il primo documento che i crawler aprono quando visitano il tuo sito. Tuttavia, il file non controlla solo la scansione. Ti permette anche di integrare un link alla tua sitemap, che offrirà ai crawler una panoramica di tutti gli URL esistenti del tuo dominio.

Il file robots.txt ha varie funzioni, ma principalemnte aiuta a gestire le attività dei web crawler in modo che non sovraccarichino il server web che ospita il sito web o indicizzi le pagine che non sono destinate alla visualizzazione pubblica.

Ma entriamo più nello specifico!

Come funziona il file robots.txt?

I motori di ricerca hanno due funzioni principali:

  1. Scansione del Web per scoprire contenuti;
  2. Indicizzare quel contenuto in modo che possa essere offerto agli utenti che cercano informazioni.

Per eseguire la scansione dei siti, i motori di ricerca seguono i collegamenti per passare da un sito all’altro, eseguendo in ultima analisi la scansione di molti miliardi di collegamenti e siti Web. Questo comportamento di scansione è noto come “spidering”. Come se i bot fossero dei ragni che si muovono velocemente sui fili delle loro ragnatele.

Dopo essere arrivato a un sito Web ma prima di eseguirne lo spider, il crawler di ricerca cercherà un file robots.txt. Se ne trova uno, il crawler leggerà quel file prima di continuare nella pagina. Poiché il file robots.txt contiene informazioni su come il motore di ricerca deve scansionare, le informazioni trovate istruiranno ulteriori azioni del crawler su questo particolare sito. Se il file robots.txt non contiene direttive che impediscono l’attività di uno user-agent (o se il sito non dispone di un file robots.txt), procederà alla scansione di altre informazioni sul sito.

Il robots.txt può essere utilizzato per diversi tipi di file. Potresti usarlo per impedire a file di immagine di apparire nei risultati di ricerca di Google. Anche i file di risorse non importanti, come file di script, stili e immagini, possono essere bloccati facilmente con robots.txt. Inoltre, è possibile escludere dalla scansione le pagine web generate dinamicamente utilizzando i comandi appropriati. Ad esempio, le pagine dei risultati di una funzione di ricerca interna, le pagine con gli ID di sessione o le azioni dell’utente come i carrelli della spesa possono essere bloccate. Puoi anche controllare l’accesso del crawler ad altri file non di immagine (pagine web) utilizzando il file di testo. In tal modo, è possibile evitare che:

  • i robot di ricerca eseguono la scansione di molte pagine web simili o non importanti
  • il tuo crawl budget viene sprecato inutilmente
  • il tuo server è sovraccarico di crawler

Tuttavia, tieni presente che robots.txt non garantisce che il tuo sito o le singole pagine secondarie non vengano indicizzate. Controlla solo la scansione del tuo sito web, ma non l’indicizzazione!

Perché Robots.txt è importante?

Ma il file robots.txt è veramente così importante? Molte delle funzioni di cui abbiamo parlato sono svolte anche da Google stesso, poichè di solito riesce autonomamente a trovare e indicizzare le pagine del tuo sito web, quindi perchè utilizzare il file robots.txt?

Blocca pagine non pubbliche: a volte hai pagine sul tuo sito che non vuoi indicizzare. Ad esempio, potresti avere una versione di staging di una pagina. O una pagina di accesso, password o dati sensibili. Queste pagine devono esistere. Ma non vuoi che persone a caso le trovino. Allora, potresti utilizzare robots.txt per bloccare queste dai crawler e dai bot dei motori di ricerca.

Massimizza il crawl budget: se hai difficoltà a ottenere l’indicizzazione di tutte le tue pagine, potresti avere un problema di crawl budget . Bloccando quelle non importanti con robots.txt, Googlebot può spendere una parte maggiore del tuo crawl budget sulle pagine che contano davvero.

Prevenire l’indicizzazione delle risorse: l’utilizzo di meta direttive può funzionano come Robots.txt per impedire l’indicizzazione delle pagine. Tuttavia, non per le risorse multimediali, come PDF e immagini. È qui che entra in gioco robots.txt!

Robots.txt dice agli spider dei motori di ricerca di non eseguire la scansione di pagine specifiche sul tuo sito web.

Puoi controllare nella Google Search Console quali e quante web page hai indicizzato.

Sintassi del file robots.txt

La sintassi di Robots.txt può essere considerata come la “lingua” dei file robots.txt. In pratica saranno le parole che troverai scritte nel tuo file, quindi dovrai essere in grado di capirle, per ottenere ciò che vuoi!

Ma vediamo tutto più nello specifico.

Quali direttive vengono utilizzati in un file robots.txt?

  • Il tuo robots.txt deve essere salvato come file di testo UTF-8 o ASCII nella directory principale della tua pagina web.
    Ci deve essere un solo file con questo nome
  • . Contiene uno o più set di regole strutturati in un formato chiaramente leggibile. Le regole (istruzioni o direttive) vengono elaborate dall’alto verso il basso in cui si distinguono lettere maiuscole e minuscole.Le istruzioni in robots.txt sono sempre composte da due parti. Nella prima parte, definisci a quali bot (user-agent) si applicano le seguenti istruzioni. La seconda contiene l’istruzione (non consentire o consentire).

    I seguenti termini vengono utilizzati in un file robots.txt:

    User agent

    Lo “user agent” è il nome dello spider specifico a cui si rivolge. Puoi avere un blocco per tutti i motori di ricerca, utilizzando un carattere jolly per l’ user agent, o blocchi particolari per motori di ricerca particolari. Uno spider dei motori di ricerca sceglierà sempre il blocco che meglio corrisponde al suo nome.

    Lo User agent è il primo bit di ogni blocco di direttive. Il campo user agent identifica il bot specifico a cui tu vuoi rivolgerti.

    Se vuoi dire a un crawler di Google di fare qualcosa, ti basterà scrivere:

    User-agent: Googlebot

    Proprio come vedi nell’immagine sopra!

    La maggior parte dei motori di ricerca ha più spider. Utilizzanno uno spider specifico per il loro normale indice, programmi pubblicitari, immagini, video, ecc.

    I motori di ricerca scelgono sempre il blocco di direttive più specifico che riescono a trovare.

    Disallow

    La seconda riga in qualsiasi blocco di direttive è la Disallow. Puoi avere una o più di queste righe, specificando a quali parti del sito lo spider specificato non può accedere. Una Disallow vuota significa che non stai vietando nulla e lo spider potrà accedere a tutte le sezioni del tuo sito.

    L’esempio seguente impedirebbe a tutti i motori di ricerca che “ascoltano” robots.txt di eseguire la scansione del tuo sito.

    Oppure se se cerchi di impedire la scansione di qualcosa più nello specifico potresti scrivere:

    In questo caso impedirebbe a Google di eseguire la scansione della Photo directory sul tuo sito e di tutto ciò che contiene.

    Allow

    La direttiva Allow viene usata per indicare ai crawler il percorso al quale possono accedere, è in un certo senso, come si può intuitivamente pensare, il contrario della direttiva disallow.

    Si trova generalmente alla terza riga.

    L’unico altro modo per ottenere lo stesso risultato senza una allow directory sarebbe stato specificamente disallow ogni singolo file.

    Sitemap

    Usando la direttiva sitemap, puoi dire ai motori di ricerca dove trovare la tua sitemap XML. Ovviamente puoi inviare le tue sitemap a ciascun motore di ricerca utilizzando i loro strumenti per i webmaster, come google search console. Ti consigliamo vivamente di farlo perché questi strumenti per i ti forniranno un sacco di informazioni sul tuo sito. Se non vuoi, però, aggiungere una sitemapriga al tuo robots.txt è una buona alternativa rapida.

    Se ti va di saperne di più sulla sitemap, potresti leggere il nostro articolo: https://prismasolution.it/che-cose-una-sitemap/

    Crawl-delay

    La direttiva crawl delay serve per prevenire il sovraccarico dei server dovuto alle troppe richieste dei crawler. Attraverso la direttiva crawl delay è possibile specificare un ritardo di scansione in secondi per evitare il sovraccarico.

    Nel caso dell’immagine dici a googlebot di attendere 5 secondi dopo ogni richiesta di scansione.

    C’è da dire, però, che l’azione di questa direttiva è solo temporanea, quindi se il tuo sito è ospitato da un serve scadente potresti comunque avere problemi di servizi, quindi magari prima pensa a risolvere quei problemi e poi al tuo posizionamento su google.

    Nofollow

    Questa direttiva non è supportata ufficialmente da Google, ma viene usata ancora da qualcuno per dire al motore di ricerca di non seguire specifici link su una pagina o file.

    Tuttavia, su google dovresti utilizzare il meta tag robots o l’intestazione HTTP X-Robots-Tag.

    Pattern-matching

    Quando si tratta degli URL effettivi da bloccare o consentire, i file robots.txt possono diventare piuttosto complessi in quanto consentono l’uso della corrispondenza dei modelli per coprire una gamma di possibili opzioni URL.

    Google e Bing rispettano entrambi due espressioni regolari che possono essere utilizzate per identificare pagine o sottocartelle che un SEO vuole escludere. Questi due caratteri sono l’ asterisco (*) e il simbolo del dollaro ($). Li abbiamo visti anche sopra!

    • * è un carattere jolly che rappresenta qualsiasi sequenza di caratteri.
    • $ corrisponde alla fine dell’URL.

    Come creare un file robots.txt

    Perfetto! Ora che sappiamo cos’è e che “lingua” parlare con lui, vediamo come creare un file robots.txt!

    Non è molto difficile, devi solo prenderci un po’ la mano e imparare come chiedere le cose giuste, ma vediamolo meglio insieme.

    Best practice

    Inizia aprendo un documento .txt vuoto, il ricorda sempre che file robots.txt è un file di testo, quindi in pratica, dovrai scrivere!

    Il formato, generalmente è sempre lo stesso:

    User agent: x

    Disallow: y

    E poi, puoi aggiungere tutte le direttive di cui hai bisogno. Prima abbiamo visto molti esempi insieme, no? In ogni caso Google sarà sempre ben felice di venirti in aiuto con qualche suggerimento.

    Una volta ottenuto il file robots.txt, è il momento di pubblicarlo.

    Tecnicamente puoi posizionare il tuo file robots.txt in qualsiasi directory principale del tuo sito. Ma per aumentare le probabilità che il tuo file robots.txt venga trovato, ti consiglio di posizionarlo in:

    https://example.com/robots.txt

    (Tieni presente che il tuo file robots.txt fa distinzione tra maiuscole e minuscole. Quindi assicurati di utilizzare una “r” minuscola nel nome del file).

    È davvero importante che il tuo file robots.txt sia configurato correttamente. Un errore e il tuo intero sito potrebbe essere deindicizzato.

    Fortunatamente, non devi solo sperare che il tuo codice sia impostato correttamente, puoi anche fare qualcosa di pratico per verificare che sia tutto apposto. Google ha un ingegnoso strumento di test per robot che puoi utilizzare:

    Una volta fatto questo il gioco è fatto!

    Come creare un file robots.txt?

    In pratica è facile. Apri il tuo file, digiti le direttive e tutto dovrebbe essere apposto. Noi però ti diamo dei piccoli consigli per evitare di commettere errori, che ovviamente tutti possono fare, e facilitare e velocizzare il tuo lavoro!

    Ogni direttiva su una riga

    So che sembra un consiglio banale, ma ricordati sempre che ogni direttiva deve stare sulla sua riga. Quindi, in pratica, scrivi una direttiva e poi vai a capo. Altrimenti i motori di ricerca potrebbero confondersi durante l’analisi del tuo file robots.txt.

    Usa correttamente asterico e “$”

    Ricordati che l’ asterisco serve per assegnare le direttive a tutti gli user-agent, ma anche per individuare URL con precisi caratteri al loro interno. $ invece, per indicare la fine di un URL è possibile utilizzare

    Utilizza commenti

    Commentare il tuo file robots.txt potrà essere utile a chi lavorerà con te, ma non avrà creato lui stesso il file. Sarà più facile orientarsi, no?

    I commenti sono preceduti dal simbolo cancelletto e possono essere inseriti all’inizio di una riga o dopo una direttiva sulla stessa riga. Tutto ciò che segue il carattere # sarà ignorato dai crawler.

    Evita il chaching

    Il file robots txt viene generalmente memorizzato all’ interno della chache per un massimo di ventiquattro ore.

    Sarebbe meglio evitare che resti per troppo tempo memorizzato lì, affinchè il motore di ricerca non impieghi più tempo del necessario nel rilevare eventuali modifiche effettuate al file.

    Che ruolo gioca robots.txt nella SEO?

    Le istruzioni in un file robots.txt hanno una forte influenza sulla SEO , poiché il file ti consente di controllare i bot di ricerca. Tuttavia, se i programmi utente sono troppo limitati dalle istruzioni di non autorizzazione, ciò potrebbe avere un effetto negativo sul posizionamento del tuo sito web.

    Devi anche considerare che non ti classificherai con le pagine web che hai escluso da disallow in robots.txt.

    Prima di salvare il file nella directory principale del tuo sito web, dovresti controllare la sintassi. Anche errori minori possono portare i robot di ricerca a ignorare le regole di non autorizzazione e a eseguire la scansione di siti web che non dovrebbero essere indicizzati.

    Tali errori possono anche comportare che le pagine non siano più accessibili per i bot di ricerca e che interi URL non vengano indicizzati a causa del disallow.

    Utilizzando correttamente robots.txt puoi assicurarti che tutte le parti importanti del tuo sito web vengano scansionate dai robot di ricerca.

     Curiosità sul file robots.txt!

    Infine ti svelerò un piccolo segreto!

    A volte i file robots.txt contengono degli Easter egg! Ad alcuni sviluppatori piace lasciare dei messaggi simpatici nei loro file, perchè sanno che tanto questi file non verranno visti dagli utenti.

    Quindi in alcuni file robots.txt di certi siti, si potrebbero trovare delle cose interessanti!

    Ad esempio, il file robots.txt di YouTube recita: “Creato in un lontano futuro (anno 2000) dopo la rivolta robotica della metà degli anni ’90 che ha spazzato via tutti gli esseri umani”.

Author

The authors

LEARN MORE ABOUT US
Prisma Solution

Prisma Solution ico

THE BEHIND THE SCENES OF THIS BLOG

This article has been written and researched following a precise methodology.

Our methodology
Index