Cari lettori di Tecnogalaxy, oggi parleremo del famoso file robots.txt (per chi svolge hacking lo conosce).

A cosa server il file robots.txt, quando un motore di ricerca vede un sito web, ha molte informazioni da dover leggere, (importanti e non), tutte queste info devono essere tutte lette e catalogate. La lettura di un sito web inizia proprio da questo file robots.txt.

Questo file è di facile scrittura e suggerisce al motore di ricerca cosa leggere…. ma come legge un motore di ricerca i siti? Con il Crawler…

Che cos’è il Crawler

Il Crawler è un software che analizza i contenuti di una rete in modo automatizzato raccogliendo una copia testuale inserendola in un indice. Il crawler è anche chiamato spider o robot.

Esistono molti tipi di spider, ogni motore di ricerca utilizza il suo, di seguito il link dove puoi trovare una tabella esplicativa dei spider più “famosi”.

https://it.wikipedia.org/wiki/Crawler

Come si scrive un file Robots.txt ?

La grammatica del file robots.txt è molto semplice, di solito è fatto di poche righe, il file lo puoi vedere in ogni sito basta scrivere dopo il dominio robots.txt ad esempio: http://www.google.it/robots.txt

Per scrivere il file robots.txt puoi utilizzare il classico Notepad, blocco note o un qualsiasi programma di scrittura che ti permetta il salvataggio del file con estensione *.txt

Intestazione del file

La prima riga che dovrai scrivere è dedicata al nome dello spider che dovrà leggere quel particolare blocco di informazioni.

User-agent

Se vuoi che le informazioni vengano lette solo dal crawler di Google dovrai scrivere così:

User-agent: Googlebot

Tutto quello che verrà scritto dopo questa intestazione sarà d’interesse solo di questo spider ad esempio : Googlebot

Per fare in modo che tutti i crawler leggono il tuo file robots.txt, basta scrivere:

User-agent: *

Ovviamente l’asterisco indica che qualsiasi tipo di spider dovrà leggere le prossime istruzioni.

User-agent: Googlebot
User-agent: Mercator

Oppure potrai scriverlo così:

User-agent: *

Dopo aver indicato quale spider dovrà leggere il nostro file, dovremo anche scrivere cosa vogliamo  che legga.

Disallow: Ragionare per esclusione

Se hai una infarinatura nella programmazione saprai che ad ogni riga di codice corrisponde un’azione che deve fare la macchina.

Nel nostro caso, per il file robots ogni riga scritta corrisponde a quello che la macchina non deve fare.

Il comando più importante che dovremo scrivere all’interno del file robots.txt è il Disallow , cioè quello che indica ciò che non deve essere letto.

Dobbiamo ovviamente aggiungere anche il comando che ci permette di creare l’eccezione al blocco del disallow, scrivendo il comando allow. 

Il comando Disallow

Dobbiamo ragionare in maniera inversa, nel file robots.txt dovremo scrivere quello che non deve essere letto dagli spider.

Disallow: / (dopo i due punti scrivere il contenuto)

Disallow: /directory/

Con questo comando negheremo l’accesso ad una particolare directory del sito.

Se invece non vogliamo far leggere un preciso file, dovremo scrivere:

Disallow: /filepersonale.html

Possiamo ovviamente aggiungere un’eccezione con il comando allow la sintassi è uguale al disallow, ad esempio:

Allow:

Ovviamente dopo i due punti andrà la risorsa che non dovrà subire la restrizione di un comando precedente.

Esempio di scrittura del file:

User-agent: *
Disallow: /directory/
Allow: /directory/image.jpg

Con questi comandi si dice a qualsiasi spider che non deve leggere la cartella directory, ma potrà leggere il file image.jpg

Ogni sito ovviamente deve avere la sua sitemap. Ma cos’è la sitemap?

E’ un file che contiene tutti i link presenti nel sito, (pagine, articoli, immagini ecc.)

Quando lo spider entra in un sito la prima cosa che fa è la lettura del file robots.txt;

Poi passa alla scansione del sito, se all’interno del file gli facciamo trovare anche l’indirizzo e dove si trova la sitemap , verranno ottimizzati i tempi di lettura.

Sitemap: http://www.iltuosito.com/sitemap.xml

Alla fine avere un file robots.txt ben organizzato e ben scritto farà risparmiare molto tempo agli spider, e al crawler.

Provate guardare il file robots.txt di Facebook.

https://facebook.com/robots.txt

Come sempre fatene buon uso facendo dei test su vostri device / computer , farli su device/computer non vostri è illegale.

Al prossimo articolo!

N.B.: Non mi assumo nessuna responsabilità dell’uso che farete della guida, in quanto stilata per uso didattico e formativo.

Giorgio Perego

IT Manager

Leggi anche:

Ti è stato di aiuto questo articolo? Aiuta questo sito a mantenere le varie spese con una donazione a piacere cliccando su questo link. Grazie!

Seguici anche su Telegram cliccando su questo link per rimanere sempre aggiornato sugli ultimi articoli e le novità riguardanti il sito.

Se vuoi fare domande o parlare di tecnologia puoi entrare nel nostro gruppo Telegram cliccando su questo link.

© Tecnogalaxy.it - Vietato riprodurre il contenuto di questo articolo.