logo webextreme

Webextreme è un progetto di Stefano Sinesi Tecnico Telecomunicazioni e Telematica. Questo sito è un blog pensato per dare un aiuto nel realizzare un sito web e indicizzarlo correttamente sui motori di ricerca. Ospita diverse aziende di diversa natura per scopi pubblicitari. Puoi consultare la nostra pagina About us, per altre informazioni.

robots.txt

Robots.txt: la sua natura di funzionare per tutti i crawler

Un file utile e indispensabile per offrire le direttive che hai pensato direttamente ai crawler su internet. Il file parla con tutti i bot e raccomanda una indicizzazione mirata. Il suo uso è semplice e ti permette di migliorare la comunicazione del tuo sito ai motori di ricerca.

robots.txt il file che parla ai Crawler

Quando pubblichiamo un sito web normalmente si crea un file in formato “.txt” con all’interno salvate alcune direttive importanti per dar modo ai crawler dei motori di ricerca che popolano internet, di trasferire determinate impostazioni sulla scansione del sito stesso.

Periodicamente questi così detti “crawler” scansionano periodicamente i siti web. In pratica sono i motori di ricerca che vengono spontaneamente a visitare il sito.

Per esempio il crawler di Google si chiama Googlebot, quello di Bing è Bingbot.

Questo file di testo viene inserito nella root del sito web, ovvero nella directory principale e contiene una serie di informazioni che indicano per esempio quali parti del sito devono essere ignorate dai motori di ricerca nella sua indicizzazione e quali altre si.

Di solito si usa anche per segnalare al crawler dove risiete la “sitemap.xml” quell’utile file che consente al tuo sito di fare ordine nell’organizzazione per una indicizzazione dei contenuti del sito nei motori di ricerca.

Con questo file aiutiamo il crawler a indicizzare solo quello che vogliamo se lo usiamo con attenzione, perchè è possibile anche escludere dall’indicizzazione sui motori di ricerca il sito web e quindi magicamente sparire alle “serp organiche” (risultati di ricerca organica).

Di default l’accesso a tutto il sito è consentito per cui senza una specifica direttiva “Disallow” il crawler potrà accedere a tutte le directory del sito stesso. Occorre quindi negare con “Disallow” quelle parti del sito che vogliamo preservare dalla scansione.

Definite le regole di “Disallow” possiamo, se necessario, aggiungere delle eccezioni. Ad esempio impediamo l’accesso ad una determinata directory, ma al suo interno acconsentiamo l’accesso ad un determinata pagina o file. Per fare questo usiamo delle regole di “Allow”.

robots.txt: come crearlo

Normalmente se usi un CMS, un Content Manager System, questo file non è presente perchè crediamo che un/a web designer, un programmatore o altra personalità, debba avere di fronte a sè un “foglio bianco” per creare quello che desidera, senza impedimenti e ne forzature. Per cui il file robots.txt verrà creato dallo sviluppatore stesso.

  • Apri il programma Notepad o Notepad ++ (ancora meglio) o un altro programma di testo, per scrivere. Crea il file robots.txt usando esattamente questo nome (“robots.txt“) ed estensione perchè il suo nome deve essere sempre questo. Il file di testo può essere codificato solo con caratteri ASCII o UTF-8
  • Inserisci nella root del tuo sito il file, (per root si intende la directory principale pubblica). Se posizionerai questo file in una directory interna non sarà trovato dai crawler. La sua posizione esatta è qui: “http://ww.webextreme.it/robots.txt” il crawler lo catturerà e ne rileverà le direttive offerte. Nel caso non valido, il file se posizionato qui: “http://www.webextreme.it/contatti/robots.txt” risulterà una operazione non valida.

robots.txt: la sua sintassi

Per negare un accesso ad un file o directory si dovrà usare il comando “Disallow”. Per consentire l’accesso alla lettura del crawler dobbiamo usare il comando “Allow”. Ogni crawler come detto poco fa, ha un suo nome e s e vogliamo possiamo parlare direttamente al crawler che vogliamo usando l’identificativo chiamato “User-agent”. Se non conosciamo molto dei nomi dei crawler possiamo impostare “User-agent: *” per parlare con tutti i crawler in un colpo solo.

L’esempio che vediamo qui in basso, è una direttiva che parla a tutti i crawler e vieta l’accesso all’indicizzazione della cartella “admin” e alla cartella “directory-nascosta”.

User-agent: *
Disallow: /admin/
Disallow: /directory-nascosta/

Se vogliamo “parlare” direttamente a googlebot, il crawler di Google, useremo questi comandi. Nell’esempio successivo diremmo a googlebot di non andare a visitare le cartelle “admin” e “directory-nascosta”, vieteremo l’accesso a tutte le cartelle che si chiamano con le iniziali “wp-” con l’eccezione della diretory “wp-content”. Successivamente forniremo in tempo reale la posizione del nostro file “sitemap.xml” posizionato all’interno del sito web e permetteremo l’accesso al crawler su tutto il resto del contenuto del sito perchè vogliamo sottoporlo all’indicizzazione:

User-agent: googlebot
Disallow: /admin/
Disallow: /direttory-nascosta/
Disallow: /wp-*
Sitemap: https://www.webextreme.it/sitemap.xml
Allow: /wp-content
Allow: /

robots.txt: testare la sua funzionalità

Co sono molti programmi in circolazione per sottoporre il vostro file robots.txt ad una verifica tecnica per testare la sua correttezza. Uno di programmi lo potete trovare nella sezione “Tester dei file robots.txt” nel vostro “Search Console di Google” o “Strumenti per il webmaster” chiamato così in un tempo ormai lontano.

robots.txt: approfondimenti

Google da sempre cerca di aiutarti informandoti tecnicamente del suo funzionamento. Puoi scoprire questi link in basso e approfondire il meccanismo del robotx.txt, buona lettura.

Documentazione Google sui robots.txt
Specifiche robots.txt di Google

Post a Comment

Cookie Consent Per offrirti il miglior servizio possibile questo sito utilizza i cookie. Continuando la navigazione nel sito acconsenti al loro impiego in conformità alla nostra cookie policy e privacy policy.

Cookie Consent