Visto che recentemente mi è stato fatto notare che non scrivo su questo blog in modo costante, ho deciso di tediarvi con alcune considerazioni sull’incuria dei siti web: una brutta abitudine che tra i titolari e gestori di siti internet, grandi e piccoli, è più comune di quanto si è portati a pensare (i famosi “calzolai con le scarpe rotte”, sì).
Senza scendere in dettagli relativi alle sue finalità SEO, tutti i web-markettari conoscono, almeno a grandi linee, la potenza del file robots.txt e i rischi correlati ad un suo uso “improprio”.
Così come anche un niùbbo che si avvicina per la prima volta alla realizzazione di un sito web, magari con l’impiego di un semplice -per quanto efficace- CMS come può essere WordPress, ha almeno un’idea, se pur vaga, del fatto che un sito internet può essere hackerato, quindi occorre fare un po’ di attenzione: manutenzione, aggiornamenti e verifiche.
Ma la realtà è un’altra.La realtà è che il web è stracolmo di siti dove il file robots.txt non è stato implementato con la benché minima parvenza di attenzione.
Un’attenzione non tanto destinata a curare in maniera -sufficientemente- dettagliata le aree del sito da lasciar indicizzare e quali, invece, meritano, per vari motivi, l’oblìo: mi riferisco proprio all’ABC.
Un ABC che certo non prevede di comunicare agli spider dei motori di ricerca di non scansionare tutte le pagine di un sito. 🙂
Tengo a precisare che lo screenshot sopra riportato è un caso live, preso dal blog personale di un personaggio sufficientemente in vista nel mondo del web marketing.
Se ne evince che il suo blog personale, invece, non è così in vista… o almeno non quanto vorrebbe, visto che si è premurato di indicare anche un file sitemap: il risultato ve lo lascio immaginare.
Ci sono situazioni in cui, invece, non è il file robots.txt a generare una vera e propria catastrofe, quanto piuttosto la completa mancanza di manutenzione, aggiornamenti e verifiche sullo stato di salute del proprio sito o blog a riservare delle sorprese veramente “notevoli”.
Dallo screenshot risulta evidente come una query di tipo “xxx site:nomesito.tld”, in questo caso, restituisca documenti html dal titolo fin troppo eloquente.
Mi dilungo con 2 diverse tipologie di suggerimento, entrambe molto stupide, e concludo:
- Suggerimenti per file robots.txt
- Verificate che contenga le istruzioni che effettivamente volete fornire ai vari robots, correttamente compilate utilizzando un linguaggio appropriato. Periodicamente ripetete questa verifica, soprattutto dopo dopo aver installato nuovi plugin, nel caso in cui utilizziate WordPress o altri CMS.
- Risorse inibite alla scansione tramite file robots.txt possono comunque acquisire PageRank. E venire indicizzate. E comparire nelle pagine dei risultati dei motori di ricerca.
- Inibire la pagina di accesso al pannello di amministrazione di un sito o pagine riservate tramite file robots.txt, potrebbe non essere una scelta saggia: il motore di ricerca potrebbe non indicizzarle, ma forniremo una chiara indicazione di dove conserviamo questo tipo di informazioni.
- Manutenzione, Aggiornamenti e Verifiche
Questo aspetto è forse più articolato rispetto al primo, ma non certo meno importante.
Un sito, infatti, può essere hackerato (update: mi è stato fatto notare da Fabio Lalli, giustamente, che almeno in questo caso sarebbe più corretto parlare di defacing, pratica oltremodo simpatica) a causa di una falla di sicurezza di varia tipologia e natura, ma almeno cerchiamo di non rendere le cose troppo semplici:- Verificare che i permessi di lettura, scrittura ed esecuzione di file e directory presenti sul vosto spazio web siano correttamente configurati: di base, 777 è IL male.
- Se utilizzate un CMS, tipo WordPress e simili, cercate di adottare la versione stabile più aggiornata.
- Prima di installare un nuovo plugin e, soprattutto, un nuovo tema, informatevi un minimo in merito ad eventuali falle di sicurezza, volontarie o meno, in esso contenute.
- Ogni tanto fatevi un giro sul vostro blog o sito con javascript e CSS disabilitati: potreste rimanere sorpresi constatando che cosa vedono veramente i motori di ricerca.
- Un occhio alle statistiche non fa mai male: non è necessario essere un web analyst senior per accorgersi che forse c’è qualcosa che non va; soffermandovi sulle keyword di accesso al sito o sui link di uscita potrete individuare le eventuali anomalie. Google Analytics e Strumenti Webmaster sono vostri amici, anche in questo.
- Un altro grande amico è Google Alerts: configuratelo in modo corretto per essere avvisati via email in merito a termini non esattamente “puliti” a cui potrebbe essere associato il vostro sito nel caso in cui venisse hackerato.
Come configurarlo correttamente? Prendete spunto da pilloline blu, orologi di lusso, barzellette di Silvio Berlusconi e dall’ultimo film VM 18 che avete visto (quando andavate al liceo e solo per gioco, chiaramente).
Tutto qui, alla fine non è così difficile.
Mi auguro queste poche indicazioni possano essere di aiuto e costituiscano un minimo contributo affinché ci siano sempre meno siti nelle condizioni sopra riportate dai due screenshot.
Perché ho trattato due argomenti così apparentemente diversi tra loro in un unico post?
Molto semplice:
- In questo periodo sono un po’ pigro, sarà l’estate che bussa: perché scrivere due post quando ne posso scrivere uno solo?
- Gli screenshot riportati sono relativi a due siti appartenenti alla stessa persona! 😀
Si, ma adesso dici chi è!
🙂
Ale, secondo me dovevi fare degli shoot meno leggibili.. con quei testi !!!! 😛
povero *** e ** *** ********** *********…
😀
@Francesco
Era anche un modo per allertare l’interessato, ma hai ragione: mando una mail. 🙂
@fedevit
Bingo, scusa per i vari “*”. 🙂
d’altra parte Ale, quando uno è un guru del web marketing non ha tempo per controllare i propri siti personali… 😉
no problem alessio,
contestualmente ho avvertito anch’io l’interessato. Sempre che legga i commenti sul suo blog… (almeno nella parte non hackerata:)
LoL vorrei leggere quella mail 😛