servidors: fitxer robots.txt

Actualment gairebé tot és accesible per internet gràcies als cercadors. Aquest cercadors realitzen una gran funció donat que passen diariament practicament per totes les planes web en busqueda de canvis. Per permetre l'entrada del cercador a la nostra web s'ha d'editar un fitxer de nom robots.txt i posar-ho al directori arrel del servidor web. Amb aquest fitxer poden indicar a quins tipus de cercadors deixem entrar al nostre servidor web, i també podem controlar quines planes permetem que entri el cercador. Que jo conegui fins i tot google permet que aquells directoris que han de tenir un validació, a la web de google li donem la validació per a que pugui entrar. Suposso que aquestes pàgines després seran visitables només via la catxé de google, encara que no ho he comprovat. M'he d'exigir més.

Si volem deshabilitar l'entrada del cercador, qualsevol cercador en el fitxer robots.txt posarem:

User-agent: *
Disallow: /

amb això estem indicant que per qualsevol cercador tot està deshabilitat.

Per deixar només que entri el motor de google i que tot estigui disponible o al menys res deshabilitat

User-agent: Mediapartners-Google*
Disallow:

com a mostra aquest fitxer es recuperable directament indican-t'ho a la barra de direccions. Es a dir, http://www.google.com/robots.txt retorna ....

User-agent: *
Disallow: /search
Disallow: /groups
Disallow: /images
Disallow: /catalogs
Disallow: /catalogues
Disallow: /news

Allow: /news/directory

...

Allow: /toolkit/*.html
Disallow: /qnasearch?
Disallow: /errors/
Disallow: /app/updates
Disallow: /sidewiki/entry/
Disallow: /quality_form?
Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml
Sitemap: http://www.google.com/hostednews/sitemap_index.xml
Sitemap: http://www.google.com/ventures/sitemap_ventures.xml
Sitemap: http://www.google.com/sitemaps_webmasters.xml
Sitemap: http://www.gstatic.com/trends/websites/sitemaps/sitemapindex.xml
Sitemap: http://www.gstatic.com/dictionary/static/sitemaps/sitemap_index.xml

De la forma que està plantejat serveix com informació per qualsevol persona per tenir una

estructura de la xarxa de directoris.

entrant en algun d'aquest permessos podem trobar la llista

http://www.google.com/profiles/104359529435326563415
http://www.google.com/profiles/105617776816027836477
http://www.google.com/profiles/103564462096731629122

....

i entrar a la mateixa informació que ja aporta un cercador i que continuant curiossejant la resta de directoris

Llavors tenint la web serà necessari planificar exactament quins continguts deixem que

el robot revisi i anar controlant el dissallow i allow pero anant en compte també que

es cridar l'atenció sobre continguts que hi són.

Ja finalment només queda seguir les indicacions de google sobre els robots i evitar

indexar continguts no desitjats - http://www.google.com/support/webmasters/bin/answer.py?hl=es&answer=156412

Per exemple google a la web https://www.google.com/webmasters/tools/sitestatus?hl=es ens permet veure si està

donat d'alta la nostra web a la seva base de dades, i ens indica també si estan totes

les planes animant a posar un sitemap per tenir acces a tots les continguts.

Per donar d'alta una web a google, http://www.google.com/addurl i per fer-ho per

exemple a bing, el nou cercador de microsoft http://www.bing.com/docs/submit.aspx?FORM=SURE

servidors

diumenge, 22 de novembre del 2009

fitxer robots.txt

Cap comentari:

suscripció?

mis enlaces

Seguidors

Arxiu del blog

seguiment fedburner

Google Analytics