diumenge, 22 de novembre del 2009

fitxer robots.txt

Actualment gairebé tot és accesible per internet gràcies als cercadors. Aquest cercadors realitzen una gran funció donat que passen diariament practicament per totes les planes web en busqueda de canvis. Per permetre l'entrada del cercador a la nostra web s'ha d'editar un fitxer de nom robots.txt i posar-ho al directori arrel del servidor web. Amb aquest fitxer poden indicar a quins tipus de cercadors deixem entrar al nostre servidor web, i  també podem controlar quines planes permetem que entri el cercador. Que jo conegui fins i tot google permet que aquells directoris que han de tenir un validació, a la web de google li donem la validació per a que pugui entrar. Suposso que aquestes pàgines després seran visitables només via la catxé de google, encara que no ho he comprovat. M'he d'exigir més.

Si volem deshabilitar l'entrada del cercador, qualsevol cercador en el fitxer robots.txt posarem:

User-agent: *
Disallow: /

amb això estem indicant que per qualsevol cercador tot està deshabilitat.

Per deixar només que entri el motor de google i que tot estigui disponible o al menys res deshabilitat

User-agent: Mediapartners-Google*
Disallow:

com a mostra aquest fitxer es recuperable directament indican-t'ho a la barra de direccions. Es a dir, http://www.google.com/robots.txt retorna ....

User-agent: *
Disallow: /search
Disallow: /groups
Disallow: /images
Disallow: /catalogs
Disallow: /catalogues
Disallow: /news
Allow: /news/directory

...
Allow: /toolkit/*.html
Disallow: /qnasearch?
Disallow: /errors/
Disallow: /app/updates
Disallow: /sidewiki/entry/
Disallow: /quality_form?
Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml
Sitemap: http://www.google.com/hostednews/sitemap_index.xml
Sitemap: http://www.google.com/ventures/sitemap_ventures.xml
Sitemap: http://www.google.com/sitemaps_webmasters.xml
Sitemap: http://www.gstatic.com/trends/websites/sitemaps/sitemapindex.xml
Sitemap: http://www.gstatic.com/dictionary/static/sitemaps/sitemap_index.xml
De la forma que està plantejat serveix com informació per qualsevol persona per tenir una 
estructura de la xarxa de directoris.
entrant en algun d'aquest permessos podem trobar la llista 
http://www.google.com/profiles/104359529435326563415
http://www.google.com/profiles/105617776816027836477
http://www.google.com/profiles/103564462096731629122
....
i entrar a la mateixa informació que ja aporta un cercador i que continuant curiossejant la resta de directoris
Llavors tenint la web serà necessari planificar exactament quins continguts deixem que
el robot revisi i anar controlant el dissallow i allow pero anant en compte també que 
es cridar l'atenció sobre continguts que hi són.
Ja finalment només queda seguir les indicacions de google sobre els robots i evitar
indexar continguts no desitjats - http://www.google.com/support/webmasters/bin/answer.py?hl=es&answer=156412
 
Per exemple google a la web https://www.google.com/webmasters/tools/sitestatus?hl=es ens permet veure si està 
donat d'alta la nostra web a la seva base de dades, i ens indica també si estan totes
les planes animant a posar un sitemap per tenir acces a tots les continguts.
Per donar d'alta una web a google, http://www.google.com/addurl i per fer-ho per
exemple a bing, el nou cercador de microsoft http://www.bing.com/docs/submit.aspx?FORM=SURE