Neuer Google-Bot auch für Kataloge?

Die neue Version des Google-Bots nutzt nun auch HTML-Forms, um auf bislang verborgene Inhalte zuzugreifen. Im Google-Webmaster-Blog wird das so beschrieben:

In the past few months we have been exploring some HTML forms to try to discover new web pages and URLs that we otherwise couldn’t find and index for users who search on Google. Specifically, when we encounter a

element on a high-quality site, we might choose to do a small number of queries using the form. For text boxes, our computers automatically choose words from the site that has the form; for select menus, check boxes, and radio buttons on the form, we choose from among the values of the HTML. Having chosen the values for each input, we generate and then try to crawl URLs that correspond to a possible query a user may have made. If we ascertain that the web page resulting from our query is valid, interesting, and includes content not in our index, we may include it in our index much as we would include any other web page.

Ein kleiner Blick: Die PICA-Kataloge nutzen das Form-Element, Aleph ebenso. Andere Systeme habe ich jetzt nicht geprüft, aber für die Mehrheit ist anzunehmen: Die Google-Bots werden in Kürze für eine drastische Erhöhung des Traffics sorgen. Zumal andere Suchmaschinen sicherlich nachziehen werden. Allerdings:

Only a small number of particularly useful sites receive this treatment, and our crawl agent, the ever-friendly Googlebot, always adheres to robots.txt, nofollow, and noindex directives.

Die Bibliotheken sollten also endlich für permanente URLs in ihren Katalogen sorgen. Damit wird der Kataloginhalt wirklich nutzbar und auch durch Suchmaschinen zugänglich gemacht.