Felix Schwenzel erklärt die robots.txt und andere Möglichkeiten, Rechte und Berechtigungen im Quelltext einer Seite maschinenlesbar kenntlich zu machen.
Schlagwort: robots.txt
Google reagiert auf französische Leistungsschutzgeldpläne
Heise.de berichtet über Google Reaktion auf ein französisches Leistungsschutzrecht:
Google droht der französischen Regierung wegen einer möglichen Abgabe an Verleger. Wenn der Staat Forderungen nach einem sogenannten Leistungsschutzrecht für Online-Presseinhalte nachkomme, werde das Unternehmen künftig nicht mehr auf französische Medienseiten verlinken, zitierte die französische Nachrichtenagentur AFP am Donnerstag aus einem Google-Schreiben an mehrere Kabinettsmitglieder. Die Einführung einer solchen Rechtes sei nicht hinnehmbar und stelle die Existenz des Unternehmens infrage. Google beschere den Seiten von französischen Verlegern jeden Monat vier Milliarden Klicks.
Googles Position kann man nur zustimmen. Wer nicht in Suchmaschinen auftauchen will, kann dies schließlich verhindern. Niemand zwingt die Verlage, ihre Inhalte via Google auffindbar zu machen.
PS: Sogar Rupert Murdoch hat seinen Anti-Google-Feldzug kürzlich abgeblasen: Rupert Murdoch has been forced to back down in his war with Google, amid fears that his newspapers are losing their influence because they do not appear in the search engine’s rankings.
Wie Google funktioniert
Schwarz-Gelb für Robots.txt in Gesetzesform
Schwarz-Gelb plant eine Revision des Urheberrechts, einen dritten Korb. Dazu soll unter anderem ein Leistungsschutzrecht gehören, nach dem Verlage “im Online-Bereich nicht schlechter gestellt sein [sollen] als andere Werkmittler.” Warum ausgerechnet die FDP (“Bürokratie abbauen”) darauf kommt, man müsse die Funktioner der robots.txt in Gesetzestext gießen, ist mir unverständlich.
Mehr dazu bei Carta, Heise, iRights.info und Message-Online.
Neuer Google-Bot auch für Kataloge?
Die neue Version des Google-Bots nutzt nun auch HTML-Forms, um auf bislang verborgene Inhalte zuzugreifen. Im Google-Webmaster-Blog wird das so beschrieben:
In the past few months we have been exploring some HTML forms to try to discover new web pages and URLs that we otherwise couldn’t find and index for users who search on Google. Specifically, when we encounter a
Ein kleiner Blick: Die PICA-Kataloge nutzen das Form-Element, Aleph ebenso. Andere Systeme habe ich jetzt nicht geprüft, aber für die Mehrheit ist anzunehmen: Die Google-Bots werden in Kürze für eine drastische Erhöhung des Traffics sorgen. Zumal andere Suchmaschinen sicherlich nachziehen werden. Allerdings:
Only a small number of particularly useful sites receive this treatment, and our crawl agent, the ever-friendly Googlebot, always adheres to robots.txt, nofollow, and noindex directives.
Die Bibliotheken sollten also endlich für permanente URLs in ihren Katalogen sorgen. Damit wird der Kataloginhalt wirklich nutzbar und auch durch Suchmaschinen zugänglich gemacht.
Sitemap-Standardisierung
Im Ask-Blog ist zu lesen, dass sich Ask.com, Google, Yahoo und MSN auf einen gemeinsamen Standard zur Sitemap-Erkennung (Sitemap 0.90) geeinigt haben. Künftig ist es beispielsweise möglich, die Position der Sitemaps via robots.txt zu spezifizieren. Sitemap 0.90 ist unter einer Sharealike-Creative-Commons lizensiert. Mehr Informationen gibt es bei Sitemaps.org.