StartseiteSEO

Kampf dem duplicated content

12.03.2008
Nichts ist für eine wissenschaftliche Karriere tödlicher, als das Abschreiben von anderen Quellen. Schon ganze Karrieren sind daran zerbrochen.
Steht der abgeschriebene Satz aber in „Gänsefüßchen“ mit der Herkunft der Quelle, dann nennt sich das „Zitat“. Mit Zitaten will der Zitierende seine (angebliche) Kenntnis der relevanten Literatur belegen. Und je mehr ein Autor zitiert wird, desto höher ist seine wissenschaftliche Reputation. Heute bekommen Professoren schon an einigen Universitäten „leistungsgerechte“ Bezüge: Je mehr Zitate, desto mehr Brutto.
Abschreiben ist also dumm und zitieren schlau.

Google’s Interesse an der Eliminierung doppelter oder annähernd doppelter Inhalte ist vordergründig technischer Natur (vergl. Manku, Jain, Sarma: Detecting NearDuplicates for Web Crawling. Stanford University. Infolab. www2007).
- spart Internet Bandbreite
- reduziert Speicherkosten
- steigert die Qualität der Suchergebnisse
- beschleunigt die Ausgabe der Suchergebnisse

Tatsächlich geht es Google um den Kampf gegen die Verwässerung der SERP und des PR. Genau deshalb bestraft Google abgeschriebene Inhalte („duplicated content“) mit der Sandbox.


Die wichtigsten sechs Formen doppelten Inhalts

Der Inhalt einer Webseite liegt in verschiedenen Formaten vor: Webseite, druckbare Seite, PDF, MobilPhone Seite etc.

Der Inhalt einer Webseite wird in verschiedenen Formen veröffentlicht, z.B. als Artikel oder Blog.

Ein Content Management System (CMS) zeigt denselben Inhalt an verschiedenen Stellen einer Webseite mehrfach an, z.B. einen Verkaufsartikel unter zwei verschiedenen Warengruppen.

Der Webmaster leitet bei sehr vielen Zugriffen auf eine Seite z.B. jeden zweiten auf eine gespiegelte Seite auf einen anderen Server um.

Webseiten oder Teile davon werden einfach nur in eine andere Sprache übersetzt, z.B. englischer Presseartikel in einen deutschen Text. Diese Regel ist besonders problematisch bei einem mehrsprachigen Shop.

Jemand kopiert den Inhalt einer Webseite und veröffentlicht ihn auf einer anderen Seite.



Google Patent zum duplicated content

In einem neuen Patent werden jetzt die Algorithmen zur Entdeckung von duplicated content offengelegt. Sie basieren auf dem Vergleich von Fingerabdrücken. Der Googel-Bot erzeugt beim Indizieren neuer Seiten einen elektronischen Fingerabdruck der Seite und läßt ihn sofort mit den vorhanden Fingerabdrücken vergleichen. Ab einem bestimmten Grad von Ähnlichkeit, die die neue Seite als „duplicated content“ gebrandmarkt – und ab in die Sandbox.

Als „Original“ nimmt Google die älteste indizierte Webseite der Veröffentlichung an.

Konsequenzen der neuen Regeln

Für den Anwender bedeuten diese neuen Regeln, daß künftig sorgfältig die obigen 6 Formen zu vermeiden sind.

Der Versand von Pressemitteilungen an verschiedene Artikel-Verzeichnisse hat damit keinen Wert mehr.

Shops müssen noch mehr darauf achten, unique Artikelbeschreibungen zu verfassen. Das ist z.B. bei „Schrauben“ nicht ganz so einfach.

Der Googlebot kann durch die robot.txt daran gehindert werden, auf alternative Formen zur Webseite, z.B. pdf’s zuzugreifen.

Gleiche Inhalte müssen vor alternativen Veröffentlichungsformen kräftig überarbeitet werden. Es wird zu testen sein, ab wieviel Prozent Abweichung die Regeln nicht mehr greifen.

Mit dem NOINDEX Tag kann die Mehrfachindizierung von Produkten in CMS verhindert werden.

Webmaster werden bei sehr vielen Zugriffen die Warengruppen auf verschiedene Server legen.

Suchmaschinen-Optimierer haben auf diese Zusatzpunkte zu achten

Textkopieren und Textdiebstahl wird reduziert. Lehrer und Professoren können leichter abgeschriebene Qualifikationsarbeiten ihrer Schüler oder Studenten erkennen. Wie bei fast allen Google-Neuerungen: Es trifft vor allem die „Bösen“.



Ketzerische Anmerkung

Mit Urteil vom 11. März 2008 hat das Bundesverfassungsgericht (Az. 1 BvR 2074/05 und 1 BvR 1254/07 ) für verfassungswidrig erklärt, automatisch erfaßte Autokennzeichen mit den Fahndungsdatenbanken der Polizei flächendeckend und ohne Grund abzugleichen, mit der Begründung, dadurch sei das Grundrecht auf informationelle Selbstbestimmung verletzt.

Und worin besteht jetzt der Unterschied zu einer Google-Suche nach einem KFZ-Kennzeichen?

Ausführliche weitere Informationen zum Thema Deduplication finden sich in der Publikationsliste von Google zum Thema Spam.

Zusammenfassung
Die sechs Formen doppelten Inhalts werden beschrieben und wie der Webmaster darauf zu reagieren hat.

Dr. Wolf Blass

Kommentare

Hier klicken, um einen Kommentar zu schreiben

Artikelverzeichnisse Warum sind SEO so teuer?
© suma-pro.de (2007- Mit Suchmaschinenoptimierung nach dem
SEO MASTERPLAN
und gutem Shop-Design auf die erste Seite
Datum der letzten Änderung