Quelle: PhotoDune

Quelle: PhotoDune

Die Google Suche hat sich in den letzten Jahren zu einer komplexen Matrix bestehend aus etlichen Einflussfaktoren und Rankingsignalen entwickelt. Zusätzlich hat Google mehrere Qualität-Updates in den Algorithmus eingespeist, bekannt unter Namen wie „Panda“, „Pinguin“ oder „Humminbird“.

Für Einsteiger bedeutet „Suchmaschinenoptimierung (SEO) lernen“, sich mit bestehenden Know-How und Erfahrungswerten anderer auseinander zu setzen. Auch wenn SEO heute bei weitem nicht mehr so simpel funktioniert wie vor 10 Jahren, so sind die SEO-Basics doch relativ einfach zu erlernen. Es gibt zahlreiche Studien über Korrelationen, Nutzerverhalten und direkte oder indirekte Auswirkungen von SEO-Maßnahmen auf die SERP (Search Engine Result Pages), die sich als hinreichende Indikatoren für die grobe Funktionsweise der Google Suche erweisen. Daraus haben sich über die Jahre feste Größen und Einflussfaktoren abgezeichnet, mit denen man die Rankings einer Website verbessern kann.

Anhand genau welcher Faktoren Google die SERPs zusammensetzt und wie genau der Ranking-Algorithmus der größten Suchmaschine der Welt funktioniert, das ist und bleibt allerdings ein Geheimnis.

Ich bin der Meinung, dass SEO allzuoft zu stark vereinfacht dargestellt wird. Das Wissen um SEO hat sich als eigenständiger Aufgabenbereich im Onlinemarketing etabliert. Allerdings fehlt es mir häufig an direkten Bezug zu Google, seinen Zielen und seinen Ideen, die ja letztlich die Grundlage und der Existenzgrund der Suchmaschinenoptimierung sind. SEO würde ohne den Erfolg von Suchmaschinen nicht existieren. Man sollte sich deshalb auch intensiv mit dem Begriff „Suchmaschine“ und seiner Funktionsweise auseinandersetzen.

In diesem Beitrag möchte ich die Möglichkeit, in den Google Patenten zu suchen, etwas ausführlicher beschreiben und auch, was man aus ihnen schließen und lernen kann. Google hat einige seiner Innovation öffentlich bekanntgegeben und liefert so höchst erstaunliche Einblicke in das Wesen eines Monsterkonzerns. Auch wenn man in den Google Patenten keine technischen Details oder gar den Ranking Algorithmus selbst findet, so finden sich doch allerhand Informationen, von denen man zumindest im weitesten Sinne auf die Funktionsweise der Google Suche schließen kann. Die in diesem Artikel genannten Beispiele sind kein Lesebefehl, sondern sollen nur exemplarisch darstellen, was man sich aus den Google Patenten an Erkenntnissen herausziehen kann.

Google Patente – Hinweise auf Bausteine und Funktionsweise

Screenshot des Google Glasses Rahmen Patent Eintrags

Screenshot eines der Google Glasses Patente

Was mir in meinen „SEO Lehrjahren“ immer sehr gut geholfen hat ist das Verständnis von Google als Maschine und die daraus resultierenden Zusammenhänge, die sich in Bezug auf Aufbau, Funktionsweise und Technik ergeben. Dazu gibt es mehrere Quellen, u.a. die Google Patente Suche. Dort finden man neben anderen veröffentlichten Patenten auch einige von Google selbst. Hier gelangt man zur gefilterten Ansicht.

Google gilt ja bekanntlich als Innovator und Verbesserer des Web 2.0. Entsprechend hoch ist die Anzahl der angemeldeten Patente durch Google. Nicht alle angemeldeten Patenten haben etwas mit der Google Suche zu tun und nicht alle Patente haben einen direkten Bezug zur Suchmaschine, z.B. das Google Wallet oder Google Glasses.

Die folgende Abbildung zeigt z.B. ein wasserbasierendes Datenzentrum, welches (höchstwahrscheinlich) auf großen Meeren zum Einsatz kommt (kommen sollte?). Der Clou: Das Datenzentrum erzeugt aus Wasser Energie und nutzt ebenfalls Wasser zur Kühlung. Quasi ein schwimmender Knotenpunkt auf hoher See.

Was ist ein Patent?

Wikipedia sagt dazu folgendes:

„Nach der Tätigung einer Erfindung hat der Erfinder die Möglichkeit, die Erfindung entweder geheim zu halten oder der Öffentlichkeit preiszugeben. Da ein Patent die Verwendung der Erfindung durch Dritte einschränkt, steigt mit dem Patentschutz die Wahrscheinlichkeit, dass Erfindungen bekanntgegeben werden. Eine Bekanntgabe ist aus mehreren Gründen sozial vorteilhaft gegenüber einer Geheimhaltung: Nach dem Auslaufen des Patentschutzes (üblicherweise 20 Jahre) kann jeder die Erfindung frei nutzen.“ – Quelle: Wikipedia

Es ist bei Google davon auszugehen, dass innovative Patente, wie z.B. der Google Ranking Algorithmus, geheim gehalten werden. Die öffentlich gemachten Patente sind wahrscheinlich nur die Spitze des Eisbergs.

Water-based data center US 7525207 B2

Water-based data center
US 7525207 B2

Was kann man aus einem Google Patent an Informationen gewinnen?

Wie schon eingehens beschrieben, kann man den Google Patenten keine technischen Details oder gar den Google Algorithmus entnehmen. Sie geben aber durchaus Aufschluss über den technischen Fortschritt und die angewandten Techniken seitens Google. In Bezug auf SEO lassen sich sehr wichtige Rückschlüsse auf Funktionalitäten schließen, mit denen Google z.B. Daten verarbeitet oder Webseiten nach Informationen durchsucht.

Interessant wird es z.B. bei Patenten, die direkt mit der semantischen- und personalisierten Suche zu tun haben (siehe Abbildungen unten). Das Patent „Posting questions from search queries“ (US 8768920 B1) deutet schon sehr genau an, wie Google das Prinzip technisch gemeistert hat. Die wichtigsten Fakten habe ich fett markiert. 

identifying search queries that each include a question word of a plurality of predetermined question words; mapping each of the search queries to a corresponding canonical form, including applying mappings defined in an evaluation file to the search queries, the defined mappings including filtering that removes from the search queries any predetermined non-question words occurring in the search queries, the predetermined non-question words being obtained from the evaluation file, conjugating any verbs in the search queries to a particular verb tense, updating declensions of nouns in the search queries to a particular noun declension, and ordering the words remaining in each of the search queries after the filtering, conjugating, and updating in a predefined way, including placing the question word in a predetermined position in the ordering; identifying a plurality of different search queries that each map to a particular canonical form;
ranking the different search queries based on a frequency of occurrence of each of the different search queries; and selecting a highest-ranked different query as a representative query for each of the different search queries. – Quelle

 

Patent Screenshot Posting questions from search queries US 8768920 B1 Figure 1

Posting questions from search queries
US 8768920 B1 – Figure 1

Grob zusammengefasst: Google erkennt in einer Suchanfrage Fragewörter oder Wörter, die eine Frage implizieren, z.B. „Was?“, „Wer?“ oder „Wie?“ die Art der Suchanfrage. Um die Anfrage verarbeiten zu können, werden Konjunktionen und Zeitformen auf ein einheitliches Level gebracht und unnötige Wörter (Stopwords) ausgeschlossen oder ignoriert. Stopwords und Suchwörter sind von Google selbst definiert. Weiterhin, wenn ich es richtig verstanden habe, bezieht Google ebenfalls vorangegangene Suchanfrage bei jeder neuen Suche mit ein (Stichwort: personalisierte Suche) und versucht so einen „roten Faden“ oder einen gemeinsamen Nenner zu finden. Deshalb werden spezifische Suchanfragen mit der Zeit auch immer genauer beantworte, weil Google die Interessen und die Themenschwerpunkte des Nutzers kennt. Ich weiß, dass das für die SEO Nerds jetzt keine Neuigkeiten sind, aber ich möchte den roten Faden gerne komplett spinnen 🙂

Was kann man jetzt daraus an SEO relevanten Informationen generieren?

Das o.g. Patent bezieht sich scheinbar nur auf „Frage und Antwort“ Foren, welche bei einer informationsorientierten Suche sehr oft weit oben ranken. Man könnte an dieser Stelle vermuten, dass Google vor allem Fragestellungen anders handhabt als eine normale Suchanfrage; auch im Query Prozessor. Dies bestätigt das Patent „Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems“ (siehe Abbildung unten) Ich vermute weiterhin, dass Google durchaus in der Lage ist, die Intention einer Suchanfrage zu erkennen, also zu unterscheiden, ob eine Suchfrage informations-, navigations- oder transaktionsorientiert ist.

Screenshot Figure 7 Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems US 8473510 B1

Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems
US 8473510 B1

Was auch interessant ist ist, dass sich Google bei einer Suchanfrage nur für das Fragewort (im deutschen die „W“ – Wörter), das Verb und das Substantiv (Keyword) interessiert und anhand dessen schon genug Informationen hat, um eine Suchanfrage zu beantworten. Wie auch schon im o.g. Patent aufgezeigt, normalisiert Google scheinbar Sprache und Wörter auf ein Level, das sich verarbeiten lässt. Hält man sich die Datenmengen vor Augen, mit denen eine Suchmaschinen konfrontiert ist, dann ist das nur die logische Konsequenz in der Information Retrieval. Am wichtigsten sind, so denke ich, die Beziehungen zwischen Wörtern. Die nutzt Google nämlich als „canonical norm“ für andere Suchanfragen.

Beispiel zum ausprobieren (Disclaimer: Das Beispiel zeugt nicht von meinem Musikgeschmack!):

Ich suche einmal nach „Wie alt ist Helene Fischer“ und „Alter Helene Fischer“ und erhalte jeweils das Gleiche Suchergebnis.

Bildschirmfoto 2014-09-15 um 17.33.46

Bildschirmfoto 2014-09-15 um 17.35.15

Ändere ich die Suche in „Geburtsjahr Helene Fischer“ dann bekomme ich das:

Bildschirmfoto 2014-09-15 um 17.38.56

Man sieht also, auch wenn man sich die Geschwindigkeit der Suchabfrage anschaut, dass Google durchaus kategorisch organisiert ist und bestimmte Arten von Suchanfragen schon „von der Stange“ ausliefert. Der Query Prozessor achtet eigentlich nur auf ein Fragewort und ein Verb bzw. ein Substantiv (Keyword).

Ich verstehe den Quatsch nicht! Was ist denn jetzt daran so wichtig für SEO?

Die wichtigste Erkenntnis ist die, zu wissen wie Google Informationen verarbeitet und das bei der Suchmaschinenoptimierung heutzutage beispielsweise starre „Long Tail“ – Strategien und „Exact Match“ überflüssig sind (meine Meinung). Auch überflüssig ist es, Fragestellungen im Content so zu formulieren wie es Google Suggest einem vorsetzt. Es gilt zu verstehen, dass Google mittlerweile eine sehr intelligente Suchmaschine geworden ist, die nicht nur stumpf die Suchanfrage 1 zu 1 mit dem Index abgleicht.

Ja, aber…!

Ok ok, ich versuche es mit einem weiteren Beispiel. Ich sprach ja gerade davon, dass Google Suchanfragen normalisiert, um diese schneller zu beantworten.

Eins der für mich aufschlussreichsten Google Patente ist das „Search query results based upon topic (US 8620951 B1). Dazu heißt es im Patent wie folgt:

„Most conventional search engines that receive a query to determine which results to serve are based upon keywords included in the query. However, keyword-based search engines suffer from several shortcomings. First, there is an inherent requirement that the user knows appropriate keywords a priori in order for relevant results to be returned. Second, keyword-based search engines generally require that the results actually include an exactly matching keyword.“ – Quelle

 

Screenshot Figure 2 Search query results based upon topic US 8620951 B1

Search query results based upon topic
US 8620951 B1

Das bedeutet, dass Suchanfragen nicht strikt nach der „Keyword Match“ Methode verarbeitet werden, sondern themenbezogen. Google weiß, das bestimmte Wörter zum selben Thema gehören, z.B. Apfel, Birne, Orange und Pflaumen sind Obst. Oder Merkel, Obama und Putin sind Staatsoberhäupter und Politiker. Ein Apfel (engl. apple) kann aber auch ein Brand sein usw.

Das Patent macht deutlich, dass Google die Vielfalt von Kontext begriffen hat und auch, dass bei einer keywordbasierten Suche wertvolle Ergebnisse und Content für den User verloren gehen können. Die themenbasierte Suche kann einem Nutzer auch Ergebnisse anzeigen, die das Suchwort gar nicht enthalten. Ebenso wie bei der personalisierten Suche, werden vorangegangene Suchanfragen mit einbezogen. Dieses Verfahren will sicherstellen, dass ein Nutzer eine gewünschte Seite oder ein Video auch dann finden kann, wenn er das genaue Suchwort gar nicht kennt.

Google ersetzt bei der themenbasierten Suche das Keyword (meistens Substantiv) einer Suchanfrage intern durch das Hauptwort (Root Keyword) eines Themenbereiches und bezieht frühere Suchanfragen mit ein. Suchergebnisse werden so flexibler und vielfältiger. Bei der semantischen Suche arbeitet Google ähnlich. Beispiel:

Die Suchanfrage „Sonne Song“ ist eine allgemeine Suchanfrage. Google ist dennoch in der Lage, das Wort „Sonne“ mehreren Interpreten zu zuordnen und schlägt Rammstein, Rosenstolz und bei den Video Ergebnissen einen Soundtrack und ein Lied von Heinz Erhardt und Rudi Carell vor.

Bildschirmfoto 2014-09-15 um 19.38.25

 

Was kann ich jetzt davon für SEO ableiten?

Allein schon die Erkenntnis, dass Google Wortverwandschaften und Kontext verarbeiten kann, finde ich für SEO sehr von Bedeutung. Wie schon eben erwähnt, ist man heutzutage nicht mehr gezwungen, eine exact match oder Long-Tail-Strategie zu fahren, im Gegenteil: Eine thematische Tiefe und eine Wortvielfalt (kurz: guter Content!) wird einer Seite eher zu Gute kommen, als eine straight OnPage gepeitschte und auf Money Keywords getrimmte Seite. Google kann einen schön geschriebenen Text mit Synonymen, knackigen Überschriften und einer großen Wortvielfalt mittlerweile sehr gut bewerten. Wenn dann noch Daten aus der Nutzererfahrung hinzukommen, hat Google genug relevanten Daten zur Hand.

Heisst das, ich soll jetzt alle Google Patente studieren?

Nein, um Gottes Willen. Zugegeben, diese Patentschriften sind ganz schön starker Tobak und man muss sich da auf jeden Fall erst einmal reinlesen. Für einen Laien eher schwere Kost. Noch dazu ist alles ziemlich technisch und trocken formuliert. Anschaulich ist etwas anderes.

Außerdem gibt es bei den Patenten keine für SEO wirklich interessanten Details, wie z.B. Gewichtung eines Faktors oder sogar nur die Erhebung der Daten. Das ist alles relativ modellhaft. Aber ich denke, dass man sich für sein SEO-Gehirn die ein oder andere Anregung holen kann, wie man an bestimmte Prozesse herangeht oder wie man einen Sachverhalt betrachtet. Gut zu wissen ist auch, wie Google strukturell und technisch arbeitet. So lassen sich Mythen und Halbwissen ausmerzen. Ich finde auch, dass diese Patentschriften konkreter und ausführlicher sind, als so mancher Matt Cutts Hinweis. Aber das muss jeder für sich selbst entscheiden.

Zu guter Letzt aber ein wichtiges Gegenargument: Es gibt bei all diesen Patenten keinerlei Hinweise ob und wie diese Innovationen und Technologien tatsächlich im Einsatz sind. Wie anfangs gesagt, gibt es auch Patente die geheim sind und nicht veröffentlicht wurden.

Vielen Dank für Eure Aufmerksamkeit!