Google Button auf einem Keyboard

Bild: photodune

Der folgende Beitrag ist ein Auszug aus meiner Abschlussarbeit zum Thema „Notwendigkeit von Suchmaschinenoptimierung (SEO) für KMU“. Grundlegend geht es hier um Suchmaschinen allgemein und ihre Funktionsweise. Es wird hauptsächlich über Google gesprochen.

Für eine bessere Lesbarkeit wurden Kapitelnummerierungen entfernt. Dadurch, dass das Kapitel aus dem Gesamtkontext „gerissen“ wurde, kann es zu Querverweisen kommen, die hier nicht behandelt werden.

Google

1996 beginnen die beiden Informatikdoktoranden Larry Page und Sergej Brin in Stanford die Arbeiten an der Suchmaschine „Backrub“, welche heute unter dem Namen „Google“ bekannt ist.[1]

Google besitzt heute in Deutschland einen Marktanteil von über 95 % (Stand Juni 2014), gefolgt von Bing mit ca. 1,80 % und Yahoo mit 1,50 %.[2] Im ersten Quartal 2014 erreichte Google einen Umsatz von 15,24 Milliarden US-Dollar.[3]

Diese Marktführerschaft macht Google bei der Suchmaschinenoptimierung zur relevantesten Suchmaschine, nicht zuletzt weil andere Suchmaschinen ähnliche Rankingfaktoren nutzen.[4] Zu beachten ist auf jeden Fall, dass die Nutzung von Google in jedem Land unterschiedlich ausgeprägt ist. So ist beispielsweise „Yandex“ mit 53,4 %[5] Marktanteil die größte Suchmaschine in Russland und „Baidu“ mit über 63 %[6] der Marktführer in China. Google selbst hat in China einen Marktanteil von ca. 1,6 %.[7]

Sicherlich hat Google global gesehen eine Marktführerschaft, trotzdem trifft diese nicht auf jedes Land zu.

Andere Suchmaschinen

Neben den bekanntesten und größten „Volltextsuchmaschinen“ wie Google, Yahoo, Bing, Baidu und Yandex gibt es noch Dutzende weitere Metasuchmaschinen, Webkataloge, Portale und Spezialsuchmaschinen.[9] „Zu unterscheiden ist einmal die Möglichkeit der horizontalen Suche, bei der Suchmaschinen und Webkataloge versuchen, möglichst alle Themen abzudecken und zum andern die Möglichkeit der vertikalen Suche, bei der Suchdienste nur ein bestimmtes Themengebiet oder eine Zielgruppe bedienen wollen, um tiefer in relevante Themen einzusteigen.“[10]

Aufgabe einer Suchmaschine

Die Aufgabe einer Suchmaschine lässt sich wie folgt beschreiben: „Sie muss zunächst aus dem Datenbestand einen Index, d. h. ein Schlagwortregister, erstellen und sie muss dann auf der Grundlage dieses Index Benutzeranfragen beantworten.[11] Das bedeutet, dass eine Suchmaschine anhand einer Schlagwortanfrage eines Nutzers entsprechende Vorschläge ausgibt. Problematisch bei der Indexierung gestaltet sich der täglich wechselnde Datenbestand von Milliarden von Webseiten. Um diesen stets auf dem neuesten Stand zu halten, benutzen Suchmaschinen so genannte Webcrawler (auch Spider / Bots), Computerprogramme, die Webseiten auslesen und dem Index einer Suchmaschine hinzufügen.[12]


Technische Details

Wichtig zu erwähnen ist, dass man bei der Suche in einer Suchmaschine nicht direkt im Internet sucht, sondern im Index der Suchmaschine. Auch entscheidet die Suchmaschine durch eigene Algorithmen darüber, welche Seiten einem Nutzer auf den vorderen Positionen angezeigt werden. Kritisch zu sehen ist auch, dass moderne Suchmaschinen, aber auch Facebook, mit einer „personalisierten Suche“ die Suchergebnisse dahin gehend beeinflussen, als dass sie auf den Nutzer und seine Interessen zugeschnitten sind. Personalisierte Suchergebnisse basieren auf dem Nutzerverhalten und den vorangegangenen Suchanfragen eines Nutzers und sind im weitesten Sinn auf den Nutzer zugeschnitten. Eli Pariser kritisiert, dass „wir das Internet inzwischen nur noch durch Filter wahrnehmen und deshalb möglicherweise bald in einer Blase leben, in der alle unserer Meinung sind.“[13]

Bei Google lässt sich die personalisierte Suche mittlerweile abstellen. Auch gibt es bei Google erweiterte Suchfunktionen und Befehle, mit denen man sehr gezielt nach bestimmten Dingen suchen kann, z. B. nach News, Bildern und Dateitypen aus einem bestimmten Zeitraum.[14] Doch selbst diese Möglichkeiten zur Individualisierung einer Suchanfrage können nicht darüber hinwegtäuschen, dass die Suchergebnisse und die Relevanz von Webseiten von Algorithmen berechnet werden. Die Frage, ob ein Filter bei einer so massiven Anzahl von Webseiten nicht sinnvoll ist, kann an dieser Stelle und in Bezug auf den Umfang dieser Arbeit jedoch nicht diskutiert werden. 

Funktionsweise von Suchmaschinen

Dieser Abschnitt soll die grundlegende technische Funktionsweise einer Suchmaschine erläutern. Tiefergehende Details und Erläuterungen sind jedoch nicht Bestandteil dieser Arbeit. Stattdessen soll ein Überblick über die Funktionsweise und ihre Prozesse abgebildet werden, damit sich ein Grundverständnis der Suchmaschinenoptimierung abbilden kann. Der Prozess, wie sich die Suchergebnisseiten nach einer Suchanfrage zusammensetzen, wird folgend erläutert. Hierbei soll es jedoch nicht um Technologie-Erklärungen oder Erörterungen von Algorithmen gehen, sondern es soll ein Eindruck von der Komplexität von Suchmaschinen vermittelt werden. Sicherlich ist der Bereich der Datenbeschaffung ein leicht nachvollziehbarer Prozess, spätestens aber bei der Auswertung der Daten und der algorithmischen Verarbeitung einer Suchanfrage zeigt sich, wie komplex eine Suchmaschine heutzutage arbeiten muss, damit ein Nutzer das beste Suchergebnis erhält. 

Crawling (Web-Robot-System) – Beschaffung und Analyse der Daten

Um Inhalte und Webseiten im Web zu erfassen, bedienen sich Suchmaschinen so genannter Crawler (siehe 2.3.). Diese Computerprogramme „scannen“ das Internet nach neuen Inhalten, z. B. Dokumenten, Bildern, URL, und fügen diese dem Index der Suchmaschine hinzu. Durch bestimmte Befehle in der robots.txt, einer einfachen Textdatei im Root-Ordner, lassen sich diverse Anweisungen an die Crawler übermitteln – z. B., dass der gesamte Inhalt oder bestimmte Inhalte einer Webseite nicht ausgelesen und indexiert werden dürfen. Dies findet bei sensiblen Inhalten wie administrativen Ordnern oder Kundendaten Anwendung. Über die robots.txt lassen sich aber auch ganz bestimmte Crawler „aussperren“. Nicht alle der über 300 bekannten Webcrawler[15] sind für Suchmaschinen im Einsatz. So genannte „schädliche Crawler“ sammeln Daten wie E-Mail-Adressen und Telefonnummern.[16]

Indexierung (Information Retrieval System) – Aufbereitung und Analyse der Daten

„Information Retrieval ist eine Teildisziplin der Informatik und befasst sich mit der Suche von Informationen in schlecht, bzw. unstrukturierten Datensammlungen, wobei die Suchanfrage selbst ebenfalls nur vage formuliert sein kann.“[17]

In Bezug auf die Funktionsweise von Suchmaschinen ist dies das „Herz“ einer gut funktionierenden Suche. Bei der enormen Masse an Daten, welche täglich im Internet anwachsen, ist es für eine Suchmaschine nicht nur wichtig, diese zu erfassen und auszulesen, sondern auch, die Daten, Bilder und Videos in einer Datenbank kategorisch so abzulegen, dass sie später möglichst genau passend zu einer Suchanfrage thematisch abgerufen werden können. Auch dann, wenn die Suchanfrage nicht zu hundert Prozent genau mit einem Schlagwort aus der Datenbank übereinstimmt. (Siehe hierzu auch Abschnitt 3.2.5. „Semantische Suche“.) Suchmaschinen wie Google haben also das Ziel, „Dokumente inhaltlich so unterscheidbar zu machen, dass Suchergebnisse entsprechend ihrer inhaltlichen Relevanz sortiert werden können“.[18]

Prof. Dr. Norbert Fuhr von der Universität Duisburg-Essen (UDE), Experte für Informationssysteme, beschreibt Information Retrieval in Bezug auf Suchmaschinen wie folgt: „Früher wurden einfach die Wörter der Anfrage mit dem Text der Dokumente verglichen. Die Gründer von Google hatten dann die Idee, dass Verweise zwischen den Dokumenten helfen, populäre Antworten zu identifizieren. Später hat man einbezogen, welche Dokumente andere Nutzer zur gleichen Anfrage angeklickt haben, welche Fragen vorher schon gestellt wurden, oder sogar die Vorlieben von Freunden aus sozialen Netzen.“[19] An dieser Stelle dürfte klar geworden sein, dass das IRS eine wichtige Kernkomponente von Suchmaschinen ist, welche den Abruf von Informationen beschleunigen und die Masse an Informationen archivierter machen. Dies geschieht unter anderem durch die Verwendung von Schlagwörtern (Keywords), die in der Suchmaschinenoptimierung eine große Bedeutung haben.  


Rankings (Query Processor) – Ranking und Aufbau der Ergebnislisten

Die Aufgabe des Query-Prozessors lässt sich in Bezug auf die Funktionsweise einer Suchmaschine wie folgt beschreiben: „Der Query-Prozessor stellt über die Eingabeoberfläche des Webinterface die Schnittstelle zum Nutzer dar und erzeugt anhand der angefragten Stichwörter aus dem Index des IR-Systems eine gewichtete, sortierte Liste von Einträgen.“[20]

Er dient dem Nutzer einer Suchmaschine also als Schnittstelle und übersetzt eine Suchanfrage in eine technische Anfrage an eine Datenbank. Nach Eingabe einer Suchanfrage durch den Nutzer wird diese an den Query-Prozessor gesendet. Dieser verarbeitet die Suchanfrage und generiert dem Nutzer die passenden Suchergebnisseiten (SERP). Noch vor Ausgabe der Trefferliste entscheidet die Suchmaschine, „welches Dokument welche Relevanz im Verhältnis zu anderen Dokumenten erhält“.[21]

Je nachdem, wie strukturiert ein Index aufgebaut ist und wie gut verknüpft ein Webinterface mit dem Query-Prozessor ist, entscheidet sich auch die Länge des Zeitraums zwischen Suchanfrage und Ausgabe der Ergebnislisten. Bei Google dauert dieser Prozess unter einer Sekunde.

Quellenverzeichnis:

[1] Vgl. Google (2012). Unternehmensgeschichte im Detail. URL:https://www.google.de/about/company/history/ (Zugriff am 07.08.2014).
[2] Vgl. SEO United (2014). Suchmaschinenverteilung in Deutschland. URL:http://www.seo-united.de/suchmaschinen.html (Zugriff am 07.08.2014).
[3] Vgl. Google (2014). Q2 2014 – Quarterly Earnings Summary. URL:https://investor.google.com/pdf/2014Q2_google_earnings_slides.pdf (Zugriff am 07.08.2014).
[4] Vgl. Stoppacher, Timo (2014). T3N: SEO-Rankingfaktoren: Die Unterschiede zwischen Google, Yahoo und Bing. URL:http://t3n.de/news/seo-rankingfaktoren-unterschiede-526070/ (Zugriff am 06.08.2014).
[5] Vgl. Liveinternet.ru (2014). Verweise von Suchsystemen (August 2014). URL: http://www.liveinternet.ru/stat/ru/searches.html?date=2014-08-01;period=month (Zugriff am 16.08.2014).
[6] Vgl. China Internet Watch (2013). China Search Engine Market Share in Nov 2013.
URL: http://www.chinainternetwatch.com/5218/china-search-engine-market-share-november-2013/ (Zugriff am 16.08.2014).
[7] Ebd.
[9] Vgl. Baersch, Markus. Suchmaschinenland.de. Welche Arten von Suchmaschinen gibt es? URL: http://www.suchmaschinenland.de/tipps/index.php/welche-arten-von-suchmaschinen-gibt-es/ (Zugriff am 16.08.2014).
[10] Vgl. Studentenpilot (2014). Suchmaschinenguide. URL: http://www.studentenpilot.de/studieninhalte/internetquellen/suchmaschinenguide.htm (Zugriff am 07.08.2014).
[11] Vgl. Wirtschaftslexikon24. Suchmaschine. URL:http://www.wirtschaftslexikon24.com/d/suchmaschine/suchmaschine.htm (Zugriff am 07.08.2014).
[12] Vgl. Google. Webmaster Tools Hilfe: Googlebot. URL: https://support.google.com/webmasters/answer/182072?hl=de (Zugriff am 07.08.2014).
[13] Vgl. Kuhn, Johannes / Hauck, Mirjam (2012). Süddeutsche.de. Ausweitung der Komfortzone. Eli Pariser und die „Filter Bubble“ / Interview. URL: http://www.sueddeutsche.de/digital/eli-pariser-und-die-filter-bubble-ausweitung-der-komfortzone-1.1303419 (Zugriff am 07.08.2014).
[14] Vgl. Google (2011). Google-Funktionen; Übersicht. URL: http://www.google.com/intl/de/help/features_list.html (Zugriff am 07.08.2014).
[15] Vgl. Robotstxt.org. Robots Database. URL: http://www.robotstxt.org/db.html (Zugriff am 07.08.2014).
[16] Vgl. Harbich, Ronny (2008). Webcrawling – Die Erschließung des Webs. S. 10 URL: http://www-e.uni-magdeburg.de/harbich/webcrawling/webcrawling.pdf (Zugriff am 07.08.2014).
[17] Vgl. Salton/McGill (1983), zit. nach Lackes, Richard & Siepermann, Markus 2008.Enzyklopädie der Wirtschaftsinformatik: Information Retrieval. URL: http://www.enzyklopaedie-der-wirtschaftsinformatik.de/wi-enzyklopaedie/lexikon/daten-wissen/Datenmanagement/Daten-/Information-Retrieval (Zugriff am 07.08.2014).
[18] Vgl. Gaulke, Martin. Suchmaschinenkompetenz. Was wissen wir wirklich über Suchmaschinen? – Eine Untersuchung am Beispiel von Google. Funktionsweise von Suchmaschinen. URL: http://www.suchmaschinenkompetenz.de/Funktionsweise-Suchmaschine-Suchmaschinenkompetenz.htm (Zugriff am 07.08.2014).
[19] Vgl. Koster, Katrin (2012). Universität Duisburg-Essen: Pressemitteilung der Universität Duisburg-Essen; Gerard Salton-Award für Professor Fuhr. URL: https://www.uni-due.de/de/presse/meldung.php?id=7658 (Zugriff am 07.08.2014).
[20] Vgl. Die barrierefreie Website (2011). Suchmaschinen. URL: http://www.die-barrierefreie-website.de/suchmaschinen/suchmaschinen.html (Zugriff am 07.08.2014).
[21] Vgl. Zeta-Producer. Professionelle Websites erstellen. Wie Suchmaschinen eine Suchanfrage behandeln. URL: http://blog.zeta-producer.com/wie-suchmaschinen-eine-suchanfrage-behandeln-2/ (Zugriff am 07.08.2014).