Das Internet bietet eine riesige Menge an Informationen. Darum spielt auch die Suche nach der benötigten Information ein zentrale Rolle. Jeder, der nach Informationen sucht, hat eine eigene Vorgehensweise, wie er die Information finden will. Diese Arbeit versucht die verschiedenen Suchstrategien und -verhalten der Internetbenutzer zu erklären.
Alle Statistiken und Resultate stammen von den drei Studien (siehe Literatur).
Um die unterschiedlichen Suchverhalten im Internet zu beschreiben, verwendet man das von Aguilar 1967 entwickelte und durch Weick und Daft 1983 erweiterte Modell der vier Suchmodi: undirected viewing, conditioned viewing, informal search und formal search.
Jeder Suchmodus hat ein unterschiedliches Informationsbedürfnis und eine andere Strategie um es zu stillen. Diese Strategien werden durch sechs Suchaktivitäten beschrieben: starting, chaining, browsing, differentiating, monitoring und extracting.
Starting: Das starting ist jene Aktivität, die als Ausgangssuche von Informationen gilt. Es werden Quellen zu den Interessen identifiziert. Diese Quellen sind oft vertraute Webseiten, wie Startseiten, Portale und andere Linklisten. Also vor allem Seiten auf denen zusätzliche Quellen oder Referenzen empfohlen werden. Nur in seltenen Fällen werden beim starting auf weniger bekannte Seiten zugegriffen, dann jedoch auf Seiten von denen erwartet wird, dass sie relevante Informationen enthalten.
Chaining: Das Folgen der Pfade (Links) von diesen Startseiten nennt man chaining. Chaining kann vorwärts oder rückwärts betrieben werden. Als backward-chaining bezeichnet man das Folgen von Zeigern und Referenzen (Links) von der Ausgangssuchseite. Das forward-chaining, folgt den Seiten, die eine Referenz auf die aktuelle Seite hat. Das heisst, es wird den sogenannten Backlinks gefolgt. Aufgrund des Internetaufbaus und der Tatsache, dass Backlinks höchstens über Suchmaschinen herausgefunden werden können, ist das forward-chaining selten.
Browsing: Nachdem die Webseiten und Dokumente lokalisiert sind, werden diese potentiellen Informationsquellen durchstöbert. Dieses Durchstöbern, browsing genannt, beschränkt sich häufig auf das Überfliegen von Inhaltsverzeichnissen, Titeln, Zusammenfassungen oder Personenlisten. Ein Beispiel aus dem Alltag: Die Suche im Büchergestell. Man sucht im Gestell mit Büchern zum Thema z.B. "Computer" nach einem Buch. Indem man nun die Buchrücken überfliegt (browsing) lokalisiert man das gewünschte Buch.
Differentiating: Beim differentiating wählt die Person die wichtigen Informationsquellen aus. Es werden die verschiedenen Informationsquellen verglichen und entschieden, welche punkto Qualität, Niveau und Inhalt den gestellten Ansprüchen entsprechen. Der differentiating-Prozess wird beeinflusst durch frühere Erfahrungen der Person und Empfehlungen anderer Personen.
Monitoring: Monitoring nennt man das regelmässige Besuchen von bestimmten Webseiten, die der Benutzer für wichtig hält. Diese favorisierten Seiten, oft bookmarked, werden nach neuen Informationen abgesucht. Zum Teil lässt man sich eigens dafür Newsletter zuschicken, die einem die Neuigkeiten mitteilen. Man überwacht sie.
Extracting: Das systematische, genaue Durchsuchen einer Quelle oder Webseite nach interessantem Material, das man extrahiert, d.h. der Benutzer merkt sich die Information, oder er druckt sie aus. Dieser Vorgang wird extracting genannt.
undirected viewing Beim undirected viewing im WWW treten viele Fälle von starting und chaining auf. Der Benutzer hat keine Vorstellung, was er sucht. Er beginnt bei einer Hauptseite oder seiner Lieblingsseite (starting) z.B. Nachrichten-, Zeitung-, oder eine Portalseite und folgt Hypertextlinks (chaining), die er oft zufällig sieht, die aber sein Interesse wecken, um mehr Informationen zu erhalten. Falls der Benutzer gelangweilt wird, springt dieser wieder zu einer anderen Startseite (starting) und wählt andere Links etc.
Dieser Suchmodus wird in der Umgangssprache auch einfach"surfen" genannt.
conditioned viewing Das conditioned viewing im WWW besteht aus browsing, differentiating und monitoring. Der Benutzer hat eine ungefähre Vorstellung, was er sucht. Differentiating findet statt, wenn der Benutzer Webseiten auswählt, auf denen er relevanteInformationen vermutet. Der Benutzer wählt Webseiten, die er von vorherigen Besuchen kennt oder die ihm von anderen Personen empfohlen wurden (Mund-zu-Mund-Propaganda, Bericht über Webseite in einer Zeitung). Häufig sind diese Seiten bookmarked. Diese Auswahl wird durchgesehen (browsing). Der Benutzer kann regelmässig auf diese Seite zurückkehren, um sich nach neuen Inhalten umzusehen (monitoring).
informal search Der Benutzer weiss, was er für Informationen haben will. Er sucht auf wenigen Seiten, von denen er weiss, dass sie die gewünschten Informationen enthalten könnten. Die Seiten werden gefiltert durch Beurteilung nach Qualität und Relevanz (differentiating). Die Informationen werden durch lokale Suchmaschinender Seite extrahiert (extracting). Die Webseite wird vielleicht regelmässig wiederbesucht (monitoring).
formal search Der Benutzer weiss genau, was er sucht, und wo er es findet. Zum Beispiel eine bestimmte mp3-Datei, also sucht er z.B. auf der Napster-Homepage. Dieser Modus beschränkt sich vor allem aufs Extrahieren von Informationen (extracting). Der Benutzer könnte ebenfalls eine Seite regelmässig besuchen (monitoring).
Figure 3: Behavioral Modes and Moves of Information Seeking on the Web
| Starting | Chaining | Browsing | Differentiating | Monitoring | Extracting | |
|---|---|---|---|---|---|---|
| Undirected Viewing | Identifying, selecting, starting pages and sites | Following links on initial pages | ||||
| Conditioned Viewing | Browsing entry pages, headings, site maps | Bookmarking, printing, copying; Going directly to known site |
Revisiting 'favorite' or bookmarked sites for new information | |||
| Informal Search | Bookmarking, printing, copying; Going directly to known site |
Revisiting 'favorite' or bookmarked sites for new information | Using (local) search engines to extract information | |||
| Formal Search | Revisiting 'favorite' or bookmarked sites for new information | Using search engines to extract information |
Eine Studie, die mit 34 Teilnehmer, deren Browser sämtliche Aktivitäten (url, back, forward, print, save, etc.) geloggt hat, hat ergeben:
Von 61 Suchvorgängen wurden 23 als informal search, 18 als conditioned viewing, 12 als undirected viewing und 8 als formal search Suchvorgänge identifiziert.
Jedoch ist bei dieser Studie zu beachten, dass nur die Suchverhalten der Person an ihrem Arbeitsplatz registriert wurden und nicht als Privatbenutzer zu Hause.
Im Herbst 1998 wurden während einer Zeitperiode von 43 Tagen alle user queries an AltaVista in einem Logfile gespeichert. Die rund 280 GB Daten, die ca. 1 Milliarden Anfragen enthielten, wurden analysiert und ausgewertet. Die Erkenntnisse sind zum Teil überraschend, aber auch vorhersehbar. So zum Beispiel das 15% aller Anfragen kein Suchbegriff enthalten, d.h. sie haben keinerlei nutzen. Von den restlichen Anfragen sind 68% Anfragen für die erste Resultatseite und 32% fortlaufende Anfragen, d.h. es wurde eine weitere Resultatseite zur gleichen Anfrage abgerufen.
Beim Betrachten der statistischen Daten fällt auf, dass über die Hälfte der Suchanfragen im Internet mit höchstens 2 Worten umschrieben wird. Graphik 1 . Das ist erstaunlich, denn mit 2 Wörtern werden die meisten Suchergebiete nur unbefriedigend eingeschränkt.
Die durchschnittliche Anzahl Suchterme in einer Suchanfrage (ohne Leeranfragen) beträgt 2,35. Eine ähnliche Studie aus dem gleichen Jahr mit 50'000 queries, die an die Excite-Suchmaschine gestellt wurden, ergab den selben Wert.
Graphik 1
Ebenfalls ist die Verwendung von Operatoren AND(+), OR, NOT(-), eher selten. Auch wenn man annimmt, dass die Suchanfragen mit weniger als 2 Wörter kein Operator enthalten. Dann ergibt sich als Resultat, dass rund 65% der Anfragen mit mehreren Wörtern keinen Operator enthalten. Für eine Suchmaschine wie AltaVista, welche die Terme in der Anfrage, falls keine Operatoren vorhanden sind, mit dem logischen Operator OR verknüpft, ist das eine hohe Prozentzahl. Wahrscheinlich ist den meisten Benutzern von AltaVista diese OR-Verknüpfung nicht bewusst, oder sie wissen nicht wie sie Verknüpfungen zwischen den Begriffen machen können.
Um die Häufigkeiten der Begriffe zu bestimmen, musste das Vorkommen für über 100 Millionen einzigartigen Suchbegriffe gezählt werden. Damit man nicht jeden einzelnen Term im Arbeitsspeicher gespeichert werden muss, was zuviel Speicherplatz benötigen würde, erstellt und speichert man von jedem Begriff einen 32bits Fingerprint. Um nun die Begriffe möglichst schnell zu zählen, wird eine Hashtabelle verwendet.
Die Auswertung der AltaVista-Logdatei hat folgende Häufigkeiten ergeben (Gross- und Kleinschreibung wird unterschieden):
| Query | Frequency |
|---|---|
| sex | 1551477 |
| applet | 1169031 |
| porno | 712790 |
| mp3 | 613902 |
| chat | 406014 |
| warez | 398953 |
| yahoo | 377025 |
| playboy | 356556 |
| xxx | 324923 |
| hotmail | 321267 |
| [non-ASCII query] | 263760 |
| pamela anderson | 256559 |
| p**** | 234037 |
| sexo | 226705 |
| porn | 212161 |
| nude | 190641 |
| lolita | 179629 |
| games | 166781 |
| spice girls | 162272 |
| beastiality | 152143 |
| animal sex | 150786 |
| SEX | 150699 |
| gay | 142761 |
| titanic | 140963 |
| bestiality | 136578 |
The 25 most popular queries, and how often they were asked in the 43 day test period. Only distinct queries were used in the count; queries with many result screen requests were not upweighted.
p**** is a vulgarity.
Eine Session nennt man eine Serie von Anfragen, die ein und derselbe Benutzer während einer kurzer Zeitperiode macht.
In der Studie werden Cookies verwendet um die einzelnen Benutzer zu identifizieren. Als eine Session gilt, wenn der Benutzer innerhalb von 5 Minuten eine weitere Anfrage macht. Sonst gilt die Session als beendet.
Das Ergebnis der AltaVista-Studie war:
77% aller Sessionen werden nach einer Anfrage beendet. Graphik 2. Daraus lässt sich wohl kaum schliessen, dass diese Benutzer ihre Suche schon mit den 10 ersten Resultaten befriedigend beendet haben. Diese hohe Prozentzahl entsteht wohl eher durch Benutzer, die ihre Suchanfrage nur ungenügend formulieren können, und deshalb, vom Resultat abgeschreckt, verzweifelt aufgeben. Siehe Verwendung von Operatoren und Anzahl Suchbegriffe.
Graphik 2
Zwei Begriffe A und B gelten als unabhängig falls:![]()
P[ab] = P[a] * P[b]
P[ab]: Wahrscheinlichkeit, dass die Begriffe a und b in der gleichen
Anfrage auftreten.
P[a]: Wahrscheinlichkeit, dass Begriff a in einer Anfrage auftritt.
P[b]: Wahrscheinlichkeit, dass Begriff b in einer Anfrage auftritt.
Falls zwei Suchbegriffe nicht unabhängig sind, korrelieren sie.
Diese Korrelation wird durch den Korrelationskoeffizient
ausgedrückt.
(
i (Ai -
a) (Bi
-
b)) |
Ai ist 1, wenn Anfrage i Begriff a enthält, sonst 0 | ||||||||
(a,b)
= |
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() |
Bi ist 1, wenn Anfrage i Begriff b enthält, sonst 0 | |||||||
(
a2![]()
b2 ) |
a
Mittelwert von Begriff a, d.h. durchschnittliches Auftreten |
||||||||
b
Mittelwert von Begriff b, d.h. durchschnittliches Auftreten |
|||||||||
a2
Varianz von Begriff a |
|||||||||
b2
Varianz von Begriff b |
|||||||||

(a,b)
,
nichtin der gleichen Anfrage vorkommen. Der positive
Korrelationskoeffizient drückt die Wahrscheinlichkeit aus, dass
die beiden Begriffe in der gleichen Anfrage vorkommen.| Term A | Term B | O(AB) | ![]() |
|---|---|---|---|
| cindy | crawford | 118558 | 0.7098 |
| persian | kitty | 75716 | 0.6830 |
| pamela | anderson | 453467 | 0.6451 |
| visual | basic | 177971 | 0.6325 |
| www | http | 2355010 | 0.3862 |
| buffy | slayer | 12340 | 0.3989 |
| slayer | vampire | 13640 | 0.3088 |
| buffy | vampire | 12986 | 0.2766 |
| lang=ko | domain=kr | 1030416 | 0.7281 |
| date=restricted | applet | 1165565 | 0.7273 |
| referred=yes | sessmodlen=4+ | 76257842 | 0.6388 |
| referred=yes | sessmod=restart | 46359290 | 0.5482 |
| the | qwords=6+ | 2417838 | 0.1886 |