PPS - Information Retrieval im WWW

Studien über das Benutzerverhalten

Andreas Kalapos

1. Einleitung

Das Internet bietet eine riesige Menge an Informationen. Darum spielt auch die Suche nach der benötigten Information ein zentrale Rolle. Jeder, der nach Informationen sucht, hat eine eigene Vorgehensweise, wie er die Information finden will. Diese Arbeit versucht die verschiedenen Suchstrategien und -verhalten der Internetbenutzer zu erklären.

Alle Statistiken und Resultate stammen von den drei Studien (siehe Literatur).

2. Verschiedene Informationssuchverhalten

Um die unterschiedlichen Suchverhalten im Internet zu beschreiben, verwendet man das von Aguilar 1967 entwickelte und durch Weick und Daft 1983 erweiterte Modell der vier Suchmodi: undirected viewing, conditioned viewing, informal search und formal search.

Jeder Suchmodus hat ein unterschiedliches Informationsbedürfnis und eine andere Strategie um es zu stillen. Diese Strategien werden durch sechs Suchaktivitäten beschrieben: starting, chaining, browsing, differentiating, monitoring und extracting.

2.1 Suchaktivitäten

Starting: Das starting ist jene Aktivität, die als Ausgangssuche von Informationen gilt. Es werden Quellen zu den Interessen identifiziert. Diese Quellen sind oft vertraute Webseiten, wie Startseiten, Portale und andere Linklisten. Also vor allem Seiten auf denen zusätzliche Quellen oder Referenzen empfohlen werden. Nur in seltenen Fällen werden beim starting auf weniger bekannte Seiten zugegriffen, dann jedoch auf Seiten von denen erwartet wird, dass sie relevante Informationen enthalten.

Chaining: Das Folgen der Pfade (Links) von diesen Startseiten nennt man chaining. Chaining kann vorwärts oder rückwärts betrieben werden. Als backward-chaining bezeichnet man das Folgen von Zeigern und Referenzen (Links) von der Ausgangssuchseite. Das forward-chaining, folgt den Seiten, die eine Referenz auf die aktuelle Seite hat. Das heisst, es wird den sogenannten Backlinks gefolgt. Aufgrund des Internetaufbaus und der Tatsache, dass Backlinks höchstens über Suchmaschinen herausgefunden werden können, ist das forward-chaining selten.

Browsing: Nachdem die Webseiten und Dokumente lokalisiert sind, werden diese potentiellen Informationsquellen durchstöbert. Dieses Durchstöbern, browsing genannt, beschränkt sich häufig auf das Überfliegen von Inhaltsverzeichnissen, Titeln, Zusammenfassungen oder Personenlisten. Ein Beispiel aus dem Alltag: Die Suche im Büchergestell. Man sucht im Gestell mit Büchern zum Thema z.B. "Computer" nach einem Buch. Indem man nun die Buchrücken überfliegt (browsing) lokalisiert man das gewünschte Buch.

Differentiating: Beim differentiating wählt die Person die wichtigen Informationsquellen aus. Es werden die verschiedenen Informationsquellen verglichen und entschieden, welche punkto Qualität, Niveau und Inhalt den gestellten Ansprüchen entsprechen. Der differentiating-Prozess wird beeinflusst durch frühere Erfahrungen der Person und Empfehlungen anderer Personen.

Monitoring: Monitoring nennt man das regelmässige Besuchen von bestimmten Webseiten, die der Benutzer für wichtig hält. Diese favorisierten Seiten, oft bookmarked, werden nach neuen Informationen abgesucht. Zum Teil lässt man sich eigens dafür Newsletter zuschicken, die einem die Neuigkeiten mitteilen. Man überwacht sie.

Extracting: Das systematische, genaue Durchsuchen einer Quelle oder Webseite nach interessantem Material, das man extrahiert, d.h. der Benutzer merkt sich die Information, oder er druckt sie aus. Dieser Vorgang wird extracting genannt.

2.2 Suchmodi

undirected viewing Beim undirected viewing im WWW treten viele Fälle von starting und chaining auf. Der Benutzer hat keine Vorstellung, was er sucht. Er beginnt bei einer Hauptseite oder seiner Lieblingsseite (starting) z.B. Nachrichten-, Zeitung-, oder eine Portalseite und folgt Hypertextlinks (chaining), die er oft zufällig sieht, die aber sein Interesse wecken, um mehr Informationen zu erhalten. Falls der Benutzer gelangweilt wird, springt dieser wieder zu einer anderen Startseite (starting) und wählt andere Links etc.
Dieser Suchmodus wird in der Umgangssprache auch einfach"surfen" genannt.

conditioned viewing Das conditioned viewing im WWW besteht aus browsing, differentiating und monitoring. Der Benutzer hat eine ungefähre Vorstellung, was er sucht. Differentiating findet statt, wenn der Benutzer Webseiten auswählt, auf denen er relevanteInformationen vermutet. Der Benutzer wählt Webseiten, die er von vorherigen Besuchen kennt oder die ihm von anderen Personen empfohlen wurden (Mund-zu-Mund-Propaganda, Bericht über Webseite in einer Zeitung). Häufig sind diese Seiten bookmarked. Diese Auswahl wird durchgesehen (browsing). Der Benutzer kann regelmässig auf diese Seite zurückkehren, um sich nach neuen Inhalten umzusehen (monitoring).

informal search Der Benutzer weiss, was er für Informationen haben will. Er sucht auf wenigen Seiten, von denen er weiss, dass sie die gewünschten Informationen enthalten könnten. Die Seiten werden gefiltert durch Beurteilung nach Qualität und Relevanz (differentiating). Die Informationen werden durch lokale Suchmaschinender Seite extrahiert (extracting). Die Webseite wird vielleicht regelmässig wiederbesucht (monitoring).

formal search Der Benutzer weiss genau, was er sucht, und wo er es findet. Zum Beispiel eine bestimmte mp3-Datei, also sucht er z.B. auf der Napster-Homepage. Dieser Modus beschränkt sich vor allem aufs Extrahieren von Informationen (extracting). Der Benutzer könnte ebenfalls eine Seite regelmässig besuchen (monitoring).

Figure 3: Behavioral Modes and Moves of Information Seeking on the Web
Starting Chaining Browsing Differentiating Monitoring Extracting
Undirected Viewing Identifying, selecting, starting pages and sites Following links on initial pages        
Conditioned Viewing     Browsing entry pages, headings, site maps Bookmarking, printing, copying;
Going directly to known site
Revisiting 'favorite' or bookmarked sites for new information  
Informal Search       Bookmarking, printing, copying;
Going directly to known site
Revisiting 'favorite' or bookmarked sites for new information Using (local) search engines to extract information
Formal Search         Revisiting 'favorite' or bookmarked sites for new information Using search engines to extract information

2.3 Häufigkeiten der 4 Suchmodi

Eine Studie, die mit 34 Teilnehmer, deren Browser sämtliche Aktivitäten (url, back, forward, print, save, etc.) geloggt hat, hat ergeben:

Von 61 Suchvorgängen wurden 23 als informal search, 18 als conditioned viewing, 12 als undirected viewing und 8 als formal search Suchvorgänge identifiziert.

Jedoch ist bei dieser Studie zu beachten, dass nur die Suchverhalten der Person an ihrem Arbeitsplatz registriert wurden und nicht als Privatbenutzer zu Hause.

3. Anfragen an die Suchmaschinen

Im Herbst 1998 wurden während einer Zeitperiode von 43 Tagen alle user queries an AltaVista in einem Logfile gespeichert. Die rund 280 GB Daten, die ca. 1 Milliarden Anfragen enthielten, wurden analysiert und ausgewertet. Die Erkenntnisse sind zum Teil überraschend, aber auch vorhersehbar. So zum Beispiel das 15% aller Anfragen kein Suchbegriff enthalten, d.h. sie haben keinerlei nutzen. Von den restlichen Anfragen sind 68% Anfragen für die erste Resultatseite und 32% fortlaufende Anfragen, d.h. es wurde eine weitere Resultatseite zur gleichen Anfrage abgerufen.

3.1 Aufbau der Anfragen

Beim Betrachten der statistischen Daten fällt auf, dass über die Hälfte der Suchanfragen im Internet mit höchstens 2 Worten umschrieben wird. Graphik 1 . Das ist erstaunlich, denn mit 2 Wörtern werden die meisten Suchergebiete nur unbefriedigend eingeschränkt.

Die durchschnittliche Anzahl Suchterme in einer Suchanfrage (ohne Leeranfragen) beträgt 2,35. Eine ähnliche Studie aus dem gleichen Jahr mit 50'000 queries, die an die Excite-Suchmaschine gestellt wurden, ergab den selben Wert.

Graphik 1

Ebenfalls ist die Verwendung von Operatoren AND(+), OR, NOT(-), eher selten. Auch wenn man annimmt, dass die Suchanfragen mit weniger als 2 Wörter kein Operator enthalten. Dann ergibt sich als Resultat, dass rund 65% der Anfragen mit mehreren Wörtern keinen Operator enthalten. Für eine Suchmaschine wie AltaVista, welche die Terme in der Anfrage, falls keine Operatoren vorhanden sind, mit dem logischen Operator OR verknüpft, ist das eine hohe Prozentzahl. Wahrscheinlich ist den meisten Benutzern von AltaVista diese OR-Verknüpfung nicht bewusst, oder sie wissen nicht wie sie Verknüpfungen zwischen den Begriffen machen können.

3.2 Häufigkeiten von Suchbegriffen

Um die Häufigkeiten der Begriffe zu bestimmen, musste das Vorkommen für über 100 Millionen einzigartigen Suchbegriffe gezählt werden. Damit man nicht jeden einzelnen Term im Arbeitsspeicher gespeichert werden muss, was zuviel Speicherplatz benötigen würde, erstellt und speichert man von jedem Begriff einen 32bits Fingerprint. Um nun die Begriffe möglichst schnell zu zählen, wird eine Hashtabelle verwendet.
Die Auswertung der AltaVista-Logdatei hat folgende Häufigkeiten ergeben (Gross- und Kleinschreibung wird unterschieden):
Query Frequency
sex1551477
applet1169031
porno 712790
mp3 613902
chat 406014
warez 398953
yahoo 377025
playboy 356556
xxx 324923
hotmail 321267
[non-ASCII query] 263760
pamela anderson256559
p**** 234037
sexo 226705
porn 212161
nude 190641
lolita 179629
games 166781
spice girls 162272
beastiality 152143
animal sex 150786
SEX 150699
gay 142761
titanic 140963
bestiality 136578

The 25 most popular queries, and how often they were asked in the 43 day test period. Only distinct queries were used in the count; queries with many result screen requests were not upweighted.

p**** is a vulgarity.

3.3 Session

Eine Session nennt man eine Serie von Anfragen, die ein und derselbe Benutzer während einer kurzer Zeitperiode macht.

In der Studie werden Cookies verwendet um die einzelnen Benutzer zu identifizieren. Als eine Session gilt, wenn der Benutzer innerhalb von 5 Minuten eine weitere Anfrage macht. Sonst gilt die Session als beendet.

Das Ergebnis der AltaVista-Studie war:
77% aller Sessionen werden nach einer Anfrage beendet. Graphik 2. Daraus lässt sich wohl kaum schliessen, dass diese Benutzer ihre Suche schon mit den 10 ersten Resultaten befriedigend beendet haben. Diese hohe Prozentzahl entsteht wohl eher durch Benutzer, die ihre Suchanfrage nur ungenügend formulieren können, und deshalb, vom Resultat abgeschreckt, verzweifelt aufgeben. Siehe Verwendung von Operatoren und Anzahl Suchbegriffe.

Graphik 2

3.4 Korrelation der Suchbegriffe

Zwei Begriffe A und B gelten als unabhängig falls:P[ab] = P[a] * P[b]

P[ab]: Wahrscheinlichkeit, dass die Begriffe a und b in der gleichen Anfrage auftreten.
P[a]: Wahrscheinlichkeit, dass Begriff a in einer Anfrage auftritt.
P[b]: Wahrscheinlichkeit, dass Begriff b in einer Anfrage auftritt.

Falls zwei Suchbegriffe nicht unabhängig sind, korrelieren sie. Diese Korrelation wird durch den Korrelationskoeffizientausgedrückt.



( i (Ai - a)(Bi - b)) Ai ist 1, wenn Anfrage i Begriff a enthält, sonst 0

(a,b) = Bi ist 1, wenn Anfrage i Begriff b enthält, sonst 0


( a2 b2 ) a Mittelwert von Begriff a, d.h. durchschnittliches Auftreten



b Mittelwert von Begriff b, d.h. durchschnittliches Auftreten



a2 Varianz von Begriff a



b2 Varianz von Begriff b







Der Korrelationskoeffizient variiert zwischen -1 und 1. Eine negativer Korrelationskoeffizient besagt, dass die beiden Begriffe mit der Wahrscheinlichkeit, ausgedrückt durch (a,b), nichtin der gleichen Anfrage vorkommen. Der positive Korrelationskoeffizient drückt die Wahrscheinlichkeit aus, dass die beiden Begriffe in der gleichen Anfrage vorkommen.
Einige Korrelationen aus der AltaVista-Studie:

Term A Term B O(AB)
cindy crawford 118558 0.7098
persian kitty 75716 0.6830
pamela anderson 453467 0.6451
visual basic 177971 0.6325
www http 2355010 0.3862
buffy slayer 12340 0.3989
slayer vampire 13640 0.3088
buffy vampire 12986 0.2766
lang=ko domain=kr 1030416 0.7281
date=restricted applet 1165565 0.7273
referred=yes sessmodlen=4+ 76257842 0.6388
referred=yes sessmod=restart 46359290 0.5482
the qwords=6+ 2417838 0.1886

4. Zusammenfassung

In Suchanfragen werden kaum Operatoren verwendet. Ausserdem umschreiben die meisten Benutzer ihre Suchanfrage nur mit wenigen Begriffen. Grösstenteils werden nur die ersten 10 Resultate (erste Antwortseite) einer Suchanfrage beachtet. Die meisten Benutzer sind schlecht informiert, wie man eine Suchanfrage richtig formuliert.

5. Literatur