Statistik & Archäologie. Warum wir sollen, was wir könnten.

Stellen Sie sich vor, wie Archäologen vor 2500 Jahren gearbeitet hätten. Mit Grabstöcken, den Abraum in Bastkörben auf dem Kopf balancierend. Auf Papyrus oder Tontafeln wird dokumentiert und mit Knotenschnüren vermessen. Keine Totalstation, keine Kameras, nicht eine der sonst allgegenwärtigen Kellen. Wer würde heute unter so archaischen Bedingungen arbeiten wollen? Und doch tun wir das –  fast alle! Zwar gehen wir im Kanon unserer Feldmethoden mit dem Fortschritt, nutzen HighTech in allen Facetten aber nach CAD, Photogrammetrie und automatischer Fundbeschriftung, wenn es an die Auswertung unserer Daten geht, fallen wir in das Zeitalter der griechischen Naturphilosophen zurück, die alles allein durch Anschauen und Kraft ihres Geistes erklären wollten.

Selbstverständlich sind Empirie und auch Intuition sehr wichtige Quellen wissenschaftlicher Arbeit, aber damit allein läßt sich keine Auswertung ernsthaft bestreiten. Welchen Wert hätte eine Ausgrabung ohne technische Vermessung? Und welchen Wert hat die Auswertung eines Katalogs ganz ohne Statistik? Die Abneigung vieler Archäologen gegen Statistik scheint dabei nur oberflächlich und liegt wahrscheinlich in der Erinnerung an langweilige Mathe-Unterrichtsstunden begründet. Leider hat diese Abneigung weitreichende Folgen, indem sie die Beschäftigung selbst mit den Grundlagen der Statistik blockiert. Kombinationstabellen, Seriation, Hauptkomponentenanalyse… und weitere Begriffe gehören zum Kanon des schon-einmal-Gehörten. Die Methoden kommen bei Archäologen durchaus auch zur Anwendung, allerdings in vielen Fällen nur aus Gründen der Vollständigkeit, d.h. mit dem Willen, bereits Bekanntes noch einmal auf „objektivem“ Wege zu bestätigen. Gern wird dabei, statt auf die Abweichungen des Ergebnisses vom Erwarteten einzugehen, an den Ausgangsdaten manipuliert, bis das Resultat den Wünschen entspricht oder es werden nur Strukturen erklärt, die den Erwartungen entsprechen.(1) Damit wird der irrtümlich Churchill zugeschriebene Spruch, der sinngemäß anrät nur durch eigene Hand gefälschten Statistiken zu vertrauen, zur selbsterfüllenden Prophezeiung.
Auch um die methodisch fragwürdige Anwendung von Statistik zu erkennen, benötigt man wenigstens Grundkenntnisse, um die Methoden aber bereichernd einzusetzen, bedarf es lediglich eines Grans Enthusiasmus und Neugier.

Die Vorteile, die man durch ein wenig Beschäftigung mit statistischen Grundlagen gewinnt, überwiegen die Mühen des Lernens bei weitem; das Tachymeter möchte man, einmal verwendet, auch auf keiner Grabung mehr missen. Dabei hat Statistik gar nicht viel mit dem bei Archäologen so wenig beliebten Mathe – wenigstens mit der Schulmathematik – gemeinsam. Denn während letzteres stoisch mit sehr Abstraktem arbeitet, dient ersteres dem Aufdecken von Strukturen, dem Beantworten von Fragen und sogar dem Finden von weiteren Fragen – kurz dem Erkenntnisfortschritt, also einem Kernanliegen unserer Wissenschaft. Dazu bietet sie verlässliche Aussagen und einen festen Methodenkanon – beides wesentlich bessere Grundlagen für Interpretation und Diskussion als Intuition und das oft mit einem Schulterzucken begleitete Argument der Plausibilität.

Ein Beispiel: Wir haben Daten aus einem Katalog aufgenommen und können zwei Gruppen unterscheiden, z.B. weibliche und männliche Bestattungen (Tabelle 1). In beiden Gruppen tritt hin und wieder der Vertreter eines bestimmten Typs X auf. In Gruppe 1, die insgesamt 18 Individuen umfasst, wurden zehn Individuen mit Typ X und acht ohne diesen Typ beobachtet. Anschaulich stellen wir neben diese absoluten Häufigkeiten noch die relativen (also die Prozentzahlen) und erkennen, daß in Gruppe 2 Typ X häufiger (67%) beobachtet wurde als in Gruppe 1 (nur 56%). Soweit, wie gesagt, die Beobachtung! Dürfen wir nun schließen, daß generell, also z.B. in der gesamten archäologischen Kultur aus der unsere beiden Gruppen stammen, Gruppe 2 tatsächlich  häufiger mit X vorkommt? Schließlich sind 67% eindeutig ganze elf Prozentpunkte mehr als 56%. Oder könnte es sich nicht doch um Zufall handeln, immerhin spielt Zufall bei allem menschlichen Tun eine Rolle und ganz gewiss auch in der Archäologie, wo u.a.  Überlieferungsbedingungen und eine Reihe weiterer Unwägbarkeiten die für uns noch dokumentierbaren Befundmerkmale prägen. Weitere Ausgrabungen könnten das beobachtete Bild durchaus verändern. Diese Frage läßt sich nicht durch nachdenken lösen, aber leicht mit einem statistischen Test entscheiden.  Das Verfahren  vergleicht die absoluten Häufigkeiten miteinander und liefert einen Signifikanzwert, der entscheiden hilft, ob aus unseren Beobachtungen eine verallgemeinernde Aussage ableitbar ist oder nicht. Konventionell gelten Werte unter 0,05 als signifikant (2), Werte über 0,05 als nicht signifikant (3). In unserem Fall liefert der Test (sog. Chi-Quadrat-Test) p=0,68, d.h. die Unterschiede sind nicht signifikant. Die Schlußfolgerung, Gruppe 2 würde generell, d.h. in der besagten Kultur, häufiger mit Artefakten des Typs X vorkommen, ist also nicht statthaft.

Nehmen wir in einer zweiten Tabelle nun Häufigkeiten, die jeweils zehnmal so groß sind wie eben (Tabelle 2). Gruppe 3 besteht also aus 100 Individuen mit Typ X plus 80 Individuen ohne diesen Typ. Die relativen Häufigkeiten bleiben natürlich gleich und auch hier sind die 67% mit Typ X in Gruppe 4 um elf Prozentpunkte größer als 56% in Gruppe 3. Rein intuitiv könnte man nun keinen Unterschied zu Tabelle 1 vermuten. Die gleiche Methode zum Test der Signifikanz, d.h. der Chi-Quadrat-Test, offenbart jedoch einen viel kleineren Wert mit p=0,03. Damit ist die Aussagekraft dieser Tabelle viel stärker und, da p kleiner als 0,05 ist, kann aufgrund  dieser Beobachtungen geschlossen werden, daß in der gesamten Population, d.h. der Kultur, Gruppe 4 häufiger mit Typ X vorkommt als Typ 3.

Tabelle 1

p=0,68           Gruppe 1             Gruppe 2
mit X                10        (56%)           16         (67%)
ohne X               8        (44%)             8         (33%)
Summe             18      (100%)           24       (100%)

 

Tabelle 2

p=0,03          Gruppe 3             Gruppe 4     
mit X              100       (56%)         160         (67%)
ohne X             80       (44%)           80         (33%)
Summe           180     (100%)         240       (100%)

An diesem Beispiel werden zwei grundsätzliche Vorteile der Statistik deutlich. Wir sehen zum einen, daß uns unser intuitives Zahlenverständnis auf´s Glatteis führen kann. Abhilfe schafft hier ein Signifikanztest, der zu einer eindeutigen Entscheidung führt, ob von den uns in begrenzter Zahl vorliegenden Beobachtungen auf einen Unterschied, d.h. eine Struktur im Großen und Ganzen, etwa einer archäologischen Kultur oder Phase, geschlossen werden darf. Weiterhin zeigt uns der Vergleich beider Tabellen, daß allein die Anzahl der Beobachtungen über die Aussagekraft von Unterschieden entscheidet. Das „Problem der kleinen Zahlen“ ist sprichwörtlich in der Statistik und ein häufiges, nicht immer beachtetes Hindernis bei archäologischen Datensammlungen. Auch hier gilt: Interpretationen sind möglich – aber nur nach Anwendung von Statistik und nicht nach dem Bauchgefühl. Gleichfalls erklärt sich damit, weshalb z.B. bei Parteiwahlen Unterschiede von 5% relevant sind, während 10% Differenz in archäologischen Daten oft keine Rolle spielen.

Neben der Entscheidungsfindung bieten sich weitere Möglichkeiten. Ergebnisse werden, wenn sie mit denselben Methoden gewonnen wurden, vergleichbar. Aussagen zur Eignung der Daten für eine Analysemethode sind ebenso möglich wie zur Relevanz der Ergebnisse; das gilt sowohl für einfache Hypothesen, wie im Beispiel gezeigt, als auch für kompliziertere Verfahren wie Korrespondenz- oder Hauptkomponentenanalyse und weitere. Zu den großen Stärken der Statistik zählt weiterhin die Aufdeckung von Strukturen in den Daten, die man ohne Hilfsmittel nicht oder nur mühsam erschließen könnte. Also beispielsweise wie sich Gefäße anhand ihrer aufgenommenen Profile zueinander verhalten; ob sie sich etwa eher in Gruppen sortieren oder ob sie sich eher entlang eines Gradienten, vielleicht einer Entwicklungsreihe, anordnen. Wer sich schon einmal dem Problem einer Gefäßtypologisierung gestellt hat, weiß, wie verschränkt verschiedene Möglichkeiten werden können und daß sich meist mehrere Effekte überlagern.
Schließlich lassen sich auch derartige Strukturen, egal, ob sie nun einer Berechnung entstammen oder durch Ausprobieren gemutmaßt wurden, auf ihre Stichhaltigkeit überprüfen, d.h. also, verschiedene Modelle können auf ihre Relevanz hin miteinander verglichen werden.

Wie angemerkt, sollen Intuition und Erfahrung nicht in Abrede sondern vielmehr grundsätzlich um die Statistik in der Archäologie erweitert werden. Alles, was nützt, soll auch zur Anwendung kommen, das jahrhundertealte Prinzip des Pinsels ebenso wie das Tachymeter, die eigene Anschauung wie der Signifikanzetest. Den Bedenken der postprozessualistischen Anarchie zum Trotz bilden normierte, wissenschaftlich geschöpfte Aussagen immer noch eine solide Diskussionsgrundlage. Die im letzten Jahrzehnt deutliche Hinwendung des Faches zu naturwissenschaftlichen Methoden wie Isotopen- und aDNA-Untersuchungen mag das bezeugen. Den Vorteilen der Statistik ist übrigens noch hinzuzufügen, daß sie die Ergebnisse dieser naturwissenschaftlichen Messungen erst verständlich macht. Während die Archäologie aber hier von erst kürzlich in Anwendung und Preis optimierten Methoden profitiert, sind uns, d.h. den Archäologen, die Früchte statistischer Entwicklung der letzten Dekaden weitgehend unbekannt. So spornte z.B. das Wachstum des Internets die Erforschung von Netzwerk-Analysemethoden an, die wiederum auch in der Archäologie, etwa beim Vergleich mehrphasiger Fundstellen, angewendet werden können. In einem Zeitalter, in dem Maschinen Gesichter besser identifizieren können als die meisten Menschen (natürlich dank statistischer Methoden), sollte die Erstellung einer Gefäßtypologie keine nennenswerten Schwierigkeiten mehr bereiten. Obendrein stehen die Statistikmethoden jedem Computerbesitzer, im Gegensatz zu den naturwissenschaftlichen Untersuchungen, kostenlos zur Verfügung!(4)

Also spricht so vieles für… und was genau eigentlich gegen die Anwendung von Statistik in der Archäologie?(5)

Fußnoten

1 – Z.B. werden bei Korrespondenzanalysen nur diejenigen Hauptachsenkombinationen erklärt, die parabelförmige Punktverteilungen liefern – wenn es sich dabei um die erste und die dritte Hauptachse handelt, fällt die zweite gern unerläutert unter den Tisch.

2 – Der Signifikanzwert p (von probability=Wahrscheinlichkeit) gibt die Wahrscheinlichkeit an „wie oft“ man falsch vom Beobachteten auf eine allgemeingültige Struktur in der sog. Grundgesamtheit schließen würde. Bei p=0,05 betrüge die Wahrscheinlichkeit 5%, d.h. in durchschnittlich einem von zwanzig Rückschlüssen, die auf diesem p-Wert beruhen, lägen wir falsch.

3 – Die Tests wurden mit „R“ durchgeführt, Funktion chisq.test.

4 – nämlich mit dem frei verfügbaren Programm „R“, das sämtliche gängigen und neuen Statistik-Werkzeuge umfasst. Mehr dazu in den Literaturempfehlungen.

5 – Um dem Postprozessualismus versöhnlicher zu begegnen, möchte ich Ihnen, dem Leser, an dieser Stelle zwar keine alternative Interpretationsmöglichkeit – denn das gesagte bleibt mir durchaus ein Anliegen – aber wenigstens ein wahlweise anderes Textende anbieten:
Neben den vielen Vorteilen u.a. für das Verstehen aufgenommener Daten und die Weiterentwicklung der Archäologie bereichert statistisches Grundwissen auch den persönlichen Alltag. Wie weit wir davon jedoch noch insgesamt entfernt sind, klagt es aus berufenem Munde: „Es mangelt aber auch an statistischer Kompetenz: Es mangelt an der Bereitschaft statistische Information zu lesen und sich mit ihr auseinanderzusetzen. Es mangelt an der Fähigkeit, statistische Information korrekt zu interpretieren. Und es mangelt an Verständnis dafür, was deskriptive Statistik zu leisten imstande ist und was nicht.“ (Hans Wolfgang Brachinger: Amtliche Daten zwischen Klamauk und Ignoranz, Neue Zürcher Zeitung 10. September 2010, S. 23. – Brachinger ist Ordinarius für Statistik an der Universität Freiburg im Üechtland (Schweiz)). Das als Ansporn – wir können nur dazugewinnen!

Literaturempfehlungen

M Fletcher & G Lock, Digging Numbers: Elementary Statistics for Archaeologists. Oxford 2005 (2. Auflage).
Leider gibt es keine passablen deutschen Einführungen in die Statistik speziell für Archäologen. Fletcher und Lock erklären die allerersten Grundlagen allen Neugierigen und Mathe-Verzweifelten sehr gut verständlich anhand von vielen Beispielen. Ausgesprochene Zahlenfeinde sollten sich, wenn schon an kein anderes, wenigstens an dieses Buch heranwagen.

S Shennan, Quantifying Archaeology. Edinburgh 1997 (2. Auflage).
Ebenfalls eine gute Einführung, auch in fortgeschrittenere Methoden und u.a. die „Klassiker“ Seration, Korrespondenzanalyse und Hauptkomponentenanalyse. Etwas angestaubt aber gut zu lesen.

L Mlodinow, Wenn Gott würfelt oder Wie der Zufall unser Leben bestimmt. Reinbeck 2011 (Orig. 2008)
Weder Statistiklehrbuch, noch Archäologie (doch ein bißchen, aber zu vernachlässigen)! Eine populärwissenschaftliche Reise entlang der vielen Irrtümer und Trugschlüsse, die uns bei Schätzungen, Wahrscheinlichkeiten und Erwartungen begegnen. Vieles streifend, vom Glücksspiel über Platzierungen beim Sport, Wahlen… dabei wird die Geschichte der Statistik nebenbei genauso erläutert wie viele grundlegende Begriffe und Prinzipien. Sehr kurzweilig, viele Aha!-Effekte.

 

Neugierigen und Kollegen, die nach einer konkreten Lösung ihrer Fragestellung suchen kann ich unseren Blog (G. Roth & J. Wicke) www.Rchaeology.tk an´s Herz legen. Sie finden dort Methoden und Schritt-für-Schritt-Umsetzungen zur sofortigen Anwendung in der Statistik-Software „R“ erklärt.

Jörg Wicke, 6. März 2012