Hallo,
Ich habe mir dazu einige Gedanken gemacht und im pilzforum.eu aufgeschrieben:
https://www.pilzforum.eu/board…mmen?pid=398293#pid398293
Beste Grüße,
Craterelle
P.S.: Schwer zu entscheiden, in welchen der vielen Beiträge +/- zur selben Thematik das nun am besten passt.
______________________________________________________
Um die Fragestellung nach dem angemessenen Umfang einer Stichprobe sowie der Anwendbarkeit von statistischen Berechnungen für Normalverteilungen auf nicht normalverteilte Daten weiter zu beleuchten, habe ich mir als Beispiel nochmals Dieters Scheidling vorgenommen. Die Daten der Messreihe mit 120 Wertepaaren sind im hier veröffentlicht:
https://www.pilzforum.eu/board…mmen?pid=363509#pid363509
So sieht die Längenverteilung aus, sie ist - leicht erkennbar - nicht normalverteilt.
Das repräsentiere also unsere Grundgesamtheit. Ob nun von einem Fruchtkörper, einer Kollektion oder einer Art ist an dieser Stelle vollkommen egal, hier will ich auf die mathematischen Gegebenheiten hinaus.
Der Shapiro-Wilk-Test erkennt ebenfalls, dass es sich wahrscheinlich nicht um eine Normalverteilung handelt.
Lässt man wie in Jens' Programm ("Smaff") voreingestellt den Nalimov-Test heraus, kann man mit Hilfe der drei anderen Test zwar einige "Ausreißer" entfernen, nur ergibt das immer noch keine Normalverteilung.
Mit Nalimov-Test erhält man zwar eine, verliert aber 20% des Probenumfangs.
Also reduziere ich den Stichprobenumfang durch zufällige Auswahl auf 40 bzw. 30 Werte. Dies habe ich zur Sicherheit zweimal mit verschiedenen Zufallsreihen durchgeführt, erhalte also 2 x 4 Stichproben à 30 Wertepaaren bzw. 2 x 3 à 40.
Normalverteilt erschienen davon
bei U=40: 1 von 6
bei U=30: 2 von 8
und nach Elimination von "Ausreißern" ohne Nalimov-Test
bei U=40: 3 von 6
bei U=30: 7 von 8
Also niemals 100%.
Testweise habe ich den Umfang noch weiter reduziert, aber auch bei 2 x 12 Stichproben à 10 war noch eine dabei, der man mit sämtlichen Tests (hier inkl. Nalimov) nicht beikommen konnte. Nur 10 Sporen für eine statistische Auswertung heranzuziehen würde allerdings wohl niemand ernsthaft empfehlen. Bleiben wir also vorerst bei U=30 als dem Wert, bei dem man zumindest mit einiger Wahrscheinlichkeit durch Eleminieren von "Ausreißern" eine vermeintliche Normalverteilung darstellen kann.
Aus den 8 Stichproben habe ich das Programm also die Mittelwerte und den 95%-Konfidenzbereich für selbige berechnen lassen. Ein besonderer Vorteil an statistisch berechneten Werten ist ja, das man zuverlässig vorhersagen kann, mit welcher Wahrscheinlichkeit eine weitere Stichprobe aus derselben Grundgesamtheit in die errechneten Mittelwertgrenzen fällt.
Tatsächlich liegt beim paarweisen Vergleich von Mittelwerten und Mittelwertgrenzen in 7 von 56 Fällen (12,5%) der Mittelwert der einen außerhalb der Konfidenzgrenzen der anderen Probe.
Die Vorhersage von Wahrscheinlichkeiten könnte also trügerisch sein, wenn die Grundgesamtheit nicht normalverteilt ist. Hier wären ggf. mehr Versuche mit anderen Zufallsverteilungen nötig, um die Beobachtung zu erhärten oder zu entkräften.
Die Mittelwerte schwanken mit einer Standardabweichung von 0,11, was vertretbar erscheint und bei so kleinen Stichproben auch nicht verwunderlich. Die Schwankungsbreite bei den Medianen ist auch nicht wesentlich geringer (0,09), aber die Beschreibung mit Median und Quantilsgrenzen hat den Vorteil, dass man ohne irgendwelche Nachteile mehr Werte messen könnte, wenn die Schwankungen zu groß sein sollten (bei U=60 im Beispiel: 0,07).
Einen weiteren Punkt hatte Dieter schon herausgearbeitet:
Der 95%-Konfidenzbereich für die Verteilung der Werte ist bei rechtsschiefen Verteilungen systematisch nach links (zu den kleineren Werten hin) zu groß, d.h. er erstreckt sich über Bereiche, in denen in der Grundgesamtheit keine Werte vorkommen. Ich führe das jetzt nicht noch ein weiteres Mal aus, für Interessierte:
https://www.pilzforum.eu/board…mmen?pid=363471#pid363471
Quantilsgrenzen bilden in diesem Fall die Realität offenbar zutreffender ab.
Grafisch dargestellt: links in Grün die errechneten 95%-Populationsgrenzen und Mittelwerte für die 8 Stichproben, rechts in Rot die 95%-Quantilsgrenzen und Mediane. Gelb hinterlegt die Bandbreite der Grundgesamtheit (100%).
Meine Schlussfolgerungen:
30-40 Messungen sind zu wenig, um zu beurteilen, ob in der Grundgesamtheit eine Normalverteilung vorliegt.
Liegt keine Normalverteilung vor, liefern statistische Methoden, die auf der Normalverteilungsannahme beruhen, irreführende Ergebnisse.
Die Messwerte sind in diesem Fall mit Median und Quantilsgrenzen aussagekräftiger beschrieben.
Man könnte sogar argumentieren, dass diese Art der Beschreibung allgemein vorzuziehen wäre, da sie für nicht normalverteilte Stichproben besser geeignet ist und für normalverteilte ähnlich gut wie errechnete Werte. Mediane und Mittelwerte fallen bei symmetrischen Verteilungen zusammen. Ebenso werden Quantile und berechnete korrespondiere Wahrscheinlichkeitsbereiche zusammenfallen, wenn die Daten normalverteilt sind.