Hallo Andreas,
als erstes kann man daraus lernen, dass diese Grafiken bei wenig Sporen wenig Aussagekraft haben. Und nicht schön sind. Dafür sind dann ja aber die Tests da. Ok nur einer, der Shapiro-Wilk.
a) Viele Sporen zu messen macht ja dann doch Sinn? Mit zunehmender Anzahl an Sporenmessungen wird die Verteilungskurve normaler ....
Ja, wenn du wenige mißt, sieht es fast immer doof aus, da die wenigen Sporen ja nur in wenige Intervalle aufgeteilt werden. Die Intervalle siehst du in Smaff, wenn du über der Grafik auf Balkendiagramm gehst. Wenn da dann eine Lücke zwischen den Balken ist, dann ist das Intervall leer. Jeder Balken ist so breit wie jedes Intervall. Je mehr Sporen du mißt, desto wahrscheinlicher ist es natürlich auch, dass irgendwann die Sporen kommen, die auch die Lücke ausfüllen. Normalverteilung vorausgesetzt.
Also wenn es dir darum geht, eine schöne Verteilungskurve zu haben, mußt du i.d.R. mehr Werte messen. "Normaler" wird dadurch die Verteilung deiner Sporen aber nicht. Man kann nur eine immer genauere Schätzung abgeben, ob sie denn normal verteilt sein könnten.
Oder man kommt in den ja hier diskutierten Bereich, dass Ausreißertests nicht mehr relativ zuverlässig Sporen mit einer anderen Kernzahl und damit auch einem anderen Volumen rausschmeißen...
Du hast auf dem Tab mit dem Normalverteilungstest auch den P-P Plot. Da sollten die Messwerte schön verteilt und in der Nähe der Diagonalen Linie liegen. Das ist eine wichtigere Grafik als die erste mit der Verteilungskurve, um die Daten zu beurteilen.
b) Hätte ich aus Messung 1b) ein paar störende Werte entfernt ("Ausreisser") dann hätte ich vielleicht auch mit 10 oder 20 Messungen eine schöne Normalverteilung?
Bei nur 10 Werten bezweifel ich das. Und Ausreißer kannst du nicht einfach so beurteilen. Das solltest du schon einen Ausreißertest machen lassen. Danach liegt die Kurve natürlich näher an der theoretischen Normalverteilungskurve, aber ob man das schon sehen kann? Wenn man ein wenig mit den Intervallen, in die die Sporen hineinfallen, spielt, kann man auch schönere Grafiken machen. Das habe ich in Smaff aber nicht vorgesehen, weil es nicht wirklich wichtig ist.
c) Da sich alle vier Messreihen in ihrer Gesamtvariabilität eigentlich kaum unterscheiden, hätte ich mir die ganze statistische Aufarbeitung eh sparen können?
Ja und nein. Für dich selber, um dir ein Bild machen zu können, ja.
Wenn du einen wissenschaftlichen Beitrag mit Mehrwert schreiben möchtest, solltest du den Mittelwert und die Signifikanz angeben (Konfidenz und Anzahl auch). Damit kann dann jeder seine Stichproben mit deinen Werten mathematisch vergleichen.
Da das doof aussieht ((6,75µm, s=0,4518, 95%, n=10) (aus deinem ersten Beispiel, s und n sind geraten)) und wir ja auch mal schnell im Buch vergleichen können wollen, geben wir ja noch zusätzlich die Konfidenzgrenzen, also das Intervall an, in dem zukünftige Sporen dieses Pilzes mit eben z.B. 95% wieder liegen würden.
Sieht bei 1a/2b und bei 1a/b immer noch nicht gut aus. Also auch wenn ich von Fruchtkörper 1 20 Sporen vermessen habe, habe ich immer noch keine Normalverteilung.
Nach Bild oder nach Shapiro-Wilk-test?
Wenn ich aber alle 40 Messungen zusammen nehme, dann würde ich schon von Normalverteilung sprechen:
Ich glaube, du hälst dich zu sehr am Bild fest...
Glaub du mir einfach, dass der Shapiro-Wilk Test auch mit wenig Werten sehr zutreffende Aussagen darüber machen kann, ob eine Normalverteilung vorliegen könnte. Da ist jede Grafik dann noch weit davon entfernt, uns das mit dem Auge beurteilen zu lassen.
Was smaff ja noch nicht kann, ist, die Mittelwerte von Stichproben miteinander zu vergleichen. Dadurch würde man sofort viel eher verstehen, wieso der Mittelwert mit seinem Schätzfehler so wichtig ist.
LG, Jens