Posts by craterelle

    Hallo Andreas,


    klar, kann ich machen.


    Off Topic: Da ich ja mit dem Forum hier noch wenig vertraut ist und du als Administrator mir da vielleicht auf die Sprunge helfen kannst: Inzwischen habe ich zumindest den erweiterten Editor gefunden. Einzig die Möglichkeit, Entwürfe zwischenzuspeichern, vermisse ich noch. Existiert die?


    Grüße,
    Craterelle

    Hallo,


    Ich habe mir dazu einige Gedanken gemacht und im pilzforum.eu aufgeschrieben:
    https://www.pilzforum.eu/board…mmen?pid=398293#pid398293



    Beste Grüße,
    Craterelle



    P.S.: Schwer zu entscheiden, in welchen der vielen Beiträge +/- zur selben Thematik das nun am besten passt.
    ______________________________________________________


    Um die Fragestellung nach dem angemessenen Umfang einer Stichprobe sowie der Anwendbarkeit von statistischen Berechnungen für Normalverteilungen auf nicht normalverteilte Daten weiter zu beleuchten, habe ich mir als Beispiel nochmals Dieters Scheidling vorgenommen. Die Daten der Messreihe mit 120 Wertepaaren sind im hier veröffentlicht:
    https://www.pilzforum.eu/board…mmen?pid=363509#pid363509


    So sieht die Längenverteilung aus, sie ist - leicht erkennbar - nicht normalverteilt.


    Das repräsentiere also unsere Grundgesamtheit. Ob nun von einem Fruchtkörper, einer Kollektion oder einer Art ist an dieser Stelle vollkommen egal, hier will ich auf die mathematischen Gegebenheiten hinaus.


    Der Shapiro-Wilk-Test erkennt ebenfalls, dass es sich wahrscheinlich nicht um eine Normalverteilung handelt.


    Lässt man wie in Jens' Programm ("Smaff") voreingestellt den Nalimov-Test heraus, kann man mit Hilfe der drei anderen Test zwar einige "Ausreißer" entfernen, nur ergibt das immer noch keine Normalverteilung.


    Mit Nalimov-Test erhält man zwar eine, verliert aber 20% des Probenumfangs.


    Also reduziere ich den Stichprobenumfang durch zufällige Auswahl auf 40 bzw. 30 Werte. Dies habe ich zur Sicherheit zweimal mit verschiedenen Zufallsreihen durchgeführt, erhalte also 2 x 4 Stichproben à 30 Wertepaaren bzw. 2 x 3 à 40.


    Normalverteilt erschienen davon
    bei U=40: 1 von 6
    bei U=30: 2 von 8


    und nach Elimination von "Ausreißern" ohne Nalimov-Test
    bei U=40: 3 von 6
    bei U=30: 7 von 8


    Also niemals 100%.


    Testweise habe ich den Umfang noch weiter reduziert, aber auch bei 2 x 12 Stichproben à 10 war noch eine dabei, der man mit sämtlichen Tests (hier inkl. Nalimov) nicht beikommen konnte. Nur 10 Sporen für eine statistische Auswertung heranzuziehen würde allerdings wohl niemand ernsthaft empfehlen. Bleiben wir also vorerst bei U=30 als dem Wert, bei dem man zumindest mit einiger Wahrscheinlichkeit durch Eleminieren von "Ausreißern" eine vermeintliche Normalverteilung darstellen kann.


    Aus den 8 Stichproben habe ich das Programm also die Mittelwerte und den 95%-Konfidenzbereich für selbige berechnen lassen. Ein besonderer Vorteil an statistisch berechneten Werten ist ja, das man zuverlässig vorhersagen kann, mit welcher Wahrscheinlichkeit eine weitere Stichprobe aus derselben Grundgesamtheit in die errechneten Mittelwertgrenzen fällt.


    Tatsächlich liegt beim paarweisen Vergleich von Mittelwerten und Mittelwertgrenzen in 7 von 56 Fällen (12,5%) der Mittelwert der einen außerhalb der Konfidenzgrenzen der anderen Probe.


    Die Vorhersage von Wahrscheinlichkeiten könnte also trügerisch sein, wenn die Grundgesamtheit nicht normalverteilt ist. Hier wären ggf. mehr Versuche mit anderen Zufallsverteilungen nötig, um die Beobachtung zu erhärten oder zu entkräften.


    Die Mittelwerte schwanken mit einer Standardabweichung von 0,11, was vertretbar erscheint und bei so kleinen Stichproben auch nicht verwunderlich. Die Schwankungsbreite bei den Medianen ist auch nicht wesentlich geringer (0,09), aber die Beschreibung mit Median und Quantilsgrenzen hat den Vorteil, dass man ohne irgendwelche Nachteile mehr Werte messen könnte, wenn die Schwankungen zu groß sein sollten (bei U=60 im Beispiel: 0,07).



    Einen weiteren Punkt hatte Dieter schon herausgearbeitet:


    Der 95%-Konfidenzbereich für die Verteilung der Werte ist bei rechtsschiefen Verteilungen systematisch nach links (zu den kleineren Werten hin) zu groß, d.h. er erstreckt sich über Bereiche, in denen in der Grundgesamtheit keine Werte vorkommen. Ich führe das jetzt nicht noch ein weiteres Mal aus, für Interessierte:
    https://www.pilzforum.eu/board…mmen?pid=363471#pid363471


    Quantilsgrenzen bilden in diesem Fall die Realität offenbar zutreffender ab.


    Grafisch dargestellt: links in Grün die errechneten 95%-Populationsgrenzen und Mittelwerte für die 8 Stichproben, rechts in Rot die 95%-Quantilsgrenzen und Mediane. Gelb hinterlegt die Bandbreite der Grundgesamtheit (100%).


    Meine Schlussfolgerungen:


    30-40 Messungen sind zu wenig, um zu beurteilen, ob in der Grundgesamtheit eine Normalverteilung vorliegt.
    Liegt keine Normalverteilung vor, liefern statistische Methoden, die auf der Normalverteilungsannahme beruhen, irreführende Ergebnisse.
    Die Messwerte sind in diesem Fall mit Median und Quantilsgrenzen aussagekräftiger beschrieben.


    Man könnte sogar argumentieren, dass diese Art der Beschreibung allgemein vorzuziehen wäre, da sie für nicht normalverteilte Stichproben besser geeignet ist und für normalverteilte ähnlich gut wie errechnete Werte. Mediane und Mittelwerte fallen bei symmetrischen Verteilungen zusammen. Ebenso werden Quantile und berechnete korrespondiere Wahrscheinlichkeitsbereiche zusammenfallen, wenn die Daten normalverteilt sind.

    Noch eine Überlegung: sollte man auch Bilder-Upload als Möglichkeit der Ortsbestimmung anbieten? Kameras und v.a. Smartphones mit GPS-Empfänger sind ja inzwischen schon recht verbreitet, und wenn man sowas hat, wäre es als Alternative zur Auswahl in der Karte recht bequem, einfach daraus die Koordinaten ablesen zu lassen.

    Ich habe noch einen Vorschlag:


    Wenn zu jedem Datensatz noch Werte für die Genauigkeit gespeichert würde, könnte man einerseits die Altbestände sinnvoll und automatisch mit Koordinaten versehen, ohne eine nicht vorhandene Genauigkeit vorzutäuschen. Die Koordinaten wären dann der Mittelpunkt und die Genauigkeit die Hälfte der Ausdehnung des Blatts/Quadrants/Unterquadrants.


    Auch für Neueintragungen mit Auswahlmöglichkeit der geografischen Position in einer Karte finde ich es sinnvoll. Man könnte alternativ zur Punktmarkierung einen Rechteckrahmen ziehen und dann Mittelpunkt und Genauigkeit automatisch ermitteln. Für Punktmarkierungen wäre die vorgegebene maximale Genauigkeit aus der Auflösung auf der jeweiligen Zoomstufe abschätzbar, könnte aber natürlich noch geändert werden.

    Hm, ich hatte mich erstmal am bestehenden Online-Formular orientiert, das ist ja bedeutend schlanker.


    Wenn man das alles im neuen Online-Formular unterbringen will, muss man schon aufpassen, es nicht zu überfrachten und Werte wo immer sinnvoll möglichst zwischenzuspeichern (Cookies oder serverseitig benutzerspezifisch) und wiederzubenutzen.


    Hierzu würde für mich auch Kartenposition und Zoomfaktor gehören, damit nicht bei jedem Besuch neu von der Deutschlandkarte hereingezoomt werden muss.


    Im weiteren konzentriere ich mich auf Felder mit geografischem Bezug.


    Aus einer Karte bzw. der darin vom Benutzer per Klick festgelegten Position lassen sich nach meiner Einschätzung folgende Daten ermitteln:


    Koordinaten


    Gauss-Krüger-Werte: sicher nicht unmöglich, aber m.E. nicht sinnvoll. Die Koordinaten erlauben diese Transformation auch nachträglich.


    Blattnr. TK25, Quadrant: eigentlich s. Gauss-Krüger, aber ich habe den Eindruck gewonnen, das viele an diesem System zu hängen scheinen.


    Höhe: SRTM-Daten sind frei verfügbar und es gibt auch verschiedene Webservices dazu, allerdings ist die Genauigkeit nicht allzu hoch, vielleicht im 10m-Bereich. Außerdem kann es aufgrund besonderer geografischer Gegebenheiten Lücken in den Daten geben, wo dann keine Höhe ermittelbar ist. Dies sollte in Deutschland aber recht selten sein, es ist vor allem in extrem steilem Gelände ein Problem.


    Ortsangaben: Wird als "Reverse Geocoding" bezeichnet und u.a. von OSM angeboten. Land und Bundesland sollten sich im Regelfall extrahieren lassen, in Grenznähe kann es aber vereinzelt zu unglücklichen Zuordnungen kommen. Als nächstgelegene Ort kann ein Weiler, ein Dorf, eine Stadt, ein Stadtteil, ... ausgegeben werden.


    Ich habe zum Testen mal diese Daten in einer Karte zusammengefasst, externe Quellen bisher noch als Link:


    http://g0ldfish.bplaced.net/opentopo/
    (hineinzoomen und in die Karte klicken)

    Hallo in die Runde,


    hier bin ich ganz neu, in einem der Pilz-Foren aber schon etwas länger und in OpenStreetMap schon einige Jahre aktiv.


    Zu MykIS kann ich weiter nichts beitragen, zur Intergration dynamischer Karten in Websites schon eher.


    Viele der grundsätzlichen Überlegungen dürften aber ohnehin unabhängig davon sein, in welches Tool die Karten integriert werden sollen.


    Kartendienste hat Andreas schon einige genannt, da sollte sich etwas finden lassen.


    Vielleicht können wir erstmal klären, woraus ein Datensatz eigentlich besteht?


    Nach meinen Verständnis sind das
    - Funddatum: erforderlich (tagesgenau?)
    - Gattungs- und Artname: erforderlich; muss in der aktuellen taxonom. Referenzliste aufgeführt sein
    - Messtischblatt-Nr.: erforderlich
    - Quadrant: anscheinend als Zahl 1-4, NW (oben links) = 1, und dann in Z-Formation (so ist es bei orchids.de)? - erforderlich?
    - Unterquadrant: s. Quadrant, aber optional?
    - Ort: erforderlich?
    - Bundes-/Nachbarland: erforderlich?
    - Koordinaten: optional?
    - Höhe: optional?
    - einige weitere optionale Angaben, die sich nicht aus der Position ableiten lassen


    Könnt ihr das bestätigen oder korrigieren?


    Beste Grüße,
    Craterelle