Wie kann ich am besten auf Unterschiede nach einem Interventionsprogramm testen bzw. auswerten?

1 Antwort

Hallo dtm90,

das müsste eigentlich im Rahmen von Statistik-Vorlesungen behandelt worden sein? Hast du da evtl. noch Unterlagen, auf die du zurückgreifen kannst?

Dein Experiment klingt nach einem klassischen Fall. Das Problem ist, dass du nicht angegeben hast, wie deine Messwerte skalieren. Du musst also erst mal prüfen, welche Merkmale du vergleichen willst und wie sie skalieren.

Je nachdem kannst du anschließend deinen Test auswählen. Ich finde die Übersicht der Uni Zürich sehr gut gelungen: http://www.methodenberatung.uzh.ch/index.html

Dein Experiment müsste her links im Baum zu finden sein (Dependenz-Analyse -> Unterschiede -> zentrale Tendenz -> unabhängige Stichproben). Je nach Skalierung wahrscheinlich "t-test für unabhängige Stichproben" oder "Mann-Whitney". Auf den Unterseiten wird jeder Test mit Beispielen in SPSS durchgeführt.

Ansonsten würde ich noch empfehlen, in der Bibliothek nach Literatur zu suchen. Für die meisten Forschungsbereiche gibt es einführende Statistik-Bücher, die die relevanten Methoden für einen Bereich vorstellen.
Im Rahmen deiner Literaturrecherche (die zu jeder wissenschaftlichen Arbeit dazugehört) bist du evlt. auch schon auf Paper gestoßen, die Statistik anwenden. Vielleicht kannst du dort verwendete Vorgehensweisen als Vorlage nehmen.
Empfehlen kann ich Siegried Schumann (2012): Repräsentative Umfrage. Praxisorientierte Einführung in empirische Methoden und statistische Analyseverfahren. Oldenbourg Verlag, München. 6., aktualisierte Auflage. Der geht zwar mehr auf Umfragen ein, aber die statistischen Verfahren sind die gleichen. Er stellt das meiner Meinung nach gut dar und im Rahmen einer Bachelor-Arbeit ist es auf jeden Fall zitierfähig.

Hilft dir das weiter? :)

Viele Grüße
Sven

Hallo Sven,

ja ich habe mich natürlich schon mit den Verfahren beschäftigt, allerdings bin ich ziemlich unschlüssig darüber, welches Verfahren das "richtige" ist. Ich habe die Gruppen jeweils mit dem T-Test für abhängige Stichproben getestet und konnte in der Versuchsgruppe signifikante (p>0,05) Unterschiede feststellen. Dann habe ich die beiden Gruppen miteinander mit Hilfe des T-Tests für unabhängige Stichproben verglichen und konnte aber keinen signifikanten Unterschied feststellen. Nun habe ich noch nach anderen Verfahren geschaut und bin dabei auf die Varianzanalyse mit Messwiederholung gestoßen, die aber viel komplizierter wirkt als die T-Tests und bei der ich Schwierigkeiten habe die Ergebnisse auszuwerten. Nun wollte ich gerne in Erfahrung bringen, ob ich welches der Verfahren mehr Sinn macht. Ich danke dir aber auf jeden Fall schon mal für deine Antwort. Ich habe ein paar Bücher hier, aber vielleicht hilft deine Empfehlung mir ja noch :-). Kurz zur Erklärung der Studie: Versuchsgruppe (15) und Kontrollgruppe (16 Leute). Die Versuchsgruppe hat ein mehrwöchiges Programm durchlaufen.

Viele Grüße

dtm

@dtm90

Der Test besteht aus 8 Testaufgaben. Die dazugehörigen Daten habe ich schon in SPSS anhand der Z-Werte eingetragen.

@dtm90

Hi dtm,

achso, das klingt schon wesentlich fundierter. Kam in deinem ersten Posting so nicht bei mir an :)

Mal "abhängig" und mal "unabhängig" t-test berechnen macht keinen Sinn und ist sogar gefährlich. Die Gefahr ist, dass man einfach das signifikantere von beiden nimmt. Da die beiden Gruppen aber unabhängig sind (between group design), greift der abhängige t-test meines Wissens hier nicht. Du mussst vor der Berechnung entscheiden, welche Tests erlaubt und sinnvoll sind.

Mein Tipp: Geh noch mal einen Schritt zurück und klopf dein Forschungsdesign fest:

  • Was willst du feststellen?Das müsste die Wirkung des Programms sein.
  • Wie misst du das, welche Merkmale gibt es?Das sind deine Merkmale. Im einfachsten Fall sind das die Ergebnisse der 8 Testaufgaben, es gibt aber wahrscheinlich noch weitere Merkmale (z. B. Alter, Schulnoten oder anderes).Oft gibt es auch Störfaktoren: Wenn du z. B. in der einen Gruppe sehr viele Jungen und in der anderen Gruppe sehr viele Mädchen hast, könnte das das Ergebnis beeinflussen.In diesem Schritt musst du schon festlegen, wie die Merkmale skalieren.
  • Welche Hypothesen hast du?Hier sehe ich im Moment Klärungsbedarf bei dir bzw. du hast noch keine Hypothesen erwähnt. Wenn das Programm eine bestimmte Wirkung haben soll, müssten die Merkmale der behandelten Gruppe von der Kontrollgruppe abweichen. Du müsstest hier klassische Nullhypothesen bilden, z. B. in der Art "Testergebnis Aufgabe 1 von behandelter Gruppe <= Testergebnis Aufgabe 1 der Kontrollgruppe". Natürlich etwas formaler ausgedrückt :)Hast du schon klar definierte Hypothesen?
  • Welche statistischen Tests eignen sich für die Hypothesen?Aus der Kombination von Skala + Nullhypothese kannst du den benötigten statistischen Test auswählen (geht gut mit dem Diagramm von der Methodenberatung der Uni Zürich).

Im Moment klingt es so, als ob du mit dem unabhängigen t-test die Aufgaben der Gruppen miteinander vergleichen könntest.

Mit der Varianzanalyse könntest du eine Gruppe mit sich selbst vergleichen (z. B. Aufgaben vor und nach der Behandlung). Ob du das brauchst, hängt von den Hypothesen ab.

Wahrscheinlich wirst du auch einen Chi-Quadrat-Test brauchen, um Abhängigkeiten zu entdecken (gibt es Störvariablen, die einen Einfluss haben?).

Aber das hängt alles von deinen Hypothesen ab :)
Hast du schon Hypothesen? Sind die schon mit deinem Betreuer bzw. deiner Betreuerin abgestimmt? Ausformulierte, mit der Literatur validierte Hypothesen sind schon die halbe Miete.

VG
Sven

@SvenMeyer288

Hallo Sven,

danke für deine ausführlichen Antworten und Ratschläge, das weiß ich wirklich sehr zu schätzen! Ja, in meinem ersten Posting habe ich es etwas allgemein gehalten :P.

Bei meiner Studie handelt es sich ja um ein Pre-Post-Experimental-Kontrollgruppen-Design. Die Hypothesen sind noch nicht mit meinem Betreuer abgestimmt und der ist die nächsten 3 Wochen im Urlaub. :-/ Das wären die beiden Möglichkeiten, die mir momentan vorschweben, wobei ich mich auch frage, ob ich evtl. beide durchführen könnte, um erstmal zu zeigen, ob sich die Gruppen innerhalb der Testzeitpunkte verändern (1) und dann daraufhin die Unterschiede zwischen den Gruppen unter Berücksichtigung des zeitlichen Verlaufs zu überprüfen. (2)

1. )

H0: Es gibt (sowohl in der Versuchs- als auch in der Kontrollgruppe) keinen signifikanten Unterschied hinsichtlich der sportmotorischen Leistungsfähigkeit zwischen den beiden Testzeitpunkten.

H1: Es gibt (sowohl in der Versuchs- als auch in der Kontrollgruppe) einen signifikanten Unterschied hinsichtlich der sportmotorischen Leistungsfähigkeit zwischen den beiden Testzeitpunkten.

Hierbei klingt dann doch der T-Test (abh.SP) für mich am sinnvollsten, da ich die Gruppen jeweils mit sich selbst vergleiche und es damit abhängige Variablen sind. Allerdings kann ich hierbei nicht darauf schließen, dass das auf mein Programm zurückzuführen ist denke ich. Deshalb dann in der zweiten Hypothese:

2.)

Unterschiedshypothese: Schüler und Schülerinnen, die ein Kraftförderungsprogramm durchlaufen haben (Versuchsgruppe), unterscheiden sich im zeitlichen Verlauf überzufällig von Schülern und Schülerinnen, die kein Kraftförderungsprogramm durchlaufen, sondern am üblichen Sportunterricht (Basketball) teilgenommen haben (Kontrollgruppe) im Bereich der sportmotorischen Leistungsfähigkeit hinsichtlich: 1) 2) 3) ... 8) (Hier sind dann die motorischen Bereiche der Testaufgaben angegeben.)

oder würde auch folgende Hypothese reichen?

Ein Kraftförderungsprogramm verbessert die sportmotorische Leistungsfähigkeit der untersuchten Schüler und Schülerinnen hinsichtlich 1) 2) 3) ... 8).

Bei 2) fände ich es sinnvoll eine zweifaktorielle Varianzanalyse mit Messwiederholung auf einem Faktor durchzuführen, um den Interaktionseffekt  zwsichen Gruppe und Zeit berücksichtigen zu können.

Die beiden Gruppen sind übrigens relativ ähnlich vom Alter und der Geschlechteraufteilung her. Meinst du ich muss noch andere Merkmale berücksichtigen? Weise ich dann einfach im text darauf hin oder kann ich das auch in mein Verfahren einbinden?

Die Testergebnisse sind intervallskaliert und entsprechenden Z-Werten zugeordnet.

Mit dem Chi-Quadrat Test werde ich mich jetzt ein bisschen beschäftigen und schauen, ob der in mein Vorhaben passt. Danke schon mal.

Schöne Grüße

dtm

@dtm90

Hi dtm,

zu 1)

Die Logik klingt gut, formal würde ich daraus zwei Hypothesen machen. Dann wird es eindeutiger, lässt sich im Text besser referenzieren und auch einfacher rechnen. Eigentlich sind es ja auch zwei Hypothesen: 1. keine Veränderung in der Versuchsgruppe; 2. keine Veränderung in der Kontrollgruppe.

Abhängiger t-test müsste dafür geeignet sein, soweit ich das sehe.

zu 2)

Daraus würde ich auch 8 Hypothesen bilden, für jedes Merkmal eine eigene. Formulier deine Hypothesen am besten schon mit Variablen (h0: my_x = my_y oder so ähnlich), dann wird es klarer. Außerdem kann es gut sein, dass du bei einigen Merkmalen einen Unterschied feststellst, bei anderen aber nicht. Dann ist es mit mehreren, kleinen Hypothesen auch handlicher.

Die zweite, von dir vorgeschlagene Alternative ist meiner Meinung nach zu allgemein formuliert. Das ist ja eher deine Forschungsfrage als eine einzelne Hypothese, die die Forschungsfrage klären soll.

Ich bin mir nicht sicher, welcher Test da am besten geeignet ist. Wenn es nur um den Vergleich beider Gruppen geht, müsste ein unabhängiger t-test reichen. Wenn noch weitere Faktoren abgeklärt werden sollen, reicht das evtl. nicht. Da kann ich leider nicht viel sagen, da das zu sehr vom Thema abhängt und ich aus der Wirtschaftsinformatik komme.

Zu der Gruppenzusammensetzung:

"Relativ gleichmäßig zusammen gesetzt": Woran machst du das fest? An deiner subjektiven Einschätzung, weil es einigermaßen gleich große Zahlen sind? Genau diese subjektive Einschätzung soll ja durch Statistik vermieden werden.

Unter anderem mit dem Chi-Quadrat-Test kann man diese subjektive Einschätzung prüfen und z. B. testen, ob ein signifikanter Zusammenhang zwischen Geschlecht und Erfolg bei den Aufgaben besteht.

Welche Tests da nötig oder üblich sind, hängt aber vom Fachbereich und vom Thema ab. Da kann einem nur die Literatur oder ein Kollege vom Fach weiterhelfen. Deshalb kann ich da leider nicht weiterhelfen :/
Die Problematik dahinter geht auf das Simpson-Paradoxon zurück, falls du mehr dazu recherchieren möchtest. Das Wikipedia-Beispiel zur Universität Berkely ist ein geniales Beispiel dafür und zeigt gleichzeitig, wie der Chi-Quadrat-Test weiterhelfen kann: https://de.wikipedia.org/wiki/Simpson-Paradoxon#Diskriminierungsklage_gegen_die_Universit.C3.A4t_Berkeley

Im eigentlichten Text bringt man das häufig in der Stichprobenbeschreibung unter (wie setzt sich die Stichprobe zusammen, gibt es dort Auffälligkeiten?) oder in den Bedrohungen der Validität (entweder als eigenen Abschnitt oder als Teil der Diskussion der Ergebnisse).

Wenn dein Betreuer wieder da ist, solltest du auf jeden Fall die Hypothesen und mögliche Störfaktoren abklären. Aber wie das so ist: Am besten bildest du dir bis dahin eine eigene, begründete Meinung, warum du was testen würdest ;)

Viele Grüße
Sven

@SvenMeyer288

Hallo Sven,

ja bei 2) lieber 8 Hyothesen zu machen, klingt sinnvoll. Insgesamt gibt es bei den 8 Testaufgaben 2 Mal Unterschiede, was aber völlig in Ordnung ist, weil das die Dimensionen sind, die auch im Sportprogramm fokussiert wurden. Die Alternative werde ich dann verwerfen bzw. höchstens in die Forschungsfrage implementieren.

Der unabhängige T-Test zeigt zwar den Unterschied nach dem Treatment auf aber man kann ja davon ausgehen, dass sich die Gruppen auch ein wenig durch die Messwiederholung verbessern und deshalb dachte ich das bei der Varianzanalyse dieser Faktor eher berücksichtigt werden kann. Ich versuche aber da Genaueres von jemandem aus meinem Fachbereich zu erfahren.

Relativ gleiche Gruppen mache ich dadurch aus, dass ich die Mittelwerte der Testaufgaben (Z-Werte) der beiden Gruppen vor dem Treatment durch den unabhängigen T-Test verglichen habe. Außerdem ist die Geschlechteraufteilung nahezu gleich. Versuchsgruppe (12 m/ 3w), Kontrollgruppe (14m/ 2w). Es handelt sich bei beiden Klassen um Berufsschulklassen mit dem Schwerpunkt Metall/Bau. Ich kann zwar den Chi-Quadrat Test durchführen, aber ich denke durch die geringe Anzahl von Mädchen ist kaum Aussagekraft gegeben. Außerdem sind für die Testaufgaben aufgeteilt nach Geschlecht normierte Z-Werte  durch den Erfinder des Tests festgelegt. Also werden hierbei die Unterschiede ja schon berücksichtigt, wenn ich das richtig verstehe.

Klingt das folgende Vorhaben für dich denn insgesamt legitim?

1. Unabhängiger T-Test, um festzustellen, ob signifikante Unterschiede der Testwerte zwischen den beiden Gruppen zum Testzeitpunkt 1 vorliegen.

2. Abhängiger T-Test, um festzustellen, ob signifikante Unterschiede der Testwerte innerhalb der beiden Gruppen zwischen den beiden Testzeitpunkten vorliegen.

3. Zweifaktorielle Varianzanalyse mit Messwiederholung, um festzustellen, ob signifikante Unterschiede zwischen den beiden Gruppen in Anbetracht der Messwiederholung vorliegen.

Das würde ich dann nämlich erstmal so durchführen und dann meinem Betreuer vorstellen. Dann kann er sich ja nochmal dazu äußern aber ich würde schon gerne in den nächsten zwei Wochen etwas zu Papier bringen, sonst sitze ich hier auf heißen Kohlen. :P

Vielen Dank und viele Grüße

dtm

@dtm90

Hallo dtm,

jap, klingt sinnvoll :)

Viel Erfolg für deine Bachelor Arbeit!

Viele Grüße
Sven

@SvenMeyer288

Hallo Sven,

vielen Dank für deine Hilfe.

Weiterhin alles Gute und schöne Grüße!

dtm

Was möchtest Du wissen?