Erzielen Schüler*innen mit Bedarf an sonderpädagogischer Unterstützung in inklusiven oder in separierten Settings bessere (akademische) Lernerfolge? Die Fülle an Forschungsarbeiten dazu ist groß und eine breite Zahl an Metaaalysen zeigt deutlich (Hattie, 2023; Krämer et al., 2021): Die Lernerfolge im inklusiven Setting sind durch weg höher, auch bei Kontrolle der individuellen Lernausgangslage. So finden sich beispielsweise bei Hattie (2023, S. 183) insgesamt 11 Metaanalysen zum Thema „Mainstreaming“ (in etwa: „Gemeinsamer Unterricht“) mit 445 Einzelstudien. Die gewichtete mittlere Effektstärke liegt bei ES = 0,52 (Standardfehler: 0,07), was für Effekte auf schulorganisatorischer Ebene schon relativ stark ist. Trotzdem lohnt es sich immer wieder, auch einzelne Studien näher zu betrachten.
Wem dieser Blogpost bekannt vorkommt: Es handelt sich um eine leicht angepasste Fassung eines Threads, den ich Anfang 2023 auf Twitter gepostet habe:
#Inklusion & #Sopaed: Aktuelles Paper zum Vergleich der Outcomes von eher inklusiven vs. eher separierten Settings (Cole et al., 2022 [1]). Kurzer Spoiler vorneweg: Es sieht nicht gut für die separierenden Settings aus. #twlz #fedilzhttps://t.co/Pz3koenT8A 1/52
— David Scheer (@Scheer_SpecEd) March 7, 2023
Es geht um dieses Paper von Cole et al. (2023), veröffentlicht im The Journal of Special Education: https://doi.org/10.1177/00224669221097945
Und als kurzer Spoiler vorneweg: Auch hier sieht es nicht gut für die separierenden Settings aus. Aber der Reihe nach.
Die Ergebnisse bestätigen zwar im Wesentlichen die bekannte Studienlage - Die Arbeit ist aber aus vier Gründen trotzdem interessant:
- Es ist eine Längsschnittstudie, in der mit einem Matching-Verfahren (siehe unten) dafür gesorgt wird, dass die Ausgangslage zwischen den verglichenen Gruppen vergleichbar ist - es werden also einige methodische Probleme „älterer“ Studien elegant gelöst.
- Nicht Inklusion wird als die Intervention betrachtet, die „sich beweisen“ muss, sondern die Herausnahme aus dem allgemeinen Klassenraum stellt die „Interventionsgruppe“ dar.
- Es wird eine Art von „Vollerhebung“ innerhalb des Bundesstaats durchgeführt, indem die Daten der staatsweiten Schülerassessments ausgewertet werden (entsprechend groß ist das Ausgangssample von 37.507 Schüler*innen mit sonderpädagogischem Unterstützungsbedarf [SUB]) - also eine enorm große Stichprobe.
- Es ist die Fortsetzung für Klasse 8 bis 10 einer Analyse aus dem Jahr 2020, in der die Daten aus dem Verlauf von 3. bis 8. Klasse analysiert wurden und damit die Probe, ob sich Ergebnisse aus der Grundschulzeit auch auf die High School übertragen lassen.
Was wird untersucht?
Die Untersuchung vergleicht Schüler*innen mit sonderpädagogischen Unterstützungsbedarf in „inklusiveren“ Settings mit solchen in „weniger inklusiven“ Settings. Der Vergleich bezieht sich auf die Ergebnisse in standardisierten, staatsweit verpflichtenden Leistungstests in den Fächern Englisch und Mathematik sowie auf das Erreichen eines High School Abschlusses.
Da im amerikanischen Bundesstaat Indiana das Prinzip des Least Restrictive Environment (LRE) gilt (Disability Rights California [DRC], o.J.; McLeskey et al., 2012), kann nicht, wie bei uns, strikt in Förderschule vs. allgemeine Schule gesplittet werden. Daher wird zwischen General Education (Schüler*in verbringt mehr als 80% der Zeit in allgemeiner Klasse) und separierten Settings (<80% der Zeit) unterschieden. Was das für die Übertragbarkeit auf Deutschland bedeutet: Dazu später mehr.
Exkurs: Was heißt Least Restrictive Environment
Unter „Least Restrictive Environment (LRE)“, einem Prinzip, das insbesondere im US-amerikanischen Raum gilt, versteht man, dass Schülerinnen mit Behinderung so weit irgend möglich mit Schülerinnen ohne Behinderung gemeinsam am Unterricht teilnehmen (DRC, o.J.). Im Gegensatz zu einem strikten Förderschulsystem, wie es z.B. in Deutschland verbreitet ist, kennt LRE unterschiedliche Abstufungen der sonderpädagogischen Unterstützung. Diese finden überwiegend an der allgemeinen Schule statt und nur sehr selten an speziellen Förderschulen. Zudem ist der Wechsel von eine in die andere Form sehr flexibel auf Basis der individuellen Entwicklung der Schüler*innen. Es werden folgende Abstufungen unterschieden (McLeskey et al., 2012):
- General Education (GE): Schüler*innen mit Behinderung verbringen mehr als 80% des Schultags im allgemeinen Klassenverband.
- Pullout (PO): Schüler*innen mit Behinderung werden für sonderpädagogische Unterstützung/sonderpädagogischen Unterricht stundenweise aus der Klasse herausgenommen. Sie verbringen noch zwischen 40% und 79% des Schultags im allgemeinen Klassenverband.
- Separate Class (SC): Schüler*innen mit Behinderung werden in speziellen Klassen unterrichtet. Sie verbringen weniger als 40% des Schultags im allgemeinen Klassenverband.
- Separate School (SS): Schüler*innen mit Behinderung besuchen spezielle Schulen oder Wohneinrichtungen, werden zuhause unterrichtet oder im Krankenhausunterricht.
Weil es hier aber nicht um LRE, sondern um die vorgestellte Studie zum gemeinsamen Unterricht geht, sei auf die kritische Diskussion zum LRE-Paradigma hier nur am Rande verwiesen (Carson, 2015; Sauer & Jorgensen, 2016).
Was macht die Studie methodisch so bemerkenswert?
Ein Problem von Studien, die inklusivere mit separierenden Settings vergleichen, ist, dass wir nicht von einer vergleichbaren Ausgangslage bei den Schülermerkmalen ausgehen können. Dieses Problem löst diese Studie hier durch „Propensity Score Matching“. Was ist das? Kurz: Auf Basis bestimmter miterhobener Merkmale (z.B. Geschlecht, Migrationshintergrund, frühere Schulleistungen o.ä.) wird für jede Person im Datensatz ein Wert zwischen 0 und 1 berechnet, der angibt, wie wahrscheinlich es ist, diese Person in der „Interventionsgruppe“ zu finden. Mithilfe statistischer Methoden (in diesem Fall: „Nächster Nachbar“) werden nun Pärchen aus je einem Jugendlichen der Kontrollgruppe (Inklusion) und einem Jugendlichen der Interventionsgruppe (Separation) gebildet. Damit wird sichergestellt, dass hinsichtlich der bekannten Schülermerkmale beide Gruppen vergleichbar sind.
Besonderheit 1: Das „Propensity Score Matching“
Eine Besonderheit der vorliegenden Studie ist: Es werden Merkmale auf zwei Ebenen für das Matching genutzt. Nämlich auf Schülerebene und auf Schulebene. Auf Schülerebene:
- Art der Behinderung bzw. des SUB,
- Englisch- bzw Matheleistung in Klasse 8,
- Anwesenheitstage in Klasse 8,
- Geschlecht,
- Ethnische Zugehörigkeit (nach US-amerikanischem Muster),
- Eventuelle frühere Schulausschlüsse,
- Englisch Language Learner Status (entspricht etwa DaZ/DaF in Deutschland) und
- ob dieder Schülerin zu preisreduzierter/freier Verpflegung in der Schule berechtigt ist (das ist ein gängiger Indikator für niedriges Familieneinkommen).
Auf Schulebene:
- Anteil an Schüler*innen mit Anspruch auf kostenreduzierte/freie Verpflegung und
- Verteilung ethnischer Zugehörigkeit in der Schule.
Besonderheit 2: Prüfung der Robustheit der Ergebnisse mittels Rosenbaumschranken
Weil die Ergebnisse des Matching durch nicht erhobene Merkmale und andere Einflüsse verzerrt werden könnten, berechnen die Autoren sogenannte „Rosenbaumschranken“ (der Entwickler der Methode ist Paul R. Rosenbaum) als Maß für die Qualität des Matchings (wer sich reinfuchsen möchte: Rosenbaum, 2005).
Diese Schranke (ausgedrückt durch den griechischen Buchstaben Gamma) sagt uns, wie stark der Einfluss einer unbeobachteten Variable sein müsste, um die Ergebnisse zu verfälschen. In diesem Beispiel hier haben wir Rosenbaumschranken zwischen 2 und 3 vorliegen, was heißt, dass jede nicht berücksichtigte Variable die Wahrscheinlichkeit, in ein separierendes Setting zu kommen schon 2x bis 3x erhöhen müsste- was sehr unwahrscheinlich ist. Daher kann davon ausgegangen werden, dass die Ergebnisse dieser Studie sehr robust gegen Verzerrungen durch unbeobachtete Variablen sind.
Besonderheit 3: Die Stichprobengröße
Dadurch, dass für die Studie auf die Ergebnisse aus staatsweiten standardisierten Tests und auf Schülerakten zurückgegriffen werden konnte, bestand die Ausgangsstichprobe aus knapp 24.000 Schülerinnen mit Bedarf an sonderpädagogischer Unterstützung, wovon ca. 1.800 dem separierten Setting zugeordnet werden konnten. So konnten selbst nach dem Matching noch die Daten von 4.257 (Mathematik) und 4.417 (Englisch) Schülerinnen berücksichtigt werden. Für die Analyse der Schulabschlüsse sogar von ca. 7.600 Schüler*innen.
Und was kommt nun raus?
Besonders relevant sind die Ergebnisse dazu, wie stark sich Kontroll- und Interventionsgruppe in Klasse 10 unterscheiden, wenn die Leistungen aus Klasse 8 als Matching-Variable genutzt werden. Die Autor*innen berichten einen mittleren Unterschied von 24,3 Punkten in Englisch und 18,4 Punkten in Mathe zugunsten des inklusiven Settings. Dieser Unterschied sagt uns zunächst nichts, denn wir kennen weder die Skalierung, noch die absoluten Werte.
Aber die Autor*innen geben uns eine Teststatistik mit (Student t mit Angabe der Freiheitsgrade), aus der sich Cohens d als Effektstärke berechnen lässt (ja, das ist das Maß, das auch John Hattie benutzt). Gute Hinweise zu häufigen Fehlinterpretationen dieser Effektstärke hat übrigens @wisniewski1005 in seinem #pfk_podcast zusammengefasst (Wisniewski, 2022).
Also, welche Effektstärke können wir abschätzen? Und warum nur abschätzen? Wie gesagt, haben wir die Originaldaten nicht zur Berechnung vorliegen. Das heißt, wir müssen die tatsächliche Effektstärke grob schätzen. Deshalb wird es jetzt etwas mathematisch: Die Freiheitsgrade in einem t-Test für zwei unabhängige Stcihproben ergeben sich aus df = n1 + n2 - 2. Für den Bereich Englisch haben wir df = 3.569, also ist (n1 + n2) = 3.571. Wir gehen einfach einmal davon aus, dass durch das Matching beide Gruppen gleich groß sind (bzw. weisen die übrig bleibende Person einmal der einen und einmal der anderen Gruppe zu), also jeweils Gruppengrößen von 1.784 bzw. 1.785 Schüler*innen. Mit dem Effektstärkenrechner von Psychometrica (Lenhard & Lenhard, 2016) können wir nun anhand des t-Werts (t = −17,93) eine Effektstärke von d = -0,6 berechnen. Mit negativem Vorzeichen heißt das, dass die Gruppe in separierenden Settings um 0,6 Standardabweichungen schlechter abschneidet als die Gruppe in inklusiven Settings - also ein sehr deutlicher negativer Effekt der Separation trotz gematchter Ausgangslage. Wenn wir dasselbe Spielchen für Mathe wiederholen, kommen wir auf d = -0,445, was ebenfalls sehr bedeutsam ist. Auch für das Erreichen von High School Abschlüssen findet die Studie nach dem Matching negative Auswirkungen des stärker separierenden Settings. Aber wie gesagt: Die exakte Effektstärke muss hier stark mit Vorsicht genossen werden!!!
Was folgern die Autor*innen aus den Ergebnissen?
Oben wurde bereits auf die hohen Werte bei den Rosenbaumschranken hingewiesen. Das heißt: Es ist extremst unwahrscheinlich, dass in der Studie Einflussfaktoren übersehen wurden, die das Ergebnis grundlegend ändern würden. Damit muss davon ausgegangen werden, dass der positive Effekt des inklusiven Settings bzw. der Schaden, den das separierte Setting anrichtet, eine Tatsache ist. Es ist also nicht verwunderlich, dass die Autor*innen zu folgendem Schluss kommen:
„The results of this study provide additional supporting research for inclusive placement for students with disabilities (…). As with the first study, the results call for a critical review of placement decisions for students with disabilities. Although one could expect that it would logically follow that students in general education most of the day would have higher academic achievement, the fact that this study found it to be true when comparing academic outcomes of students matched on a host of student and school variables associated with academic outcomes makes a clear statement for it as the preferable placement.” (Cole et al., 2023, S. 19–20)
Sie gehen sogar noch weiter und sehen einen Vorrang des inklusiven Settings als Imperativ, der aus den Befunden folgt:
“If being a part of a general education classroom results in better academic outcomes, then it is imperative that policies, practices, and resources are focused on how to not exclude them in the first place.” (Cole et al., 2023, S. 20)
Können wir die Ergebnisse einfach auf Deutschland übertragen?
Natürlichen können wir diesen Befund nicht ohne weiteres direkt auf Deutschland übertragen. Während in dem untersuchten US-Bundesstaat das System nach dem LRE-Prinzip gestaffelt ist und hier Pullout-Service, Separate Class und Separate School in einem zusammengefasst waren (also alle Formen des Placements, die weniger als 80% der Zeit im allgemeinen Klassenraum stattfinden), haben wir in Deutschland eine (scheinbare) Dichotomie von Förderschule vs. allgemeiner Schule. Und innerhalb der allgemeinen Schule haben wir quasi eine Blackbox bzgl. der Organisationsform. Dennoch zeigt sich hier ein Grundprinzip, das sich zumindest als Hypothese auch für Untersuchungen in Deutschland annehmen lässt: Bei gleicher Ausgangslage reduziert die Platzierung einereines Schülerin außerhalb der allgemeinen Klasse die Chancen auf eine optimale Lernentwicklung. Und damit zeigt sich einmal mehr, dass die Überweisung auf eine Förderschule im Durchschnitt eher schädlich, auf keinen Fall jedoch hilfreich für den akademischen Lernfortschritt der Schüler*innen ist. Und das nicht nur in der Grundschulzeit, sondern auch in der Sekundarstufe.
Und zu guter Letzt ist es ja nicht so, dass wir in Deutschland ohne Forschungsbefunde dastehen. So fließen in internationale Metaanalysen auch Studien aus Deutschland ein, die (teils auch mit Propensity Score Matching) zu ähnlichen Ergebnissen kommen (z.B. Gorges et al., 2018; Kocaj et al., 2017; Kocaj et al., 2018; Kocaj et al., 2014; Stranghöner et al., 2017).
Es deutet also alles darauf hin, dass die Förderschule in Bezug auf akademisches Lernen dem inklusiven Setting deutlich unterlegen ist.
Referenzen
- Carson, C. (2015). Rethinking Special Education’s “Least Restrictive Environment” Requirement. Michigan Law Review, 113(8), 1397–1426. https://www.jstor.org/stable/24770829
- Cole, S. M., Murphy, H. R., Frisby, M. B. & Robinson, J. (2023). The Relationship Between Special Education Placement and High School Outcomes. The Journal of Special Education, 57(1), 13–23. https://doi.org/10.1177/00224669221097945
- Disability Rights California. (o.J.). What does least restrictive environment (LRE) mean? https://serr.disabilityrightsca.org/serr-manual/chapter-1-information-on-basic-rights/1-52-what-does-least-restrictive-environment-lre-mean/
- Gorges, J., Neumann, P., Wild, E., Stranghöner, D. & Lütje-Klose, B. (2018). Reciprocal effects between self-concept of ability and performance: A longitudinal study of children with learning disabilities in inclusive versus exclusive elementary education. Learning and Individual Differences, 61, 11–20. https://doi.org/10.1016/j.lindif.2017.11.005
- Hattie, J. (2023). Visible learning, the sequel: A synthesis of over 2,100 meta-analyses relating to achievement (First edition). Routledge.
- Kocaj, A., Kuhl, P., Haag, N., Kohrt, P. & Stanat, P. (2017). Schulische Kompetenzen und schulische Motivation von Kindern mit sonderpädagogischem Förderbedarf an Förderschulen und an allgemeinen Schulen. In P. Stanat, S. Schipolowski, C. Rjosk, S. Weirich & N. Haag (Hrsg.), IQB-Bildungstrend 2016. Kompetenzen in den Fächern Deutsch und Mathematik am Ende der 4. Jahrgangsstufe im zweiten Ländervergleich (S. 302–315). Waxmann.
- Kocaj, A., Kuhl, P., Jansen, M., Pant, H. A. & Stanat, P. (2018). Educational placement and achievement motivation of students with special educational needs. Contemporary Educational Psychology, 55, 63–83. https://doi.org/10.1016/j.cedpsych.2018.09.004
- Kocaj, A., Kuhl, P., Kroth, A. J., Pant, H. A. & Stanat, P. (2014). Wo lernen Kinder mit sonderpädagogischem Förderbedarf besser? Ein Vergleich schulischer Kompetenzen zwischen Regel- und Förderschulen in der Primarstufe. KZfSS Kölner Zeitschrift für Soziologie und Sozialpsychologie, 66(2), 165–191. https://doi.org/10.1007/s11577-014-0253-x
- Krämer, S., Möller, J. & Zimmermann, F. (2021). Inclusive Education of Students With General Learning Difficulties: A Meta-Analysis. Review of Educational Research, 91(3), 432–478. https://doi.org/10.3102/0034654321998072
- Lenhard, A. & Lenhard, W. (2016). Berechnung von Effektstärken. https://www.psychometrica.de/effektstaerke.html
- McLeskey, J., Landers, E., Williamson, P. & Hoppey, D. (2012). Are We Moving Toward Educating Students With Disabilities in Less Restrictive Settings? The Journal of Special Education, 46(3), 131–140. https://doi.org/10.1177/0022466910376670
- Rosenbaum, P. R. (2005). Sensitivity Analysis in Observational Studies. In B. S. Everitt & D. C. Howell (Hrsg.), Encyclopedia of Statistics in Behavioral Science. John Wiley & Sons, Ltd. https://doi.org/10.1002/0470013192.bsa606
- Sauer, J. S. & Jorgensen, C. M. (2016). Still Caught in the Continuum: A Critical Analysis of Least Restrictive Environment and Its Effect on Placement of Students With Intellectual Disability. Inclusion, 4(2), 56–74. https://doi.org/10.1352/2326-6988-4.2.56
- Stranghöner, D., Hollmann, J., Otterpohl, N., Wild, E., Lütje-Klose, B. & Schwinger, M. (2017). Inklusion versus Exklusion: Schulsetting und Lese-Rechtschreibentwicklung von Kindern mit Förderschwerpunkt Lernen. Zeitschrift für Pädagogische Psychologie, 31(2), 125–136. https://doi.org/10.1024/1010-0652/a000202
- Wisniewski, B. (2022). Hattie (2009) | Einflüsse auf Schülerinnen- und Schülerleistungen: Psychologie fürs Klassenzimmer (Podcast). https://anchor.fm/dr-benedikt-wisniewski/episodes/Hattie-2009–Einflsse-auf-Schlerinnen–und-Schlerleistungen-e1r31og