Die Modellierung von Strukturgleichungen Grundlegende theoretische Konzepte und Anwendungen (EQS) Manuskript zum Structural Equation Modeling und einer Anwendungs- möglichkeit (EQS) Sirko Kupper 1997 2 Inhaltsverzeichnis 0. VORBEMERKUNG............................................................................................3 1. EINLEITUNG......................................................................................................3 2. GRUNDLEGENDE KONZEPTE.........................................................................4 2.1 Modellspezifikation...................................................................................................................4 2.2 Schätzung der Parameter........................................................................................................16 2.3 Bewertung der Modellanpassung............................................................................................18 2.4 Modellmodifikation..................................................................................................................23 2.5 Interpretation...........................................................................................................................25 2.6 Kommunikation........................................................................................................................27 2.7 Zusammenfassung der theoretischen Grundlagen..................................................................29 3. EQS: PRAKTISCHE ANWENDUNG AN EINEM BEISPIEL............................32 3.1 Daten........................................................................................................................................32 3.2 Modellspezifikation (Hypothetisiertes Modell der BDI Struktur).........................................33 3.3 Bewertung der Modellanpassung............................................................................................35 3.4 Vorbereitende Analysen...........................................................................................................35 3.4.1 Prüfen der Stichprobenstatistik........................................................................................36 3.4.2 Behandlung der Nichtnormalität.....................................................................................37 3.5 Testen des hypothetisierten Modells........................................................................................37 3.5.1 Durchführen der Parameterschätzung..............................................................................38 3.5.2 Statistische Signifikanz der Parameterschätzung.............................................................39 3.6 Generalisierung und Modellmodifikation...............................................................................39 3.7 Testen der Invarianz über das Geschlecht hinweg.................................................................40 4. ZUSAMMENFASSUNG........................................................................................41 5. LITERATURVERZEICHNIS..................................................................................42 3 0. Vorbemerkung Die formale Struktur des vorliegenden Textes ist weitestgehend selbsterklärend, so daß sich im Grunde jegliche Vorbemerkungen erübrigen. Es soll jedoch, nicht zuletzt aus Gründen größerer Klarheit, auf zwei Besonderheiten aufmerksam gemacht werden: • Die Notation „s. M-S. x“ (d. h. siehe Manuskript-Seite x) stellt einen Bezug auf das vorliegende Manuskript selbst dar. • Wichtige Textpassagen wurden durch Umrahmung und schraffierte Markierung hervorgehoben. Alle übrigen Abkürzungen orientieren sich an den konventionellen Richtlinien zur Manuskriptgestaltung. 1. Einleitung Das „Modellieren von linearen Strukturgleichungen“ (Structural Equation Modeling, SEM) oder von sog. „Kausalmodellen“ ist ein statistischer Ansatz, um Hypothesen über die Beziehungen zwischen beobachtbaren und nicht beobachtbaren, latenten Variablen zu testen. Sofern beobachtete (d. h. empirische) Daten vorliegen, können auch Beziehungen zwischen 2 nicht beobachtbaren, latenten Variablen getestet werden. Berechnungen zur statistischen Theorie, die dem SEM-Ansatz zugrundeliegt, wurden bereits zu Beginn der 70er Jahre durchgeführt (Jöreskog, 1973; Keesling, 1972; Wiley, 1973). Das steigende Interesse an dem SEM-Ansatz seit Beginn der 90er Jahre läßt sich en grosse durch zwei Entwicklungen nachweisen: • zum einen wurden die Forschungsfragestellungen in den Sozial- und Verhaltenswissenschaften zunehmend komplexer (vgl. Hoyle, 1994; Reis & Stiller, 1992) • einen weiteren Ausschlag für das wachsende Interesse gab das Erscheinen flexibler und benutzerfreundlicher Software (Bentler, 1992a: EQS; Jöreskog & Sörbom, 1993: LISREL 8 u.a.) 4 2. Grundlegende Konzepte Wie bereits eingeführt, stellt SEM eine statistische Methodologie dar. Mit Hilfe dieser Methodologie werden über einen hypothesen-testenden (d. h. konfirmatorischen oder bestätigenden) Ansatz a priori formulierte Kausalhypothesen zur Erklärung von Merkmals- zusammenhängen geprüft (Bortz, 1993; Byrne, 1994). Herkömmliche statistische Ansätze, wie die Pfad-, Regressions- oder konfirmatorische Faktorenanalyse, können als Teilmodelle der linearen Strukturgleichungsmodelle angesehen werden. Das Hauptmerkmal linearer Strukturgleichungsmodelle, das gleichermaßen auch für die starke Verbreitung dieser Methode im Laufe der letzten 30 Jahre angesehen wird, ist die Berücksichtigung latenter Variablen (z. B. Depression, Einstellungen, Erziehungsstil). Die latenten, nicht beobachtbaren Variablen (s. M-S. 11) können nur über indirekte Indikatoren erfaßt werden (z. B. Fragebogenitems als Indikatoren für die latente Variable „Depression“). 2.1 Modellspezifikation Dieser Abschnitt soll dazu genutzt werden, die spezifischen Eigenheiten des SEM-Ansatzes zu erläutern. Chronologisch betrachtet beginnt SEM mit der Spezifizierung eines Modells, mit dem die Anpassung der empirischen an eine theoretische Verteilung abgeschätzt werden soll. D. h. es soll überprüft werden, wie gut die Häufigkeit des Auftretens bestimmter beobachteter Werte (empirische Verteilung: Rohwertverteilung) mit der Häufigkeit des Auftretens dieser beobachteten Werte übereinstimmen würde, wenn die Anzahl der Werte unendlich groß wäre (theoretische Verteilung: z. B. Normalverteilung; vgl. Bild 1, s. M-S. 5). Mit anderen Worten soll aus einem empirischen Stichprobenbefund (d. h. aufgrund der Kenntnis von der Wahrscheinlichkeit eines bestimmten Ereignisses) die Verteilung und Ausprägung in der Grundgesamtheit theoretisch berechnet werden. Anpassung einer empirischen Verteilung an eine theoretische Verteilung Eine Stichprobe wird aus einer Grundgesamtheit nach dem Zufallsprinzip gezogen und soll als repräsentativ für diese gelten. Das Untersuchungsergebnis für diese eine Stichprobe soll nun auf die Grundgesamtheit, aus der sie stammt (und welche sie „repräsentieren“ soll), übertragen werden. 5 Beispiel: 500 Jungen, 10 Jahre, 5. Schulklasse, werden mit einem Intelligenztest (z. B. HAWIK-R) untersucht (= Datenerhebung mit dem Fragebogen HAWIK-R). Diese 500 Jungen sollen als repräsentativ gelten für alle 10-jährigen Jungen, die in die 5. Klasse gehen. Die empirischen Ergebnisse aus der Intelligenzuntersuchung mit den 500 Jungen (z. B. 335 oder 67 % der Jungen haben Werte im Bereich von 87 bis 113 Wertpunkten erreicht = IQ 90–110) sollen nun übertragen werden auf die Grundgesamtheit (67% aller 10-jährigen Jungen der 5. Schulklasse besitzen einen mittleren IQ im Bereich von 90–110). Um diese „Übertragung“ zu gewährleisten, werden statistische Prüf- und Analysemethoden eingesetzt (= Inferenzstatistik). Auf diese Methoden soll im Rahmen des vorliegenden Manuskripts nicht näher eingegangen werden. Interessierte Leser seien verwiesen auf Bortz (1993). In diesem Beispiel sind die „Stichprobe“ = 500 Jungen, „Grundgesamtheit“ = alle 10-jährigen Jungen der 5. Schulklasse, „repräsentativ“ = die 500 Jungen sollen als Prototyp für alle 10-jährigen Jungen, die die 5. Klasse besuchen, stehen. Ein Modell ist zunächst einmal – im allgemeinsten Sinne seiner statistischen Bedeutung – eine Aussage zur Häufigkeit und Bedeutsamkeit der Beziehung zwischen Variablen. Modelle können im Kontext verschiedener analytischer Ansätze ganz verschiedene Formen annehmen: • So wird ein Modell im Kontext korrelationsstatistischer Untersuchungen gewöhnlicherweise die ungerichtete Beziehung zwischen zwei Variablen Bild 1 Darstellung einer empirischen Verteilung (links) und einer theoretischen Verteilung (rechts) Notation: f(x) = Häufigkeit mit der die beobachteten Werte x auftreten, x = beobachtete Werte (z. B. Werte von 81 Schülern in einer Leistungskontrolle), Mean (?, lies: My) = Mittelwert der Grundgesamtheit, ? (lies: Sigma)= Standardabweichung in der Grundgesamtheit 6 spezifizieren (ausgenommen die Modelle der semipartiellen oder kanonischen Korrelation). „Ungerichtete Beziehung“ heißt, daß zwischen Variable Z1 (z. B. Pubertätsmagersucht) und Variable Z2 (z. B. Depression) ein Zusammenhang besteht. Es ist aber nicht bekannt, ob Z1 die Ursache für Z2 ist oder ob Z2 die Ursache für Z1 ist (Bild 2). • In den Ansätzen der Multiplen Regression oder der Varianzanalyse (ANOVA) würden in den Modellen gerichtete Beziehungen zwischen Variablen spezifiziert werden (wobei die Direktionalität auch in diesen Ansätzen nicht statistisch getestet werden kann). „Gerichtete Beziehung“ heißt, daß zwischen Variable X (Frühkindlicher Hirnschaden) und Y (Hyperaktivität) ein Zusammenhang besteht. Es ist bekannt, daß bei manchen Kindern X die Ursache für Y ist (siehe Bild 2). Eine Spezifikation bedeutet, daß das Modell formal ausgedrückt wird. Die Spezifikationen variieren ebenfalls über die verschiedenen statistischen Analysemethoden hinweg: • Im Falle der einfachen Korrelation oder Korrelation 1. Ordnung enthält das einzige Modell, das spezifiziert werden kann, die einfache ungerichtete Beziehung zwischen 2 Variablen (Bild 2, s. M-S. 6). Bild 2 Darstellung der gerichteten Beziehung (Beispiel 1) und der ungerichteten Beziehung (Beispiel 2) Notation: X =Frühkindlicher Hirnschaden , Y=Hyperaktivität,Z1= Pubertätsmagersucht, Z2= Depression (s. Text) 7 • Sofern die Varianzanalyse zur Verifikation komplexer Forschungshypothesen verwendet wird, ist eine explizite Modellspezifikation erforderlich (d. h. die üblichen Vergleiche zwischen den Standardmittelwertseffekten und Variableninteraktionen sind nicht ausreichend). • Ein drittes Beispiel wäre die aufklärende (exploratorische) Faktorenanalyse (FA), bei der die Analyse ebenfalls nicht mit einem expliziten Modell beginnt. Die verschiedenen Entscheidungsvorgänge jedoch, – wie z. B. zu extrahierende Faktorenanzahl, Extraktionsmethode oder Rotationsmethode–, stellen bereits eine implizite Spezifikation von einem Modell dar. Exploratorische Faktorenanalyse Bei der Durchführung einer exploratorischen Faktorenanalyse wird unterstellt, daß zwischen den beobachteten Variablen Zusammenhänge bestehen und die Variablen daher als voneinander abhängig und „bündelungsfähig“ angesehen werden können. Diese „Bündel“ werden als Faktoren bezeichnet. Die Faktoren können somit als „hinter den beobachtbaren Variablen“ stehende Größen verstanden werden, die den Zusammenhang zwischen bestimmten beobachteten Variablen repräsentieren. Etwas verkürzt kann die grundlegende Annahme der exploratorischen Faktorenanalyse wie folgt beschrieben werden: Jeder Wert einer beobachteten Variablen läßt sich als eine Linearkombination mehrerer (hypothetischer) Faktoren beschreiben. In mathematischen Termini hat die Linearkombination folgendes Aussehen: xj= aj1 • p1 + aj2 • p2 +...+ ajn • pn Legende: xj = alle Werte der beobachteten Variablen ajn= Faktorladung der Variable j pn= Faktoren Faktorladungen geben an wie stark der Zusammenhang zwischen einer beobachteten Variablen und einer latenten Variablen (d. h. Faktor) tatsächlich ist (vgl. auch Backhaus, Erichson, Plinke & Weiber, 1996, S. 190ff.). 8 Unterschied zwischen exploratorischer und konfirmatorischer Faktorenanalyse Der Forscher hat die Absicht, Strukturen in einem empirischen Datensatz zu erkennen. Zunächst besitzt der Forscher noch keine konkreten Vorstellungen über die Korrelationen (Zusammenhänge) zwischen den zu untersuchenden Variablen. Als Ursache dieser empirisch beobachteten Korrelationen werden lediglich hypothetische Faktoren als verursachend angesehen. Der Forscher besitzt keine genaue Kenntnis von diesen Faktoren. In diesem Fall wird eine exploratorische Faktorenanalyse angewendet. Es soll also etwas entdeckt werden (nämlich die Faktoren) und daraus hervorgehend Hypothesen entwickelt (generiert) werden. Wenn der Forscher jedoch bereits vorher (also a priori) konkrete Vorstellungen über mögliche hypothetische Faktoren besitzt (z. B. durch eine exploratorische Faktorenanalyse, aus Theorien oder anderen Forschungsuntersuchungen), werden Hypothesen über die Beziehung zwischen direkt beobachtbaren Variablen und den dahinter stehenden, nicht beobachtbaren Faktoren (latente Variablen) aufgestellt. Diese Hypothesen sollen sodann an einem empirischen Datensatz überprüft (d.h. getestet) werden. In diesem Fall wird eine konfirmatorische Faktorenanalyse angewendet. Es soll also etwas begründet werden (nämlich die Beziehung zwischen beobachteten und latenten Variablen) und daraus resultierend Hypothesen getestet werden. Sehr viel zentraler und wichtiger ist der Vorgang der Modellspezifikation im SEM-Ansatz. Schlußendlich kann im Grunde keinerart statistische Analyse (ob Varianzanalyse oder SEM) durchgeführt werden, ohne die Beziehung zwischen den zu analysierenden Variablen in einem Modell zu spezifizieren. Im Rahmen des SEM-Ansatzes führt die Modellspezifikation jedoch zu der Formulierung einer Behauptung über eine Menge von Parametern. Die Parameter, die eine Spezifikation erfordern, sind im Rahmen des SEM-Ansatzes Konstanten, welche die Art der Beziehung zwischen den Variablen kennzeichnen. Die Parameter werden gewöhnlicher- weise als feste, restringierte oder freie Parameter spezifiziert. 9 Modellparameter im SEM-Ansatz • Die festen Parameter werden nicht durch die Daten geschätzt, sondern a priori numerisch festgelegt. In der Regel besitzen die festen Parameter einen Wert von Null. (Falls zwischen 2 Variablen aufgrund einer exploratorischen Faktorenanalyse, Theorien oder anderer Forschungsuntersuchungen eine kausale Beziehung erwartet wird, so setzt man den entsprechenden Parameter auf 1.) • Die restringierten Parameter sollen aus den Werten der beobachteten Variablen geschätzt werden, aber dabei genau dem Wert eines oder mehrerer anderer Parameter entsprechen. Weil der Forscher aufgrund einer exploratorischen Faktorenanalyse, Theorien oder anderer Forschungsunter- suchungen stark vermutet, daß z. B. Parameter F2 und F3 einen gleich hohen Einfluß auf die beobachtbare Variable V20 haben. • Die freien Parameter werden aus den Werten der beobachteten Variablen (z. B. Items eines Fragebogens) geschätzt und sind jene Parameter, von denen der Untersucher glaubt, daß sie von Null abweichen. • Wie gut nun das in dem Modell spezifizierte Muster von festen, restringierten oder freien Parametern mit den Varianzen und Kovarianzen der beobachteten Daten übereinstimmt, wird durch die verschiedenen Indizes für die Angemessenheit des Modells (z. B. CFI, GFI; s. M-S. 18ff.) angegeben, insbesondere durch den ?2-Wert als statistischer Index (Overall Fit). Das Muster der festen, restringierten und freien Parameter definiert 2 Komponenten des allgemeinen linearen Strukturgleichungsmodells: a) das Strukturmodell und b) das Meßmodell (Bild 3, s. M-S. 11). Die graphische Darstellung eines Pfaddiagramms erfolgt immer mit Hilfe der folgenden Komponenten: a) Rechtecke b) Ellipsen c) Pfeile 10 ad a. Rechtecke werden dazu benutzt, um beobachtete Variablen zu kennzeichnen, welche sowohl für die latenten Variablen im Meßmodell oder die UV bzw. AV’s im Strukturmodell Indikatoren sein können. ad b. Ellipsen oder Kreise werden dazu benutzt, latente Variablen (UV und AV) sowie Fehler der Vorhersage im Strukturmodell und Meßfehler im Meßmodell darzustellen. ad c. Pfeile werden dazu benutzt, Verbindungen zu kennzeichnen. Es gibt 2 Arten von Pfeilen: • Gerade Pfeile, die nur in eine Richtung zeigen. Sie kennzeichnen die Richtung der Vorhersage von Prädiktor zu Outcome. • Gebogene Pfeile, die an beiden Enden eine Pfeilspitze besitzen und ungerichtete Verbindungen kennzeichnen (z. B. Korrela- tionen). McCallum formulierte zusätzlich noch (Mac Callum, 1995, p. 24): • Stark gebogene Pfeile, die an der gleichen Variablen beginnen und enden und somit die Varianz (d. h. die Kovarianz einer Variable mit sich selbst) kennzeichnen sollen. Im Pfaddiagramm ist die Strukturkomponente eines Modells gewöhnlicherweise so abgebildet, daß gerichtete Pfeile von links nach rechts verlaufen. Wenn die Meßkomponente in dem Diagramm enthalten ist, dann ist es notwendig, die Beziehung zwischen den Indikatoren und den latenten Variablen vertikal und horizontal anzuordnen, um eine Überschneidung mit den strukturellen Anteilen des Diagramms zu vermeiden. 11 Wie bereits oben erwähnt, müssen bei der Anwendung des SEM-Ansatzes auf einen konkreten Datensatz und eine spezielle Hypothesenstruktur 2 Modelle spezifiziert werden: das Strukturmodell und das Meßmodell. Das Strukturmodell ist die Komponente des allgemeinen Strukturgleichungsmodells, welche die Kausalbeziehungen zwischen den latenten Variablen vorgibt. Ein Strukturmodell enthält nur latente Variablen (z. B. Allgemeines SEM und EQS: Latente Variablen 1. Ordnung und 2. Ordnung bzw. LISREL: endogene und exogene latente Variablen) (vgl. Bild 3). Das Meßmodell ist jene Komponente des allgemeinen Modells, welche die Beziehungen zwischen den latenten Variablen und geeigneten Indikatorvariablen (mittels derer sich die latenten Variablen indirekt messen lassen) vorgibt. Ein Meßmodell enthält also direkt beobachtbare Variablen (Indikatorvariablen) und nicht beobachtbare, latente Variablen (= Faktoren, im Sinne der Faktorenanalyse) (vgl. auch Backhaus, Erichson, Plinke & Weiber, 1996, S. XX). Wenn die Meß- und Strukturkomponenten kombiniert werden, so ergibt sich ein umfassendes statistisches Modell, mit dessen Hilfe die Beziehungen zwischen Variablen meßfehlerfrei geschätzt werden können (Bild 4, s. M-S. 12). Latente Variablen • Latente Variablen sind theoretisch hypothetisierte, unbeobachtbare Variablen. Im Sinne der Faktorenanalyse können latente Variablen als „hinter den beobachtbaren Variablen“ stehende Größen begriffen werden. Sie repräsentieren den Zusammenhang zwischen den beobachteten Variablen. Strukturmodell Meßmodell D1 D2 D3 F1 F2 F3 F4 F1 F2 F3 V1 V2 V3 V4 V5 V6 V7 V8 V9 E1 E2 E3 E4 E5 E6 E7 E8 E9 Bild 3 Separates Pfaddiagramm: das Strukturmodell (links) und das Meßmodell (rechts) Notation: F–unbeobachteter (latenter) Faktor, V–beobachtete Variable, D–Residual-Fehler in Vorhersage des latenten Faktors, E–Meßfehler 12 Mathematisch präziser ausgedrückt werden die latenten Variablen im Rahmen des SEM-Ansatzes aus den Kovarianzen der beobachteten Variablen geschätzt. Die Kovarianz kann in diesem Fall als Kennzahl für den Grad verstanden werden, in dem die 2 oder mehr beobachteten Variablen miteinander variieren (d. h. voneinander abhängig sind). Die Kovarianz liefert über ihre Größe und Vorzeichen somit eine Angabe über das Ausmaß und die Richtung der Korrelation zwischen den 2 oder mehr Variablen. Aus diesem Grund wird der SEM-Ansatz auch nicht selten als Kovarianz- Strukturanalyse bezeichnet (s. Bentler, 1992b; Bollen, 1990; Breckler, 1990; Cudeck, 1989; Cudeck & Henley, 1991; Hu & Bentler; 1993; Hu, Bentler & Kano, 1992; Hoyle, 1995 u.a.). Hu & Bentler (1993) bezeichneten z. B. die Modellierung von Strukturgleichungen als Modellierung von Kovarianz- Strukturgleichungen. Diese Bezeichnung wäre mathematisch und statistisch betrachtet wesentlich korrekter. Beim praktischen Vorgehen (Software- Programme EQS oder LISREL) werden schließlich auch diese Kovarianzen oder Korrelationen zwischen den Indikatorvariablen berechnet. Aus den berechneten Kovarianzen können nun folgende Beziehungen bestimmt F1 F2 F3 F4 Bild 4 Vollständiges Strukturgleichungsmodell (Meß- und Strukturmodell) Notation: F–unbeobachteter (latenter) Faktor, V–beobachtete Variable, D–Residual-Fehler in Vorhersage des latenten Faktor, E– Meßfehler; F4 = latente Variable 2. Ordnung, F1,F2,F3 = latente Variablen 1. Ordnung 13 werden: a) zwischen latenten Variablen und ihren Indikatorvariablen, b) zwischen den latenten Variablen 1. und 2. Ordnung (z. B. Bild 4, s. M-S. 12: latente Variablen 1. Ordnung = F1, F2, F3; latente Variable 2. Ordnung: F4; vgl. auch Backhaus, Erichson, Plinke & Weiber, 1996, S. 326). • Die latenten Variablen lassen sich nur über die Werte von indirekten Indikatorvariablen erfassen (z. B. Fragebogenitems als Indikatoren für die latente Variable „Depression“). • Aus dem Gesagten geht hervor, daß die beobachtbare Variable (im Bezug auf die latenten Variablen) als Indikatorvariable bezeichnet wird. Damit ist gemeint, daß die Werte der beobachteten Variable (Daten) als Indikator („Anzeiger“) für die Werte der nicht beobachtbaren, latenten Variablen dienen. • Die latenten Variablen sind ohne Einfluß eines Zufallfehlers eindeutig mit ihrer Indikatorvariablen (= direkt beobachtbare Variable) verbunden. Die Beziehungen zwischen den Variablen – beobachtete oder latente – im Strukturgleichungsmodell können in 3 Formen unterteilt werden: 1 . Assoziation Bezeichnet eine Beziehung zwischen 2 Variablen, die innerhalb des Modells als nichtdirektional oder ungerichtet behandelt werden (Bild 2, s. M-S. 6). 2. Direkter Effekt (oder gerichteter Effekt) Bezeichnet die gerichtete Beziehung zwischen Variablen. In einem Modell charakterisiert jeder direkte Effekt die Beziehung zwischen einer unabhängigen (UV) und abhängigen Variablen (AV), obgleich die AV in dem einen direkten Effekt die UV in einem anderen sein kann (Bild 5, s. M-S. 14). 3. Indirekter Effekt (oder ungerichteter Effekt) Bezeichnet die Eigenschaft, daß ein und dieselbe Variable sowohl als UV als auch als AV simultan fungieren kann. Der indirekte Effekt von UV auf AV 14 erfolgt durch eine Mediatorvariable (MV, oder vermittelnde Variable). Im Falle von nur einer Mediatorvariable wäre die MV eine AV in Bezug auf die UV, aber eine UV in Bezug auf die AV. Auf diese Art und Weise beinhaltet der einfachste indirekte Effekt zwei direkte Effekte. Beispiel: Wenn x (UV) einen direkten Effekt auf y (AV) hat und y (UV) einen direkten Effekt auf z (AV), so hat x einen indirekten Effekt auf z durch den Mediator y (Bild 5). Die Summe der direkten und indirekten Effekte einer UV auf eine AV wird als totaler Effekt einer UV bezeichnet. Eine weitere grundsätzliche Überlegung bei der Spezifikation von Modellen im Rahmen des SEM-Ansatzes ist die Identifikation. • Identifikation bezeichnet die Beziehung zwischen der Information, die geschätzt werden soll (= freie Parameter, d. h. Varianzen und Kovarianzen der zu schätzenden Modellparameter) und der Information, aus welcher diese freien Parameter geschätzt werden sollen (= Varianzen und Kovarianzen der empirischen Werte der Indikatorvariablen). • Das Modell gilt als genau richtig identifiziert, wenn für die Schätzung jedes freien Parameters genau ein empirischer Wert einer Indikatorvariablen X Y z1 z2 x direkter Effekt y y direkter Effekt z1, z2 x indirekter Effekt z1, z2 Bild 5 Direkter und indirekter Effekt zwischen latenten und beobachteten Daten Notation:x= unabhängige Variable, y= Mediatorvariable, z12=abhängige Variablen 15 vorliegt (mit Freiheitsgraden, FG = 0). Z. B. aus den empirischen Varianzen und Kovarianzen von 4 empirischen Werten der Indikatorvariablen sollen 4 freie Parameter geschätzt werden (FG = 4-4 = 0). • Das Modell ist überidentifiziert, wenn für die Schätzung jedes freien Parameters mehrere empirische Werte einer Indikatorvariablen vorliegen (mit FG = [beobachtete Varianzen + Kovarianzen] - Anzahl der freien Parameter). Z. B. aus 21 empirischen Varianzen und Kovarianzen sollen 4 freie Parameter geschätzt werden (FG= 21-4 = 17) • Das Modell ist unteridentifiziert, wenn für die Schätzung jedes freien Parameters nicht genau ein oder mehrere empirische Werte einer Indikatorvariablen vorliegen (mit FG = [beobachtete Varianzen + Kovarianzen] - Anzahl der freien Parameter). Z. B. aus 3 empirischen Varianzen und Kovarianzen sollen 4 freie Parameter geschätzt werden (FG= 3-4 = -1). Aus dem Gesagten ergibt sich eine wichtige Modell-Restriktion: • Ein zu schätzendes Modell muß entweder genau identifiziert oder überidentifiziert sein. Im Rahmen praktischer Anwendungen wird immer eine Überidentifikation angestrebt. Die Bestimmung des Identifikationsstatus kann mitunter sehr schwierig sein. Software- Programme, wie z. B. EQS, geben Warnungen an den Benutzer, sobald sie auf unteridentifizierte Modelle treffen. Die Software-Programme geben jedoch nicht immer die Ursache bzw. Lokalisation des diagnostizierten Identifikationsproblems an. Dies kann sehr irreleitend sein, weil nämlich häufig die Ursache in den Besonderheiten der Daten und nicht in der Fehlspezifikation des Modells liegt (vgl. MacCallum, 1995; Chou & Bentler, 1995). Es sollte insgesamt deutlich geworden sein, daß Korrelationsstatistik, Multiple Regressionsanalyse, Varianzanalyse und Faktorenanalyse selbst als Strukturgleichungsmodelle zu bezeichnen sind (Tanaka et al., 1990). Hinsichtlich dieser Betrachtungsweise ist SEM ein sehr allgemeines lineares statistisches Modell, welches zur Beurteilung vieler Forschungs- hypothesen und Interessen der Sozialwissenschaftler genutzt werden kann. 16 2.2 Schätzung der Parameter Die freien und restringierten Parameter sollen aus der Menge der beobachteten Daten geschätzt werden. Auf dem einfachsten vorstellbaren Niveau der einfach-strukturierten Quadratmethoden können die Varianzanalyse oder die Multiple Regressionsanalyse zur Schätzung herangezogen werden. Zu bevorzugen sind jedoch iterative Methoden wie die Maximum-Likelihood- Methode oder die Methoden der quadrierten Kleinsten-Quadrate (vgl. Klauer, 1996, S. 101ff.; M-S. 18). • Iterative Methoden lassen sich charakterisieren als schrittweise Annäherungen an eine akzeptable Schätzungslösung für die freien Parameter. Während dieser Iteration (schrittweisen Annäherung) spielen die implizierten Kovarianzmatrizen – die ähnlich denen der beobachteten Werte sind – eine wichtige Rolle. • Die implizierte Kovarianzmatrix ist jene Matrix, die daraus resultieren würde, wenn die Werte der festen Parameter und die geschätzten Werte der freien und restringierten Parameter in strukturelle Gleichungen eingesetzt werden und diese wiederum zur Erstellung einer Kovarianzmatrix benutzt werden würden. Der Iteration ist folgender Algorithmus inhärent. Die Iteration beginnt mit einer bestimmten Menge von Startwerten, die aus Versuchswerten („Näherungswerte“) der freien Parameter bestehen. Aus diesen Startwerten wird nun eine implizierte Kovarianzmatrix errechnet. Anschließend wird diese implizierte Matrix mit der Kovarianzmatrix der tatsächlichen, beobachteten Werten verglichen. Die Startwerte können sowohl vom Forscher als auch durch die Programmsoftware bereitgestellt werden (LISREL: ermittelt Startwerte aufgrund der Beobachtungsdaten; EQS: unterstellt einen Default-Wert [d. h. einen fehlenden wahren Wert] für die Startwerte). Für das Festsetzen von Startwerten durch den Forscher gibt es jedoch kein Rezept. Byrne (1994, p. 31) empfiehlt, daß einige für entscheidend gehaltene Faktorladungen (d. h. Korrelationen zwischen empirischen Variablen und latenten Variablen) hoch angesetzt werden sollten (z. B. 17 0.9). Weiterhin ließe es sich empfehlen, die Varianzen stets größer als die Kovarianzen sowie die Restwert-Varianzen (E) allgemein hoch (und eng angelehnt an die Start-Varianzen der Variablen, deren Residual sie darstellen) starten zu lassen. Unter der Vermutung oder dem Vorwissen, daß manche der Schätzungen negativ werden, sollte unbedingt das Vorzeichen bereits im vorhinein bei den Startwerten spezifiziert werden, da es ansonsten zu sehr problematischen iterativen Prozessen kommen kann (schlimmstenfalls kann dies zur Nicht- Konvergenz führen, vgl. unten Konvergenz, M-S. 17). Wie bereits gesagt, wird nach jeder Iteration (d. h. „Schritt um Schritt“) die daraus resultierende implizierte Kovarianzmatrix (?) mit der Kovarianzmatrix der beobachteten Werte (S) verglichen. Die Differenz von empirischer Kovarianzmatrix und implizierter Kovarianzmatrix wird nach jedem Vergleich in einer Residualmatrix (sog. Restwertmatrix) zusammengefaßt (R = S - ?). Diese Differenz wird als Anpassungsfunktion (F) bezeichnet. • Die Residualmatrix enthält Werte, die die Unterschiede zwischen der implizierten und beobachteten Kovarianzmatrizen ausdrücken. Nach Abschluß der Iteration liegt eine implizierte Kovarianzmatrix vor, deren Elemente in Größe und Richtung (Direktionalität) den korrespondierenden Elementen in der beobachteten, empirischen Kovarianzmatrix bedeutend ähnlicher sind, als sie es zu Beginn der Iteration waren. Mit anderen Worten erfolgt die Iteration solange, bis die Werte der Residualmatrix (R) nicht mehr minimiert werden können. An diesem Punkt des Schätzungsvorgangs spricht man von einer Konvergenz. D.h. also, wenn die Differenz aus den Werten der empirischen und implizierten Kovarianzmatrix beinahe Null ist, dann spricht man davon, daß die empirische und die implizierte Kovarianzmatrix konvergieren. Bei einer perfekten Anpassung zwischen den beiden Matrizen würde ein Wert der Anpassungsfunktion errechnet werden, der gleich Null ist (F = 0). Dieser resultierende Wert ist der Ausgangspunkt für die Berechnung von Indizes der Modellanpassung (statistischer Index: ?2; deskriptive Indizes: CFI, NNFI u.a.). Konvergenzprobleme können auftreten bei: • Modellen mit vielen freien Parametern, • Modellen, die von nonparametrischen Daten (d. h. nicht normalverteilt) geschätzt werden und 18 • Multitrait-Multimethod-Modellen (z. B. es werden untersucht: 3 Merkmale mit 3 Methoden, woraus sich die Kombination von 3 ? 3 Variablen und 3 + 3 a-priori-Faktoren ergibt). Maximum-Likelihood-Methode zur Parameterschätzung Das oben dargestellte Prinzip der Maximum-Likelihood-Methode (Maximale-Wahrscheinlichkeits-Methode) soll wie folgt zusammengefaßt werden. Startwerte (d. h. Näherungswerte) für die unbekannten Modellparameter (d. h. freie Parameter) werden iterativ so lange verändert, bis die aus den geschätzten Parametern zurückgerechneten Kovarianzen (bei standardisierten Daten: Korrelationen, weil N [0,1]) den empirisch ermittelten Kovarianzen (bzw. Korrelationen) möglichst gut entsprechen. 2.3 Bewertung der Modellanpassung Aus dem letzten Abschnitt ist folgende Schlußfolgerung hervorgegangen: Ein Modell besitzt genau dann eine gute Anpassung an die beobachteten Werte, wenn die implizierte Kovarianzmatrix der empirischen Kovarianzmatrix gleich- wertig ist (d. h. die Elemente der Residualmatrix sind nahe Null). Die Frage der Modellanpassung ist natürlich eine statistische Frage, die ohne eine genaue Beschreibung der Daten, des Modells und der Schätzmethoden kaum zu beantworten ist. Der meist verwendete statistische Anpassungstest ist der ?2-Anpassungstest (lies: chi-quadrat; sog. Goodness-of-Fit-Test), der sich direkt aus den Werten der Anpassungsfunktion herleitet (s. M-S. 17). • Der Chi-Quadrat-Wert ergibt sich aus dem Produkt des Wertes der Anpassungsfunktion und der Stichprobengröße minus 1 (?2 = F? [N-1]). 19 • Das Ergebnis ist eine ?2-Verteilung, sofern die Daten normalverteilt sind und das spezifizierte Modell korrekt ist (Normalverteilung, N [0,1], d. h. ?=0 und ?=1; zur Erklärung s.a. Notation von Bild 1, s. M-S. 5). Der Nachteil der ?2-Statistik besteht in der rigorosen Restriktion, daß die Beobachtungsdaten multivariat normalverteilt vorliegen müssen (Beispiel für eine Normalverteilung in Bild 1, s. M- S. 5). Wenn diese Normalverteilungsannahme verletzt wird, so sind die Ergebnisse der statistischen Überprüfung stark verzerrt und daher ungültig. Die Verletzung der N(0,1)- Annahme kann also zu schwerwiegenden Folgen bezüglich der Gültigkeit des statistischen Hypothesentestens führen. Überdies kann eine N(0,1)-theoretische Teststatistik von selbst ja nicht „erkennen“, ob das zu studierende Modell adäquat für die Rohdaten ist oder nicht (Browne, 1982, 1984; Hu, Bentler & Kano, 1992; West et al., 1995). Es wurde daraufhin von Browne (1982, 1984) ein Ansatz entwickelt, um dieses Problem aufzulösen (Asymptotische Verteilungsfreie Methoden, ADF). Diese verteilungsfreien Methoden unterliegen jedoch einer Forderung nach hohen Stichprobenzahlen. Da es jedoch wiederum schwierig ist eine Minimumgrenze für die Stichprobengröße anzugeben (PRELIS2: k(k+1)/2, k: Variablenanzahl), sind diese Methoden nicht für alle Untersuchungen brauchbar. Obgleich der ADF-Ansatz verbessert werden kann (Yung & Bentler, 1984), vertreten Bentler und seine Mitarbeiter (Chou, Bentler & Satorra, 1991; Hu et al., 1992) die Meinung, daß es günstiger wäre, die vorhandenen Statistiken zu korrigieren bevor verschiedene neue Schätzmethoden entworfen werden. Auf diese Weise entwickelten Satorra & Bentler (1988a, 1988b) die Skalierte ?2-Statistik (Scaled ?2), die eine Skalenkorrektur für die ?2-Statistik enthält. Wenn N(0,1)-Voraussetzungen verletzt werden, dann nimmt die Berechnung vom Skalierten ?2 auf die Gültigkeit des Modells, die Schätzmethode und die Stichproben-Kurtosis (Steigungs)-Werte Einfluß. Die Skalierte ?2-Statistik scheint ein weitaus zuverlässigerer Indikator für die Modellangemesseheit zu sein, als die nonparametrischen, verteilungsfreien Verfahren (z. B. ADF; Browne, 1984). Insbesondere von Vorteil ist das im EQS verfügbare (nicht aber in LISREL) Skalierte ?2 bei der Analyse psychologischer Daten, für die eine Annahme der multivariaten Normalverteilung oft nicht haltbar ist 20 (Bentler, Wu & Houck, 1996, S. 277; Hu, Bentler & Kano, 1992; Micceri, 1989). Nach den Ergebnissen der Monte Carlo-Studie, in der 6 Teststatistiken unter 7 Verteilungsbedingungen überprüft wurden, wurde das Skalierte ?2 als die reliabelste (d. h. zuverlässigste) Teststatistik erkannt (Hu et al., 1992). Diese wachsende Unzufriedenheit mit dem klassischen ?2-Anpassungstest führte zu der Formulierung vieler weiterer sog. Zusatz-Anpassungsindizes, die deskriptiven (d. h. eher beschreibenden) Charakter besitzen. Bentler & Bonett (1980) leisteten mit ihrer Entwicklung des Normed-Fit-Index (NFI) und ihrer Verallgemeinerung des bestehenden Indizes nach Tucker & Lewis (1973, TLI) als Nonnormed-Fit-Index (NNFI) Pionierarbeit. Der Normed-Fit- Index (NFI) wurde später durch Bentler (1990a) zum Comparative-Fit-Index (CFI) umformuliert. Mit dem CFI kann einer Unterschätzung der Anpassung des hypothetisierten Modells vorgebeugt werden (Bentler, 1990a, p. 238). Der Comparative-Fit-Index (CFI) wird bei der Bewertung der Modellanpassung als der Index der Wahl vorgeschlagen (Bentler, 1990a, p. 245; 1990b). Diese Indizes und viele andere, die einer ähnlichen Logik folgen (z. B. Marsh, Balla & McDonald, 1988; Tanaka, 1993), stammen aus dem Vergleich der Anpassung des spezifizierten Modells mit der Anpassung des Unabhängigkeitsmodells (oder Nullmodells; Bentler & Bonett, 1980; Bentler, 1990a, p. 239; vgl. auch Byrne, 1994, p. 54). • Das Unabhängigkeitsmodell ist ein Modell, in dem vollständige Unabhängigkeit zwischen den Variablen herrscht. D.h. es existieren ebenso viele latente Variablen (d. h. Faktoren) wie beobachtbare Variablen. Alle Korrelationen zwischen den Variablen sind Null (daher auch: Nullmodell). Es werden nur die Varianzen geschätzt. Im Rahmen des EQS werden anhand des Akaike Information Criterion (AIC; Akaike, 1987) und der Bozdogan Konsistenzversion des AIC (CAIC; Bozdogan, 1987) diese beiden Modelle miteinander unter dem Aspekt der Sparsamkeit einer Modellkonstruktion miteinander 21 verglichen (Sparsamkeit heißt: ob durch die postulierten latenten Variablen [Faktoren] tatsächlich ein genügend großer Teil der Varianz aufgeklärt werden kann oder nicht und ob zu viele oder zu wenige Parameter geschätzt werden). Der ?2-Goodness-of-Fit-Test und die Anzahl der zu schätzenden Parameter werden für beide Modelle in die Ermittlung des AIC und CAIC einbezogen. Der AIC und CAIC werden im EQS in alle weiteren Maximum-Likelihood- Berechnungen einbezogen. Die meisten zusätzlichen Anpassungsindizes stellen eine Verbesserung der Anpassung eines spezifizierten Modells, das feste, restringierte und freie Parameter enthält, dar. Im Gegensatz zum Unabhängigkeitsmodell, in dem alle strukturellen Parameter fest um Null herum liegen. Die zusätzlichen Anpassungsindizes (z. B. NFI, NNFI, CFI) sind keine statistischen Indizes (wie ?2 oder Scaled-?2) und können daher auch nicht dazu genutzt werden, statistische Tests zur Modellanpassung durchzuführen. Sie werden eher als allgemeine Indizes zur Beurteilung der Modell-Angemessenheit verwendet. Die meisten (z. B. NFI, CFI, NNFI) der Zusatz-Anpassungsindizes können Werte im Bereich von 0 bis 1 annehmen. Ab dem Wert 0.9 wird ein Modell in der Regel als übereinstimmend mit den beobachteten Daten (Bentler, 1992b). Die augenscheinliche Unterscheidung zwischen dem ?2-Anpassungstest und den Zusatz- Anpassungsindizes besteht in der Größe der Werte, ab der eine akzeptable Anpassung des Modells als bestätigt gilt. • Das ?2 ist in Wirklichkeit ein Index für eine „schlechte“ Anpassung („Badness-of-Fit“) und daher weisen kleinere Werte auf eine bessere Anpassung hin. Eine perfekte Anpassung würde paradoxerweise ein ?2-Wert von Null ausweisen (d. h. die Residualmatrix besteht nur aus Nullwerten). Dies kommt aus dem Grunde zustande, weil ?2 ein statistischer Index ist und daher werden seine Werte relativ zu den verfügbaren Freiheitsgraden ermittelt. In praktischen Anwendungen wird ein Modell in der Regel dann angenommen, wenn der Chi-Quadrat-Wert im Verhältnis zu den Freiheitsgraden möglichst 22 klein wird, d. h. er sollte kleiner oder gleich der Freiheitsgrade sein (vgl. Backhaus et al., 1996, S. 398). • Die Zusatzindizes (z. B. NFI, NNFI, CFI) hingegen sind Indizes für eine „gute“ Anpassung („Goodness-of-Fit“), was bedeutet, daß größere Werte (d. h. nahe Eins) für eine perfekte Anpassung wünschenswerter sind. Eine perfekte Anpassung würde z. B. durch einen CFI-Wert von 1 ausgewiesen werden. Da Zusatzindizes jedoch keine statistischen Indizes sind, existiert für sie auch kein definitiver kritischer Wert, ab dem ein Modell als gut angepaßt gelten kann oder auch nicht (vgl. Bentler, 1990, p. 243). Gegenüber anderen existierenden Zusatzindizes (NFI, NNFI, Bentler & Bonett, 1980; IFI, Bollen, 1989) ist der Bentler-CFI-Index (1990a, p. 245) jedoch vorzuziehen, weil er kein primär deskriptiver Index ist. Bentler (1990a, p. 245) bezeichnet ihn selbst als „Populationsindex, der eine grundlegendere Möglichkeit für den idealen Anpassungsvergleich bietet“ als es bisher von anderen Indizes zu erwarten war. Der finale Aspekt der Anpassungsbewertung beinhaltet den Vergleich zwischen zwei oder mehr theoriefußenden Modellen mit den gleichen Daten. Dieser Modellvergleich ist statistischer Natur, ganz ähnlich den Modellvergleichen in der hierarchischen Regressionsanalyse. Der Modellvergleich erfordert die Spezifikation von 2 ineinander „nested“ (verzahnten) Modellen. • 2 Modelle gelten dann als ineinander „nested“ (verzahnt), wenn sie beide die gleichen Parameter enthalten, aber die Menge der freien Parameter in dem einen Modell eine Untermenge der freien Parameter des anderen Modells darstellt (z. B. Unabhängigkeitsmodell und hypothetisiertes Modell). Eine ?2-Statistik, ähnlich wie die F-Veränderungsstatistik bei der hierarchischen Regressionsanalyse, wird also dazu benutzt, zu entscheiden, welches der beiden oder mehreren Modelle die beobachteten Daten besser abbildet. 23 2.4 Modellmodifikation Der umstrittenste Aspekt des SEM-Ansatzes ist die Modifikation oder Respezifikation des Modells (MacCallum, Roznowski & Necowitz, 1992). Die Modellmodifikation beinhaltet die abstimmende Ergänzung des spezifizierten und geschätzten Modells um sowohl freie Parameter, die früher feste waren, als auch um feste Parameter, die früher freie waren. Die erwähnte Kontroverse über die Modellmodifikation betrifft eher die Grundlagen für die Modellmodifikation als die allgemeine Notation der Modellmodifikation. Die Modellmodifikation erfolgt in der Regel für Modelle, die nach der Schätzung eine ungünstige Anpassung der theoretischen Modellvorstellung an die beobachteten, empirischen Daten ausweisen. Zunächst müßte die Konsequenz gezogen werden, daß das hypothetisierte Modell nicht mit den erhobenen Daten übereinstimmt und somit aus empirischer Sicht zu verwerfen ist (wenn die Repräsentativität der Datenerhebung unterstellt werden darf, s. M-S. 5). Des Problempotentials einer Modellmodifikation muß sich der Forscher klar bewußt sein. Von einer streng statistischen Warte aus beurteilt, kann ein Modell, welches durch den empirischen Datensatz abzulehnen ist, nicht kurzerhand „modifiziert“ werden und wiederum an dem gleichen Datensatz getestet werden (Backhaus, Erichson, Plinke & Weiber, 1996, S. 407f.; Bortz, 1993, S. 445). Wenn jedoch der gleiche Datensatz weiterverwendet wird, obwohl die Modellparameter geändert wurden, kann nicht mehr – im engeren Sinne – von einer konfirmatorischen sondern höchstens von einer exploratorischen Faktorenanalyse (s. M-S. 7) gesprochen werden. Es kann also festgehalten werden, daß nach einer Modifikation des hypothetisierten Modells (ob Struktur- oder Meßmodell) das methodische Vorgehen nur noch exploratorisch (statt konfirmatorisch) bezeichnet werden kann. Konfirmatorisch kann das Vorgehen nur dann bezeichnet werden, wenn für die Schätzung des re-spezifizierten Modells ein neuer Datensatz verwendet wird (strikt statistisch betrachtet, müßte sogar eine neue Stichprobe per Auswahlverfahren aus einer anderen Grundgesamtheit gezogen werden; s. M-S. 5). Sofern nicht weitere theoriegestütze Modelle für eine günstigere Beschreibung oder Abbildung der Daten vorhanden sind, kann eine der folgenden Strategien die Grundlage für die 24 Modifikation bilden (d. h. zur Lokalisation jener Modellschwachstelle, aufgrund welcher das Modell nach Vergleich mit den empirischen Daten abgelehnt werden mußte): 1. Prüfung der Parameterschätzungen 2. Beurteilung einiger Formen der Residualmatrix 3. Benutzung von statistischen „Suchstrategien“. Durch die Anwendung einer der angegebenen Strategien kann eine günstigere Anpassung erreicht werden. Die bekanntesten Suchstrategien existieren im Rahmen des LISREL- und EQS-Programms. • Der Modifikationsindex (LISREL) und der Lagrange Multiplier Test (EQS) geben Informationen über die Höhe der ?2-Wertveränderung, die sich ergeben würde, wenn die Parameter, die im ursprünglichen Modell fest waren, nun frei werden. EQS gibt mit Hilfe des WALD-Test überdies noch Informationen über die Veränderung des ?2-Wertes, die daraus resultieren würde, wenn frühere freie Parameter nun fest werden. Mit dem Wald- und Lagrange Multiplier Test (LMT) kann die ?2-Änderung für den Fall der Respezifikation von einem oder mehreren Parametern verwendet werden, währenddessen mit dem Modifikationsindex (LISREL) lediglich ein Paramter respezifiziert werden kann. Das Anliegen des LMT ist, festzustellen, ob bei einem Modell, welches die Daten günstiger abbilden würde, bestimmte Parameter eher frei oder eher als fest zu spezifizieren sind. Die Angaben des LMT müssen jedoch vom Forscher im Hinblick auf seine Theorie kritisch geprüft werden. Letztlich beruht die Strategie des LMT ausschließlich auf statistischen Kriterien (z. B. wird eher ein fester Parameter als wünschenswert für das Testen befunden). Dies ist nur einer von vielen Vorteilen von EQS gegenüber LISREL. Der Nachteil der Verwendung dieser Modifikationsstrategien besteht natürlich darin, daß somit dem Fehler 1. Art (oder ?-Fehler) Vorschub geleistet werden kann und dies wiederum führt insgesamt zu einer Situation, daß lediglich die spezielle Eigenart einer bestimmten Datenmenge als reliables Ergebnis interpretiert wird (MacCallum et al., 1992). Mit anderen Worten heißt dies, es besteht die Gefahr, daß ein zutreffendes hypothetisiertes Modell abgelehnt wird, obwohl es zutreffend ist (?-Fehler). 25 • Fehler 1. Art (?-Fehler): eine richtige Hypothese wird abgelehnt • Fehler 2. Art (?-Fehler): eine falsche Hypothese wird angenommen 2.5 Interpretation Wenn sowohl der ?2-Anpassungstest als auch die zusätzlichen Anpassungsindizes eine insgesamt akzeptable Anpassung des spezifizierten Modells an die beobachteten Daten kennzeichnen, dann bewegt sich der Fokus der Betrachtung auf die Anpassung der spezifischen Elemente. Zur Interpretation werden zum einen die Vorzeichen der Pfadkoeffizienten (Bild 4, s. M-S. 12 z. B. F1-V1, F1-V2, F1-V3) und ihre Größe herangezogen. Für weitere Aussagen über die einzelnen Schätzungen müssen die Schätzungen der freien Parameter auf Signifikanz (d. h. bedeutsamer Unterschied von Null) geprüft werden (m. H. eines t-Tests: Parameterschätzwert geteilt durch seine Standardabweichung). Eine Schätzung wird dann als signifikant angesehen, wenn ihr t-Wert größer als 1,96 ist. Die Parameterschätzungen, die signifikant von Null unterschieden sind, können als wesentlicher Beitrag zur Bildung der Modellstruktur interpretiert werden. Der herausforderndste und auch am schlechtesten verstandene Aspekt der Interpretation von SEM-Ergebnissen besteht nicht in der Größe oder Gerichtetheit der Beziehungen zwischen den Variablen, sondern in der Art dieser Beziehungen. Strukturgleichungsmodelle werden oft als statistische Mittelwerte beschrieben, um kausale Hypothesen über korrelierende Daten zu testen. Womöglich ist eine derartige naive Charakterisierung auch dafür verantwortlich, daß viele Forscher allzu schnell von statistisch signifikanten Beziehungen in Strukturgleichungs- modellen auf Kausalität schließen (Cliff, 1983; Freedman, 1987). In Wirklichkeit tut der SEM-Ansatz nicht mehr, als daß er die Beziehungen zwischen Variablen testet, so wie sie vorher geschätzt worden sind. Was also ist der Vorteil von SEM im Vergleich zur Varianz- oder Regressionsanalyse, um kausale Hypothesen zu testen? Um diese Frage beantworten zu können, sollen zunächst die 26 notwendigen Bedingungen für eine kausale Beziehung vor Augen geführt werden (Bollen, 1989, p. 40-61): 1. Assoziation, 2. Isolation, 3. Direktionalität (Gerichtetheit). ad 1. Die elementarste Bedingung ist die Assoziation (d. h. die Ursache und der Effekt müssen in Verbindung gebracht werden). Hierin unterscheidet sich SEM nicht groß von anderen statistischen Ansätzen. ad 2. Die vermutete Ursache muß von anderen möglichen Ursachen isoliert untersucht werden. Z. B. erfolgt dies bei Experimenten durch die Zufallszuweisung. Auch die Varianzanalyse und Regressionsanalyse kann dazu benutzt werden, vermutete Ursachenvariablen von anderen Variablen zu isolieren. Aber SEM ist flexibler und umfassender als die übrigen Ansätze, weil es die Mittelwerte nicht nur für die kontrollierten Variablen, sondern auch für den Meßfehler angibt. ad 3. Direktionalität ist die Bedingung, bezüglich welcher SEM am häufigsten mißverstanden wird. Gerichtete Pfeile werden dann falsch interpretiert, wenn man sie als Kennzeichen für die durch SEM getestete oder der vom Untersucher vermuteten Direktionalität (d. h. Kausalität) nimmt. In Wirklichkeit kann SEM die Direktionalität (d. h. Kausalität) nicht testen. Die „Näherungsaussagen“, die durch die Ergebnisse von SEM- Untersuchungen möglich werden, sind jedoch immer noch als wesentlich günstiger zu bezeichnen, um Ursache-Wirkungs-Beziehungen zu entschlüsseln, als es ein nicht-empirisches Vorgehen darstellen würde, z. B. durch das ledigliche Benutzen einer Theorie. 27 Obgleich Backhaus et al. (1996) die Ansicht verteten, daß „mit Hilfe eines Datensatzes Kausalitäten überprüft“ werden könnten (Backhaus et al., 1996, S. 323f.), bleibt es letztlich unstrittig, daß es eine sehr gewagte Hypothese bleibt, Ursache-Wirkungs-Beziehungen statistisch und methodisch korrekt zu testen. Eine tatsächliche Schwierigkeit, Ursache und Wirkung in Beziehung zu setzen und diese Beziehungen zu testen, ergibt sich bei psychologischen sowie bei sozial- und verhaltenswissenschaftlichen Datenerhebungen. Im Ganzen gesehen kann zusammengefaßt werden, daß die Assoziation von Variablen in SEM nicht wesentlich anders interpretiert wird, als in der Varianz- oder Regressionsanalyse. Ein gerichteter Pfeil wird in Pfaddiagrammen dazu benutzt, Beziehungen zwischen Variablen zu beschreiben. Bei der Verwendung des SEM-Ansatzes sollten diese hypothetisierten, spezifizierten und geschätzten Beziehungen nicht für Kausalaussagen herangezogen werden – es sei denn, die betreffende Beziehung wurde im Rahmen einer bereits bestätigten Theorie empirisch nachgewiesen (vgl. auch Martin, 1987; Mulaik & James, 1995). Mögliche Ergebnis- Aussagen könnten lauten: „die untersuchten Daten weisen deutlich in die Richtung, daß...“. 2.6 Kommunikation Da bei der Präsentation der SEM-Ergebnisse viele Inkonsistenzen entstehen können und sich überdies die Untersuchungsergebnisse aus einer Vielzahl von Informationen zusammensetzen, haben einige Autoren ihr gesteigertes Interesse auf die Präsentation oder die Kommunikation von SEM-Ergebnissen gerichtet (z. B. Biddle & Marlin, 1987; Raykov, Tomer & Nesselroade, 1991; Hoyle & Panter, 1995). Eine erste Darstellungsmöglichkeit von SEM-Hypothesen und Ergebnissen ist ein Pfaddiagramm. 28 Das informativste Pfaddiagramm (vgl. Bild 4) enthält eine Kennzeichnung von allen Parametern des Modells (s. MacCallum, 1995). In der Praxis ist eine derartig vollständige Darstellung aber nur selten der Fall. Insbesondere werden oft jene Pfade aus den Darstellungen weggelassen, die Meß- und Vorhersagefehler kennzeichnen. Gelegentlich werden sogar die Indikatoren der latenten Variablen ausgespart. Obgleich man aus Gründen der Übersichtlichkeit mit solchen Auslassungen nicht allzu schlecht beraten ist, können sie aus zwei Gründen in die Irre leiten: 1. Das spezifizierte und geschätzte Modell ist nicht klar gekennzeichnet. Dieses Problem kann relativ leicht behoben werden, indem überprüft wird, welche Aspekte des spezifizierten Modells im Diagramm fehlen. 2. Die Parameterschätzungen sind nicht vollständig in dem Diagramm darge- stellt. Zusätzliche Bedeutung für die Pfaddiagramm-Darstellung besitzt das Interesse des Untersuchers. Das heißt, welche Anteile der SEM-Analyse für den Forschungsbericht relevant sind und daher dargestellt werden (vgl. Biddle & Marlin, 1987). Es bieten sich folgende selektive Präsentations-Möglichkeiten an: F1 F2 F3 F4 Bild 6 Vollständiges Strukturgleichungsmodell (Meß- und Strukturmodell) Notation: F–unbeobachteter (latenter) Faktor, V–beobachtete Variable, D–Residual-Fehler in Vorhersage des latenten Faktor, E– Meßfehler; F4 = latente Variable 2. Ordnung, F1,F2,F3 = latente Variablen 1. Ordnung 29 1. Ursprünglich spezifiziertes und geschätztes Modell, 2. Anteile des ursprünlichen Modells, für die die Parameterschätzungen signifikant waren oder 3. modifiziertes, respezifiziertes und re-geschätztes Modell. Der Wert eines Pfaddiagramms, das das ursprünglich spezifizierte und geschätzte Modell darstellt, liegt darin, daß es die anfänglichen konzeptuellen Hypothesenüberlegungen des Untersuchers nachvollziehbar darstellt. Dies wäre gleichermaßen die Objektivität der Präsentation (ad 1). Jenes Diagramm, das die nicht signifikanten Pfade aus Gründen der Übersichtlichkeit wegläßt, ist zwar weniger überhäuft, aber gibt dennoch eine unvollständige Ergebnisdarstellung (ad 2). Der empfehlenswerte Mittelweg zwischen vollständigem-überhäuften und unvollständigem- übersichtlichen Diagramm ist ein Pfaddiagramm, welches alle Parameter des ursprünglichen hypothetisierten Modells darstellt und die nichtsignifikanten Pfade durch Strichlinien abbildet. Das Pfaddiagramm, durch dessen Hilfe ein modifiziertes Modell veranschaulicht wird, sollte nicht das einzige Diagramm in der Ergebnisdarstellung sein (ad 3). Es könnte über die a-priori- Spezifikation hinwegtäuschen und den Anschein eines reliablen Modells vermitteln. Dadurch würde gegenüber dem ?-Fehler eine Unachtsamkeit vorliegen (s. M-S. 25). Eine zweite Darstellungsmöglichkeit von SEM-Ergebnissen sind Tabellen. Sie werden in der Regel immer dann verwendet, wenn der verfügbare Raum zur Darstellung sehr begrenzt ist. Neben dem optischen Nachteil der Tabellendarstellung besteht noch ein weiteres Problem. Im Gegensatz zu varianzanalytischen Tabellen, in denen das Untersuchungsdesign durch das Tabellenformat vermittelt wird, geben SEM-Tabellen keine Auskunft über die Position der Parameter in dem spezifizierten oder re-spezifizierten Modell. 2.7 Zusammenfassung der theoretischen Grundlagen Dieser Abriß der Basiskonzepte und ihrer Bedeutsamkeit, die mit dem SEM-Ansatz als Forschungsdesign und Datenanalyse verbunden ist, zeigte Ähnlichkeiten und Unterschiede zu 30 konventionellen Ansätzen (z. B. Korrelations-, Multiple Regressions- oder Varianzanalyse) auf. Zusammenfassend ist zu sagen, daß der SEM-Ansatz diesen übrigen statistischen Analysemethoden in folgenden Punkten ähnlich ist: 1. Basiert auf statistischen Modellen. Die linearen Standardmodelle, wie Korrelations-, Regressions- und Varianzanalyse, stellen gewissermaßen nur Spezialfälle des allgemeinen SEM-Ansatzes dar. 2. Die statistischen Tests sind nur gültig, wenn die beobachteten Daten (Rohwerte) bestimmte Voraussetzungen (d. h. Normalverteilung = N[0,1]) erfüllen. • Voraussetzungen für alle Analyseansätze: Unabhängigkeit der Beobachtungsdaten und multivariate Normalität • Vorteil des SEM-Ansatzes: Robustere Schätzmethoden (wie Maximum-Likelihood-Methode) können trotz Verletzung der N(0,1)- Annahme angewendet werden. Damit wird einer früheren Kritik entgegnet, daß sich SEM-Analysen nicht für Sozial- und Verhaltensdaten nutzen lassen (vgl. Hu, Bentler & Kano, 1992; Chou & Bentler, 1995; West, Finch & Curran, 1995). 3. Weder SEM noch andere konventionelle Analyseansätze (s.o.) eröffnen die Möglichkeit zur statistischen Testung der Kausalität (d. h. durch die Ermittlung der statistischen Bedeutsamkeit oder Signifikanz wird kein Maß für die eventuell zugrundeliegende Ursache-Wirkungs-Beziehung gegeben). • Der Vorteil des SEM-Ansatzes bezüglich der Kausal-Hypothesen gegenüber den übrigen, restriktiveren Ansätzen liegt darin, daß Modelle spezifiziert werden können, in denen die vermutete Ursache von Fremdeinflüssen und Meßfehlern isoliert ist. • Keiner der statistischen Ansätze kann die Direktionalität (oder Gerichtetheit) testen. Sie stellt eine Bedingung dar, die durch Logik, 31 strenge Theorie und methodologische Strategien, nicht aber durch statistische Designs etabliert wird. 4. Die Ausrichtung an den anfänglichen statistischen Hypothesen nach Ansicht der beobachteten Daten steigert auf dramatische Weise die Wahrscheinlich- keit von fallspezifischen Ergebnissen. Die Ausrichtung an statistischen post- hoc-Hypothesen (die im Anschluß an die statistischen Analyse der Daten notwendig sein können) erfordert eine Kreuzvalidierung der Ergebnisse. SEM unterscheidet sich von den konventionellen Standardansätzen in 3-facher Hinsicht: 1. Die Benutzung von dem SEM-Ansatz erfordert die formale Spezifikation eines Modells, das anschließend geschätzt und getestet wird (i.Ggs. dazu Varianzanalyse: Default-Modell, Multiple Regressionsanalyse: nur direkte Effekte auf einen Endwert werden spezifiziert). Diese Spezifikation unterliegt geringen Restriktionen hinsichtlich der Typen von zu vermutenden Beziehungen. Ein anderer häufig zitierter Vorteil von SEM ist, daß die sorgfältige Konstruktion und Spezifikation eines Modells die Möglichkeit eröffnet, ausführlich über die Daten nachzudenken und Hypothesen zu spekulieren, die jede Variable betreffen. 2. Der größte Vorteil von dem SEM-Ansatz besteht in der Kapazität, Beziehungen zwischen latenten Variablen zu schätzen und zu testen. 3. Ein eher nachteiliger Unterschied von SEM zu den konventionellen statistischen Ansätzen ist die Zweideutigkeit, die mit den statistischen Tests im SEM-Ansatz verbunden ist (im Vergleich zu den relativ redlichen, einfachen, statistischen Tests der Standardmethoden). • Im Herz dieser Zweideutigkeit steht die Paradoxie von dem Komplexitätsgrad der Daten und den Modellmerkmalen auf der einen Seite und der ?2-Methodik – auf der viele der Indikatoren zur Modellanpassung basieren – auf der anderen Seite (vgl. auch M-S. 19). • Durch die Benutzung von korrigierten Indizes (insbesondere für Daten aus den Sozialwissenschaftlen, wo oft die N[0,1]-Annahme verletzt wird, Satorra & Bentler, 1988a,b: Skaliertes ?2) kann diese Zweideutigkeit ausgeräumt werden (Bentler, Wu & Houck, 1996, S. 277). 32 Der SEM-Ansatz ist für Forschungsdesigns und Datenanalysen in den Sozial- und Verhaltenswissenschaften umfassender und flexibler als ein anderes statistisches Analysemodell. Obgleich es Forschungshypothesen gibt, die ausreichend mit den konventionellen Analysemethoden analysiert und getestet werden können, bietet der SEM- Ansatz eine Arbeitsweise zum Testen von sehr komplexen und spezifischen Hypothesen, wie es bei den übrigen Ansätzen nur gesucht werden kann. 3. EQS: Praktische Anwendung an einem Beispiel 3.1 Daten Die Daten stammen aus der Studie von Byrne, Baron & Campbell (1993). In dieser Untersuchung wurden 730 Jugendlichen (Klassen 9–12), die die gleiche Schule in Ottawa (Kanada) besuchten das Beck Depressions Inventar (BDI; Beck, Ward, Mendelson, Mock & Erbaugh, 1961) vorgelegt. Nach einer Bereinigung der Daten durch Entfernen der Missings (z. B. nicht ausgefüllte Items, Fragebogen ) verblieben die Fragebogendaten von 658 Probanden in der Endstichprobe ( :N=337; : N=321). Der BDI ist ein Fragebogen mit 21 Items. Mit ihm sollen die Symptome der Depession hinsichtlich der kognitiven, verhaltensmäßigen, emotionalen und somatischen Komponenten erfaßt werde. Byrne et al. (1993) ermittelten folgende Faktorenstruktur (durch eine explorative Faktorenanalyse, s. M-S. 7): • einen allgemeinen Faktor höherer Ordnung: Depression • drei Faktoren niederer Ordnung: a) Negative Einstellung b) Leistungsschwierigkeiten c) Somatische Beeinträchtigungen. 33 3.2 Modellspezifikation (Hypothetisiertes Modell der BDI Struktur) Das postulierte Modell der BDI-Faktorenstruktur wurde in Bild 6 (s. M-S. 34) dargestellt. Das Strukturmodell in Bild 6 kann folgendermaßen interpretiert werden: Es enthält einen Faktor 2. Ordnung (F4: Depression) und drei Faktoren 1. Ordnung (F1: Negative Einstellung; F2: Leistungsschwierigkeiten; F3: Somatische Beeinträchti- gungen). Die Pfeile mit einer Pfeilspitze, die von dem Faktor 2. Ordnung (F4) zu den Faktoren 1. Ordnung führen (F4–F1; F4–F2; F4–F3) sind Regressionspfade, die die Vorhersage von Negativer Einstellung, Leistungsschwierigkeiten und Somatischen Beeinträchtigungen aus dem globalen Faktor Depression kennzeichnen. Mit anderen Worten gesagt, sie repräsentieren die Faktorladungen 2. Ordnung. Die Pfeile, die zu jedem Faktor 1. Ordnung führen (D1, D2, D3) repräsentieren den Residual-Fehler (oder Restwertfehler) bei der Vorhersage von F1, F2, F3 aus F4. Die Beschreibung des Meßmodells kann folgendermaßen lauten: Die Pfeile mit einer Pfeilspitze, die von jedem Faktor 1. Ordnung zu den Rechtecken führen (V1-F1, V2-F1 ,..., V19-F3 , V21-F3) sind Regressionspfade, die jeden Faktor mit der zu ihm gehörenden Menge von beobachteten Variablen („zu ihm gehörend, weil“: diese Variablen laden besonders stark auf diesem einen Faktor, die anderen Variablen schwächer) verbinden. Die Koeffizienten (V1-F1, V2-F1 ,..., V19-F3 , V21-F3) repräsentieren die Faktorladungen 1. Ordnung. Bild 6 postuliert z. B., daß die Items 16, 18, 19, und 21 auf den Faktor Somatische Beeinträchtigungen laden. Die in eine Richtung zeigenden Pfeile, die zu jedem Rechteck führen (E1–E21), stellen den Meßfehler, der mit den jeweils beobachteten Daten verbunden ist, dar. 34 Eine wichtige Auslassung in Bild 6 betrifft die Pfeile mit zwei Pfeilspitzen zwischen den Faktoren 1. Ordnung, wodurch normalerweise ihre Interkorrelation gekennzeichnet wird. Dies erfolgte deshalb, weil durch den Faktor 2. Ordnung alle Kovariationen zwischen den Faktoren 1. Ordnung erklärt werden und diese daher im Faktor 2. Ordnung bereits enthalten sind. Etwas formaler ausgedrückt, läßt sich das Bild 6 wie folgt beschreiben: Das CFA-Modell (Meßmodell) hypothetisiert a priori, daß 1. die Fragebogenantworten im BDI durch drei Faktoren 1. Ordnung und ein Faktor 2. Ordnung erklärt werden können, 2. jedes Item eine Nicht-Nulladung auf dem Faktor 1. Ordnung besitzt, der für das jeweilige Item entworfen wurde und eine Nulladung auf den jeweils anderen 2 Faktoren (z. B. Items 16, 18, 19, 21 besitzen eine Nicht-Nulladung auf ihrem Faktor 1. Ordnung, F3, aber eine Nulladung auf den Faktoren F1 und F2; Nulladung: Items laden nur sehr schwach auf diesen Faktor), Bild 7 Hypothetisiertes Modell zur Struktur der latenten Variablen im BDI 35 3. die Meßfehler, die mit jedem Item verbunden sind unkorreliert sind und 4. die Kovariation zwischen den Faktoren 1. Ordnung vollständig über ihre Regression durch den Faktor 2. Ordnung aufgeklärt werden. 3.3 Bewertung der Modellanpassung Die zentrale Funktion bei der Analyse eines Strukturgleichungsmodells kommt der Bewertung zu, in welchem Ausmaß das hypothetisierte Modell „paßt“ oder, anders ausgedrückt, eine adäquate Beschreibung der beobachteten Daten durch ein Modell wiedergegeben werden (vgl. Hu & Bentler, 1995). EQS gibt mehrere verschiedene Anpassungsindizes (Goodness-of-Fit-Indizes, GFI), die sowohl die statistische und praktische Anpassung des Modells als auch die Sparsamkeit des Modells bewerten (z. B. AIC, CAIC; vgl. M-S. 20). Zunächst liefert EQS eine ?2-Statistik für das hypothetisierte und das Unabhängigkeitsmodell (s. M-S. 20; argumentiert für vollständige Unabhängigkeit aller Variablen [in diesem Fall: Items] in dem Modell). Optional kann auch die Skalierte ?2-Statistik (Scaled ?2; Satorra & Bentler, 1988a,b) ausgegeben werden (s. M-S. 31). Diese Statistik enthält eine Skalen- korrektur für den Fall, wenn die N(0,1)-Annahme verletzt ist. 3.4 Vorbereitende Analysen Die vorbereitenden Analysen sind aus folgenden Gründen sehr wichtig für SEM: 1. Sie geben an, ob es Missing-Daten gibt und wenn ja, warum sind es Missing- Daten (s. M-S. 32). 2. Überprüfung der N(0,1)-Annahme. Die multivariate Normalverteilung der Daten ist aus dem Grunde so wichtig, weil Nichtnormalität der Daten zu tiefgreifend fehlerhaften Standardfehlern führen würde, die wiederum in einer übermäßig gesteigerten Anzahl von statistisch signifikanten Parametern resultieren würde (vgl. Muthén & Kaplan, 1985; West et al., 1995). 36 3. Letztendlich können alle Fälle, die hinsichtlich der multivariaten Kurtosis (Steigung) Extremwerte darstellen, zu einer verschlechterten Modell- anpassung führen. Aus den genannten Gründen ist es wichtig, die Ausreißer vor dem Beginn der eigentlichen Analyse zu identifizieren und von der Analyse auszuschließen. 3.4.1 Prüfen der Stichprobenstatistik Wenn Rohwerte als Ausgangswerte genutzt werden, so gibt EQS automatisch sowohl eine univariate als auch verschiedene multivariate Stichprobenstatistiken an. Weitere Klärung können verschiedene graphische Darstellungen geben, die nunmehr in EQS für Windows (Bentler & Wu, 1993) verfügbar sind. • Die univariaten Statistiken geben den Mittelwert, die Standardabweichung, die Schiefe und die Kurtosis der Verteilung an. Wie durch fühere Forschungsarbeiten auf diesem Gebiet erwartet, haben sich für manche Items verschiedene Schiefewerte ergeben (Byrne & Baron, 1993, 1994; Byrne, Baron & Campbell, 1993, 1994; Byrne et al., 1993a,b). Die Werte variierten für die männlichen Probanden im Bereich von 0.19 bis 39.40 (M= 4.93) und für die weiblichen Probanden im Bereich von 0.15 bis 10.43 (M= 1.42). • Die multivariaten Statistiken, die von EQS ausgegeben werden, repräsentieren Varianten von Mardias (1970) Koeffizienten der multivariaten Kurtosis. Zwei der angebenen Werte beziehen sich auf die N(0,1)-Theorie und zwei auf die „nonparametrische“ Theorie. Für männliche Probanden betrug Mardias Koeffizient 68.51 und für die weiblichen Probanden betrug er 39.49. Sowohl für die männlichen als auch die weiblichen Probanden waren die meisten Itemwerte normalverteilt, so daß große Werte eine statistische Signifikanz kennzeichnen. Bis zu diesem Punkt ist EQS einfach (oder univariat) in seiner Fähigkeit multivariate Ausreißer zu kennzeichnen. Das Programm gibt automatisch die 5 Fälle aus, die 37 am stärksten zu Mardias multivariaten Kurtosis-Koeffizient beitragen. Ein Ausreißer kann nun über seinen Schätzwert im Vergleich zu den anderen 4 Schätzwerten erkannt werden. Es existiert jedoch kein absoluter Wert für diese zu treffende Entscheidung. Ferner ist es möglich, daß sich unter diesen 5 Fällen überhaupt kein Ausreißer befindet. 3.4.2 Behandlung der Nichtnormalität Die Itemwerte für männliche und weibliche Jugendliche waren größtenteils normalverteilt. Mit einem klassischem ?2-Prüfwert wurde diese Aussage getestet. 3.5 Testen des hypothetisierten Modells Eine Übersicht zu den errechneten Anpassungsindizes wurde in Tabelle 1 und Tabelle 2 (s. M-S. 38) zusammengestellt. Die Resulate wurden sowohl für die Analysen, für die die Nichtnormalität in die Berechnung der Daten einbezogen wurde dargestellt, als auch für jene Analysen, die eine N(0,1) unterstellt oder angenommen haben. Für sämtliche Analysen wurde die Maximum-Likelihood-Schätzung verwendet. Obgleich das zugrundeliegende Muster das gleiche ist, lagen die Werte des ?2 (als Messung der schlechten Anpassung, Badness-of-Fit) und des CFI (als Messung der guten Anpassung, Goodness-of-Fit) überverhältnismäßig hoch. Eine mögliche Erklärung dafür kann sein, daß aus einer hochgradigen Miß-Spezifizierung des Unabhängigkeitsmodells ein hoher ?2-Wert resultierte. Dieses würde natürlich auch zu einem übermäßigen CFI führen. Die Interpretation der Befunde müßte sich in diesem Falle auf die Maximum-Likelihood-Schätzung und den CFI beschränken. Aus dem CFI in Tabelle 1 läßt sich ersehen, daß das anfänglich hypothetisierte Modell der BDI-Struktur für die männlichen Probanden eine recht gute Anpassung ausweist. Aus Tabelle 2 (s. S. 38) kann gelesen werden, daß für die weiblichen Probanden das gleiche Modell jedoch eher als unakzeptabel anzusehen ist. Für die Werte der männlichen Probanden sollen im folgenden zwei Aspekte der Modellanpassung näher beleuchtet werden: 1. das Durchführen der Schätzung und 2. ihre statistische Signifikanz. 38 Annahme der Nicht-Normalverteilung Normalverteilungsannahme Modell df skaliertes ?2 CFI df ?2 CFI Null 210 906.13 ___ 210 NA* ___ Hypothetisiert 187 224.62 .95 187 306.50 .92 Tabelle 1 Zusammenfassung der Anpassungsstatistik für männliche Jugendliche * NA: Nicht anwendbar Annahme der Nicht-Normalverteilung Normalverteilungsannahme Modell df skaliertes ?2 CFI df ?2 CFI Null 210 1136.75 ___ 210 NA* ___ Hypothetisiert 187 266.66 .91 187 340.16 .88 Modell 1** 186 NA* NA* 186 NA NA Modell 2*** 185 235.33 .95 185 296.07 .92 Modell 3**** 186 236.52 .95 186 297.69 .92 Tabelle 2 Zusammenfassung der Anpassungsstatistik für weibliche Jugendliche * NA: Nicht anwendbar ** mit Kovarianz zwischen Items 20 und 21 *** mit Item 20 gleichzeitiger Ladung auf F1 **** Modell mit Item 20, daß auf F1 statt auf F2 lädt 3.5.1 Durchführen der Parameterschätzung Der erste Schritt beim Beurteilen der Anpassung der einzelnen Parameter stellt die Bestimmung der Plausibilität von ihren Schätzwerten dar. Wenn irgendeine Schätzung außerhalb des zugelassenen Bereiches fällt, kann dies ein Signal dafür sein, daß das Modell die Beobachtungsdaten unzureichend abbildet oder in der Ausgangsmatrix bereits an Informationsmangel vorliegt. Beispiele für Parameter, die ungenügende Schätzungen darstellen, sind: a) Korrelationen > 1.0 b) Standardfehler, die außergewöhnlich groß oder klein sind (ein Standardfehler der zu klein ist, resultiert in der Regel aus der linearen Abhängigkeit der betreffenden Parametern mit einigen der übrigen Modellparameter; diese Situation würde das Testen der Schätzung auf statistische Signifikanz unmöglich machen!) c) negative Varianz 39 3.5.2 Statistische Signifikanz der Parameterschätzung Die Teststatistik, die vom EQS-Programm an dieser Stelle des Algorithmus dargestellt wird, zeigt die Parameterschätzung geteilt durch ihren Standardfehler. In dieser Form operiert diese Teststatistik als z-Statistik (N[0,1], d. h. M=0, s=1), mit der getestet wird, ob die Schätzung tatsächlich von Null unterschieden ist. Basierend auf einem ?-Level (Irrtumswahrscheinlich- keit) von 0.5, muß der Prüfwert für die Signifikanz der Schätzung dann größer sein als 1.96, bevor die Nullhypothese (H0: Schätzung = 0) abgelehnt werden kann. Sofern eine robuste Statistik in EQS angefordert wird (z. B. Skaliertes ?2), finden sich in der Ergebnispräsentation Werte für die originale und für die korrigierte ?2-Statistik. 3.6 Generalisierung und Modellmodifikation Im EQS-Programm wird für diese Reanalyse der Lagrange Multiplier Test (LMT) als multivariater Ansatz verwendet. Eine Überprüfung der multivariaten LM-?2-Werte in bezug auf das anfänglich hypothetisierte Modell für weiblich Jugendliche läßt eine wesentliche Verbesserung der Modellanpassung erkennen. Da für Item 20 eine Kreuzladung auf F1 festgestellt wurde (d. h. Item 20 lädt gut auf F2 und gut auf F1), wurde das Modell zusätzlich re-parametrisiert (d. h. es wurde durch diese beiden Parameter ergänzt) und in dieser Form re-geschätzt. Als Konsequenz dieser Re- Spezifizierung resultiert das Modell 3 (Tab. 2, s. S. 38). Um zusätzlich beurteilen zu können, in welchem Ausmaß jedes dieser neu spezifizierten Modelle eine Verbesserung gegenüber dem jeweils früheren darstellt, kann die Differnez der ?2-Werte von zwei „nested“ (verzahnten) Modellen errechnet werden (??2). Diese Unterschiedswerte sind wiederum ?2-verteilt mit FG= Differenz der FG und kann somit statistisch getestet werden. Ein signifikantes ??2 zeigt eine wesentliche Verbesserung der Modellanpassung an. Wie in Tabelle 2 augenscheinlich wird, trägt die Einbeziehung der genannten 2 Parameter zu einer wesentlichen Verbesserung der Modellanpassung bei (Modell 2-Modell 1: ? skaliertes ?2 = 31.33, ? CFI= 0.4; Tab.2, s. S.38). Bei einer weiteren Prüfung der Parameterschätzung wird offenbar, daß die ursprüngliche Ladung von Item 20 auf F1 nicht signifikant ist. Mit Interesse auf Sparsamkeit wurde dieser Parameter (F1) entfernt, woraus sich das Modell 4 ergibt. Modell 4 stellt nun eine exzellente Anpassung des Modells an die beobachteten Daten für weibliche Jugendliche dar (vgl. Byrne et al., 1993). 40 3.7 Testen der Invarianz über das Geschlecht hinweg Nachdem nun ein Baseline-Modell für jede Geschlechtergruppe bestimmt wurde, wurde in den weiteren Analysen die Äquivalenz über männliche und weibliche Jugendliche hinweg getestet. Abgesehen von den differentiellen Ladungsmustern des Items 20 könnte per Augenschein bereits schnell geschlossen werden, daß der BDI über das Geschlecht hinweg faktoriell äquivalent ist. Eine derartige Schlußfolgerung wäre allerdings etwas verfrüht, denn ein ähnlich spezifiziertes Modell garantiert nicht die Äquivalenz der Itemmengen und der zugrunde- liegenden theoretischen Struktur. Die diesbezüglichen Hypothesen müssen in einer simultanen Analyse für beide Gruppen statistisch getestet werden. Da mittlerweile bekannt ist, daß – mit Priorität auf das Testen der Kreuz-Gruppeninvarianz – Item 20 von männlichen und weiblichen Jugendlichen scheinbar verschieden wahrgenommen wurde, wird die Faktorladung für dieses Item über das Geschlecht hinweg nicht gleich sein. Im Rahmen des EQS-Programms kann die Invarianz für die Faktorladungen 1. und 2. Ordnung simultan getestet werden. Dieses Vorgehen ist auf 2 Wegen möglich: 1. mit dem LMT wird die Äquivalenzbeschränkung bewertet oder 2. das Feststellen von schlecht spezifizierten Beschränkungen ist erleichtert durch die Angabe von Wahrscheinlichkeitswerten, die mit der LM-?2- Statistik für jeden Parameter (oder Variablen) verbunden sind. Eine Durchsicht dieser Statistiken läßt 4 Beschränkungen erkennen, die unhaltbar sind. Wahrscheinlichkeitswerte, die kleinere Werte als 0,5 annahmen, waren mit den Items 8, 10, 12 und 18 verbunden. Daher wird argumentiert, daß sich diese Items nichtäquivalent über das Geschlecht hinweg verhalten. Die Irrtumswahrscheinlichkeit (Fehler 1. Art, s. M-S. 25) wurde in dem vorgestellten Fall auf 0,5 (50 %) gesetzt. Da dem hier errechneten ?2-Wert eine Überschreitungswahrscheinlichkeit von ca. 54 % zugeordnet werden kann, lautet die Aussage somit: eine Ablehnung des Modells würde mit einer Wahrscheinlichkeit von ca. 54% eine Fehlentscheidung darstellen. Von Lienert (1989) wurde für ein p > 0,5 (50%) eine gute Anpassung der theoretischen an die empirische Verteilung ausgewiesen (vgl. auch Clauß & Ebner, 1989, S. 218). 41 4. Zusammenfassung Auf der Grundlage eines Datensatzes und eines hypothetisierten Modells hat dieses Kapitel ein Beispiel für die EQS-Strategie beim Testen einer invarianten Faktorenstruktur 2. Ordnung über die Gruppen hinweg erläutert. Die Schwerpunkte wurden folgendermaßen gesetzt: a) Ansatz zur einleitenden (vorbereitenden) Datenanalyse und dazugehörige Informationen, b) Behandlung der Daten, die die Normalverteilungsannahme verletzen, c) Einschätzung der Modellanpassung insgesamt, d) Kennzeichnung der ungünstig spezifizierten Parameter (Mißspezifikation), e) Post-Hoc-Modell-Anpassung f) Tests für die Mehrgruppen-Invarianz. Eine praktische Anwendung von SEM für kleine Stichprobengrößen ist das skalierte ?2, welches von EQS errechnet wird. Mit Hilfe dieses korrigierten ?2-Wertes scheint insbesondere dann eine wesentliche günstigere Messung der Modellanpassung möglich zu sein, wenn die Daten von der Normalverteilungsannahme abweichen. 42 5. Literaturverzeichnis Aiken, L. S., Stein, J. A. & Bentler, P. M. (1994). Structural Equation Analysis of clinical subpopulation differences and comparative treatment outcomes: characterizing the daily lives of drug addicts. Journal of Counseling and Clinical Psychology, 62 (3), 488–499. Akaike, H. (1987). Factor analysis and AIC. Psychometrika, 52, 317–332. Backhaus, K., Erichson, B., Plinke, W. & Weiber, R. (1996). Multivariate Analysemethoden: Eine anwendungsorientierte Einführung. Berlin [u.a.]: Springer. Beck, A. T., Ward, C. H., Mendelson, M., Mock, J. & Erbaugh, J. (1961). An inventory for measuring depression. Archives of General Psychiatry, 4, 561–571. Bentler, P. M. (1992a). EQS structural equations program manual. Los Angeles: BMDP Statistical Software. Bentler, P. M. (1992b). On the fit of models to covariances and methodology to the Bulletin. Psychological Bulletin, 112, 400–404. Bentler, P. M. (1990a). Comparative fit indexes in structural models. Psychological Bulletin, 107 (2), 238–246. Bentler, P. M. (1990b). Fit indexes, Lagrange Multipliers, constraint changes, and incomplete data in structural models. Multivariate Behavioral Research, 25, 163–172. Bentler, P. M. & Bonett, D. G. (1980). Significance tests and goodness-of-fit in the analysis of covariance structures. Psychological Bulletin, 88, 588–606. Bentler, P. M. & Wu, E. J. C. (1993). EQS/Windows user’s guide. Los Angeles: BMDP Statistical Software. Bentler, P. M., Wu, E. J. C. & Houck, E. L. (1996). Graphische Umgebungen für Kausalmodelle. In E. Erdfelder, R. Mausfeld, T. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S. 269–278). Weinheim: Psychologie Verlags-Union. Biddle, B. J. & Marlin, M. M. (1987). Causality, confirmation, credulity, and structural equation modeling. Child Development, 58, 4–17. Bollen, K. A. (1990). Overall fit in covariance structure models: two types of sample size effects. Psychological Bulletin, 107, 256–259. Bollen, K. A. (1989). Structural equations with latent variables. New York: Wiley. Bollen, K. A. & Long, J. S. (Eds.). (1993). Testing Structural Equation Models. Newbury Park [u.a.]: Sage. Bortz, J. (1993). Statistik für Sozialwissenschaftler (4. Aufl.). Berlin [u.a.]: Springer. Bozdogan, H. (1987). Model selection and Akaike’s information criteria (AIC): the general theory and ist analytical extensions. Psychometrika, 52, 345–370. Breckler, S. J. (1990). Application of covariance structure modeling in psychology: cause for concern? Psychological Bulletin, 107, 260-273. Browne, M. W. (1982). Covariance structures. In D. M. Hawkins (Ed.), Topics in multivariate analysis (pp. 72–141). Cambridge, UK: Cambridge University. Browne, M. W. (1984). Asymptotically distribution-free methods for the analysis of covariance structures. British Journal of Mathematics and Statistical Psychology, 37, 62–83. 43 Byrne, B. M. (1994). Structural equation modeling with EQS and EQS for Windows: basic concepts, applications and programming. Newbury Park, CA: Sage. Byrne, B. M. (1995). One application of Structural Equation Modeling from two perspectives: exploring the EQS and LISREL strategies. In . In R. H. Hoyle (Ed.), Structural Equation Modeling: concepts, issues, and applications (pp. 138–157). Thousand Oaks [u.a.]: Sage. Byrne, B. M. & Baron, P. (1993). The Beck Depression Inventory: testing and crossvalidating an hierarchical structure for nonclinical adolescents. Measurement and Evaluation in Counseling and Development, 26, 164–178. Byrne, B. M. & Baron, P. (1994). Measuring adolescent depression: tests of equivalent factorial structure for English and French versions of the Beck Depression Inventory. Applied Psychology: An International Review, 43, 33–47. Byrne, B. M., Baron, P. & Campbell, T. L. (1993). Measuring adolescent depression: factorial validity and invariance of the Beck Depression Inventory across gender. Journal of Research on Adolescence, 3, 127–143. Byrne, B. M., Baron, P. & Campbell, T. L. (1994). The Beck Depression Inventory (French version): Testing for gender-invariant factorial structure for nonclinical adolescents. Journal of Adolescent Research, 9, 166–179. Chou, C.-P. & Bentler, P. M. (1995). Estimates and tests in Structural Equation Modeling. In R. H. Hoyle (Ed.), Structural Equation Modeling: concepts, issues, and applications (pp. 37–55). Thousand Oaks [u.a.]: Sage. Chou, C.-P., Bentler, P. M. & Satorra, A. (1991). Scaled test statistics and robust standard errors for non-normal data in covariance structure analysis: A Monte Carlo study. British Journal of Mathematical and Statistical Psychology, 44, 347–357. Clauß, G. & Ebner, H. (1989). Statistik für Soziologen, Pädagogen, Psychologen und Mediziner (6. unveränd. Aufl.). Thun & Frankfurt a. Main: Deutsch. Cliff, N. (1983). Some cautions concerning the application of causal modeling methods. Multivariate Behavioral Research, 18, 115–126. Cudeck, R. (1989). Analysis of correlation matrices using covariance structure models. Psychological Bulletin, 105, 317–327. Cudeck, R. & Henley, S. J. (1991). Model selection in covariance structures analysis and the “problem” of sample size: a clarification. Psychological Bulletin, 109, 512–519. Freedman, D. A. (1987). As others see us: A case study in path analysis. Journal of Educational Statistics, 12, 101–128. Hoyle, R. H. (1995). The Structural Equation Modeling approach: basic concepts and fundamental issues. In . In R. H. Hoyle (Ed.), Structural Equation Modeling: concepts, issues, and applications (pp. 1–15). Thousand Oaks [u.a.]: Sage. Hoyle, R. H. (1994). Introduction to the special section: structural equation modeling in clinical research. Journal of Counseling and Clinical Psychology, 62, 427–428. Hoyle, R. H. & Panter, A. T. (1995). Writing about structural equation models. In R. H. Hoyle (Ed.), Structural Equation Modeling: concepts, issues, and applications (pp. 158–176). Thousand Oaks [u.a.]: Sage. Hu, L.-T. & Bentler, P. M. (1995). Evaluating model fit. In . In R. H. Hoyle (Ed.), Structural Equation Modeling: concepts, issues, and applications (pp. 76–99). Thousand Oaks [u.a.]: Sage. 44 Hu, L.-T. & Bentler, P. M. (1993). Fit indexes in covariance structural equation modeling.Unpublished manuscript. Hu, L.-T., Bentler, P. M. & Kano, Y. (1992). Can test statistics in covariance structure analysis be trusted? Psychological Bulletin, 112, 351–362. Jöreskog, K. G. (1973). A general method for estimating a linear structural equation system. In A. S. Goldgerber, & O. D. Duncan (Eds.), Structural equation models in the social sciences (pp. 85– 112). New York: Academic. Jöreskog, K. G. & Sörbom, D. (1993). LISREL 8: structural equation modeling with the SIMPLIS command language. Hillsdale, NJ: Erlbaum. Keesling, J. W. (1972). Maximum likelihood approaches to causal analysis. Unpublished doctoral dissertation, University of Chicago. Klauer, K. C. (1996). Parameterschätzung. In E. Erdfelder, R. Mausfeld, T. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S. 99–107). Weinheim: Beltz. Lienert, G. A. (1989). Testaufbau und Testanalyse. Weinheim: Beltz. MacCallum, R. C. (1995). Model specification: procedures, strategies, and related issues. In . In R. H. Hoyle (Ed.), Structural Equation Modeling: concepts, issues, and applications (pp. 16–36). Thousand Oaks [u.a.]: Sage. MacCallum, R. C., Roznowski, M. & Necowitz, L. B. (1992). Model modifications in covariance structure analysis: the problem of capitalization of chance. Psychological Bulletin, 111, 490– 504. Mardia, K. V. (1970). Measures of multivariate skewness and kurtosis with applications. Biometrika, 57, 519–520. Marsh, H. W., Balla, J. R. & McDonald, R. P. (1988). Goodness-of-fit indexes in confirmatory factor analysis: the effect of sample size. Psychological Bulletin, 103, 391–411. Martin, J. A. (1987). Structural equation modeling: a guide for the perplexed. Child Development, 58, 33–37. Micceri, T. (1989). The unicorn, the normal curve, and other improbable creatures. Psychological Bulletin, 105, 156–166. Mulaik, S. A. & James, L. R. (1995). Objectivity and reasoning in science and structural equation modeling. In R. H. Hoyle (Ed.), Structural Equation Modeling: concepts, issues, and applications (pp. 118–137). Thousand Oaks [u.a.]: Sage. Muthén, B. & Kaplan, D. (1992). A comparison of methodologies for the factor analysis of non-normal Likert variables. British Journal of Mathematical and Statistical Psychology, 38, 171–189. Newcomb, M. D. & Bentler, P. M. (1987). The impact of late adolescent substance use on young adult health status and utilization of health services: a structural equation model over four years. Social Science & Medicine, 24, 71–82. Raykov, R., Tomer, A. & Nesselroade, J. R. (1991). Reporting structural equation modeling results in Psychology and Aging: some proposed guidelines. Psychology and Aging, 6, 499–503. Reis, H. T. & Stiller, J. (1992). Publication trends in JPSP: a three-decade review. Personality and Social Psychology Bulletin, 18, 465–472. Satorra, A. & Bentler, P. M. (1988a). Scaling corrections for chi-square statistics in covariance structure analysis. Proceedings of the Business and Economics Sections (pp. 308–313). Alexandria, VA: American Statistical Association. Satorra, A. & Bentler, P. M. (1988b). Scaling corrections for statistics in covariance structure analysis (UCLA Statistics Series 2). Los Angeles: University of California, Department of 45 Psychology. Tanaka, J. S. (1993). Multifaceted conceptions of fit in structural equation models. In K. A. Bollen & J. S. Long (Eds.), Testing structural equation models (pp. 10–39). Newbury Park, CA: Sage. Tucker, L. R. & Lewis, C. (1973). A reliability coefficient for maximum likelihood factor analysis. Psychometrika, 38, 1–10. West, S. G., Finch, J. F. & Curran, P. J. (1995). Structural equation models with nonnormal variables: problems and remedies. In R. H. Hoyle (Ed.), Structural Equation Modeling: concepts, issues, and applications (pp. 16–36). Thousand Oaks [u.a.]: Sage. Wiley, D. E. (1973). The identification problem for structural equation models with unmeasured variables. In A. S. Goldberger & O. D. Duncan (Eds.), Structural equation models in the social sciences (pp. 69–83). New York: Academic. Yung, Y. F. & Bentler, P. M. (1994). Bootstrap-corrected ADF test statistics in covariance structure analysis. British Journal of Mathematical and Statistical Psychology, 47, 63–84.