Zusammenfassung: Multivariate Datenanalyse mit R (2. Aufl., 2023)

Das Einführungskapitel soll (a) einen Überblick über die im Buch behandelten Verfahren geben und (b) kurz skizzieren, welches Vorwissen dieses Buch voraussetzt. Wir geben einen kurzen „Auffrischungskurs“ für einige wichtige, im Weiteren vorausgesetzte Begriffe. Diese Informationen sind vermutlich zu komprimiert, um die entsprechenden Begriffe hierdurch erstmals zu lernen. Der Leser möge also seine innere Reaktion (entweder „Ah ja, ich erinnere mich ...“ oder „Wie bitte?“) als Indikator dafür nehmen, ob sie oder er sich zunächst an anderer Stelle (s. unsere Literaturangaben am Ende des Kapitels) in diese Grundlagen einarbeitet.

zurück zur Inhaltsübersicht

Kapitel 2: Lineare Regression

Das „Was man wissen sollte“-Kapitel wird mit der bivariaten linearen Regression fortgesetzt. Auch diese gehört typischerweise zur Grundausbildung in Statistik. Da diese Methode aber im Kapitel 3 direkt zur multiplen Regression erweitert wird, wird die bivariate lineare Regression ausführlicher wiederholt und bildet daher ein eigenes Kapitel. Bei der bivariaten linearen Regression wird eine Kriteriumsvariable Y auf die Prädiktorvariable X „zurückgeführt“, indem die beste lineare Gleichung gesucht wird, die Y und X in Beziehung setzt.

zurück zur Inhaltsübersicht

Kapitel 3: Multiple Regression

Die Erweiterung der einfachen bivariaten zur multiplen Regression ist denkbar einfach. Die Kriteriumsvariable wird jetzt auf eine Linearkombination aus mehreren Prädiktorvariablen zurückgeführt. Die multiple Regression hat einige bemerkenswerte Eigenschaften, die nacheinander beschrieben werden sollen. Insbesondere lässt sich die Nutzung der multiplen Regression anhand dreier typischer Ziele von Anwendern einführen: (1) Die angemessene Prüfung orthogonaler Prädiktoren; (2) die bessere Vorhersage des Kriteriums; (3) die angemessene Prüfung korrelierter Prädiktoren.

zurück zur Inhaltsübersicht

Kapitel 4: Erweiterungen der Multiplen Regression

In diesem Kapitel soll es um einige wichtige Sonderfälle der Anwendung der multiplen Regression gehen. Es wird erläutert, wie man die multiple Regression nutzen kann, um nichtlineare Zusammenhänge zu testen und wie man sie nutzen kann, um Veränderung vorherzusagen. Im letzten Teil wird ein neues Verfahren eingeführt, die binäre logistische Regression, das man analog zur multiplen Regression nutzen kann, wenn das Kriterium nominalskaliert ist (wenn also zum Beispiel eine Wahl – Biden vs. Trump –, eine Gruppenzugehörigkeit – Vegetarier oder kein Vegetarier – oder ein Ereignis – Rückfall nach einer Suchttherapie, ja/nein – vorhergesagt werden soll).

zurück zur Inhaltsübersicht

Kapitel 5: Mediator- und Moderatoranalysen

Zwei besonders wichtige Spezialfälle der Anwendung der multiplen Regression sind Mediator- und Moderatoranalysen. Von Mediatoranalysen sprechen wir, wenn wir prüfen wollen, ob die Vorhersage eines Kriteriums durch einen Prädiktor durch eine dritte Variable, die Mediatorvariable, vermittelt ist: Theoretisch unterstellt man hier also einen Kausalpfad. Von Moderatoranalysen sprechen wir, wenn die Vorhersage eines Kriteriums durch einen Prädiktor in ihrem Ausmaß von einer dritten Variable, der Moderatorvariable, abhängt: Zum Beispiel könnte man vermuten, dass ein positiver Zusammenhang zwischen Kriterium und Prädiktor nur bei hohen Werten des Moderators vorliegt. Die Moderation in der Regressionsanalyse entspricht somit dem Konzept der Interaktion in der Varianzanalyse.

zurück zur Inhaltsübersicht

Kapitel 6: Varianzanalyse, regressionsstatistisch betrachtet

In diesem Kapitel werden einige Zusammenhänge zwischen varianz- und regressionsanalytischen Verfahren in Grafiken und Berechnungsbeispielen erläutert. Letztlich wird gezeigt, dass varianzanalytische Methoden vollständig in regressionsanalytischen Verfahren aufgehen. Die adäquate Kodierung von nominal-skalierten Prädiktoren ist ein wichtiges Werkzeug, um beliebige Mengen von intervall- und nominal-skalierten Prädiktoren einzusetzen.

zurück zur Inhaltsübersicht

Kapitel 7: Hierarchische Lineare Modelle

In den letzten Jahren sind statistische Verfahren bedeutsam geworden, die unter den Namen Hierarchische Lineare Modelle, multi-level modeling oder mixed models eingeführt wurden. Obschon diese Verfahren einige neue Komplexitäten mit sich bringen, so ist der Grundgedanke recht einfach. Es geht um folgendes Problem: Angenommen, Sie suchen nach Prädiktoren für Schulerfolg in Mathematik. Sie erheben bei einer großen Stichprobe von Schülern aus vielen Schulklassen eine Reihe von Variablen (z.B. Intelligenz, Motivation). Es wäre unangemessen, einfach eine multiple Regression zu rechnen, bei der die Mathematikleistung auf die Prädiktoren regrediert würde, da die Schüler nicht unabhängige Zufallsziehungen darstellen: Die Schüler sind jeweils Teil einer Klasse mit den dazugehörigen Merkmalen (z.B. der Lehrer, die Unterrichtsmethode). Zudem können Niveauunterschiede zwischen den Klassen bestehen, die nichts mit der Fragestellung und der mutmaßlichen Prädiktorvariable zu tun haben. Hierarchische Lineare Modelle sind die adäquaten Verfahren, um hierfür Rechnung zu tragen.

zurück zur Inhaltsübersicht

Kapitel 8: Multivariate Analysen

In den bisherigen Kapiteln wurde in allen Analysen nur eine abhängige Variable untersucht. In vielen Kontexten beziehen sich die Hypothesen jedoch gleich auf ein Bündel von abhängigen Variablen. Im Folgenden soll immer von mehreren abhängigen Variablen die Rede sein. Jede Fragestellung, die auf den Spezialfall einer abhängigen Variablen bezogen werden kann, kann auf den generellen, multivariaten Fall übertragen werden. Im Rahmen dieses Kapitels wird auch die Kanonische Korrelationsanalyse eingeführt, ein Verfahren, bei dem zwei Mengen von Variablen aufeinander bezogen werden. (Die in einem späteren Kapitel erläuterte Diskriminanzanalyse ist eine Anwendung der Kanonischen Korrelationsanalyse.)

zurück zur Inhaltsübersicht

Kapitel 9: Multivariate Behandlung von Messwiederholungsplänen

Eine der wichtigsten Anwendungen der multivariaten Analyse von Daten liegt in der angemesseneren Auswertung von Messwiederholungsplänen. Die Auswertungsfragestellung bei mehr als zweigestuften Messwiederholungsfaktoren lässt sich auf zwei Arten beschreiben. Neben der „klassischen“ varianzanalytischen Auswertungsstrategie, lässt sich das Auswertungsproblem auch als Generalisierung der (abhängigen) t-Test-Fragestellung ansehen. Dort fragen wir uns, ob der Mittelwert der Differenz zweier Faktorstufen-Variablen signifikant von Null verschieden ist. Was ist nun, wenn eine dritte Faktorstufe hinzukommt? Ein Vorschlag zur Lösung ist: Bilde aus den drei Faktorstufen-Variablen zwei Differenzvariablen. Die inferenzstatistische Frage kann jetzt so formuliert werden: Ist der Vektor der Mittelwerte der Differenzvariablen signifikant vom Null-Vektor verschieden?

zurück zur Inhaltsübersicht

Kapitel 10: Diskriminanzanalyse und multinomiale logistische Regression

Mit Diskriminanzanalyse und multinomialer logistischer Regression wenden wir uns zwei Verfahren zu, die als Ziel haben, die Gruppenzugehörigkeit von Fällen vorherzusagen: Kann man klinisch-psychologische Kategorisierungen durch Maße der Informationsverarbeitung (Aufmerksamkeitsbiases für negative Informationen, Fähigkeit zur Hemmung aufgaben-irrelevanter Informationen etc.) prädizieren? Lässt sich die Wahl einer Marke beim Autokauf aufgrund von relevanten Einstellungen (Bedeutung von Fahrsicherheit, Bedeutung von Fahrvergnügen, Einstellung zu Autos als Prestigeobjekt etc.) vorhersagen? Kann man Typen von Lernstörungen (z.B. Probleme mit Schreiben und Lesen, Probleme mit Zahlen) im Grundschulalter durch Ergebnisse von Entwicklungstests vorhersagen, die im Kleinkindalter erhoben wurden. Es werden zwei Verfahren für diese Klassifizierungsfragestellungen vorgestellt: Zum einen der „Klassiker“, die Diskriminanzanalyse, die direkt auf den Verfahren aufbaut, die wir in den letzten Kapiteln kennengelernt haben. Zum anderen die multinomiale logistischer Regression, die eine Erweiterung der binären logistischen Regression darstellt.

zurück zur Inhaltsübersicht

Kapitel 11: Exploratorische Faktorenanalyse und Skalenanalyse

Bislang wurden bei vielen der Beispielanalysen aggregierte Daten verwendet, etwa die Summe über eine Vielzahl von Fragebogen-Items. Tatsächlich ist die psychologische Forschung aus messtheoretischen Gründen sehr stark auf das Aggregationsprinzip angewiesen: Eine einzelne Variable (z.B. ein einzelnes Item in einem Fragebogen) ist in der Regel zu stark fehlerbelastet, um ein reliabler Indikator für ein bestimmtes latentes Konstrukt zu sein; daher werden viele einzelne Indikatoren zusammengefasst, um eine verlässlichere Messung zu erhalten. Das methodische Instrument, welches häufig bei der Generierung neuer Messverfahren eingesetzt wird, ist die exploratorische Faktorenanalyse. Die Methode wird dazu eingesetzt, um (a) die Anzahl der „Quellen“ gemeinsamer Varianz abzuschätzen, (b) eine Gruppierung der Items zu erreichen und (c) den Anteil der gemeinsamen Varianz an der Gesamtvarianz der Items zu berechnen.

zurück zur Inhaltsübersicht

Kapitel 12: Clusteranalyse

Clusteranalysen stellen eine Verfahrensgruppe dar, mit denen sich Personen oder Objekte anhand empirischer Daten zu möglichst ähnlichen Teilmengen (Clustern) zusammenfassen lassen. Zum Beispiel könnten Personen mit einem Fragebogen nach ihren Urlaubspräferenzen befragt werden (Wie wichtig ist Ihnen: … Faulenzen? .. ein schöner Strand? … etwas zu erleben? … Ruhe und Entspannung? … usw. auf einer Skala von 0 [völlig unwichtig] bis 5 [sehr wichtig]). Mit der Clusteranalyse würde man versuchen herauszufinden, ob es Gruppen (Cluster) von Personen gibt, deren Bewertungsprofile hinreichend ähnlich zueinander, aber unähnlich zu anderen Clustern ist, so dass man eventuell als Ergebnis eine Art Urlaubertypologie erhält.

zurück zur Inhaltsübersicht

Kapitel 13: Multidimensionale Skalierung

Bei der Multidimensionalen Skalierung (MDS) werden Reaktionen (wie Wahrnehmung oder Beurteilung) von Probanden auf bestimmte vorgegebene Stimuli (oder Objekte) erhoben. Der Wahrnehmungs- oder Beurteilungsprozess wird dabei als eine Abbildung der Stimuli in einem mehrdimensionalen Raum betrachtet (z.B. ein Produkt, das in Bezug auf seine Wertigkeit, sein Image und seinen Preis eingeschätzt wird). Einerseits kann damit betrachtet werden, welche Stimuli von den Probanden als dicht beieinander liegend (d.h. ähnlich bezüglich einer Dimension) eingeschätzt werden, andererseits kann versucht werden, Informationen über die Dimensionen dieses Raumes zu gewinnen, die Eigenschaften repräsentieren sollen, welche die Probanden bei ihren Reaktionen auf die Stimuli zugrunde legen

zurück zur Inhaltsübersicht

Kapitel 14: Strukturgleichungsmodelle

In diesem Kapitel sollen Strukturgleichungsmodelle (Structural Equation Models; SEM) als umfassender statistischer Ansatz zur Hypothesentestung vorgestellt werden, mit denen sich Beziehungen zwischen manifesten (beobachteten/gemessenen) und latenten (nicht-beobachtbaren/konstruierten) Variablen analysieren lassen. Bei den Konstruktionsschritten wird der Aufbau eines Struktur- von einem Messmodell unterschieden, gefolgt von der anschließenden Identifikation der Modellstruktur bis hin zu den Parameterschätzungen und der Beurteilung der Modellschätzungen.

zurück zur Inhaltsübersicht

Zusammenfassung: Multivariate Datenanalyse mit R (2. Aufl., 2023)

Inhaltsübersicht

Kapitel 1: Einführung

Kapitel 2: Lineare Regression

Kapitel 3: Multiple Regression

Kapitel 4: Erweiterungen der Multiplen Regression

Kapitel 5: Mediator- und Moderatoranalysen

Kapitel 6: Varianzanalyse, regressionsstatistisch betrachtet

Kapitel 7: Hierarchische Lineare Modelle

Kapitel 8: Multivariate Analysen

Kapitel 9: Multivariate Behandlung von Messwiederholungsplänen

Kapitel 10: Diskriminanzanalyse und multinomiale logistische Regression

Kapitel 11: Exploratorische Faktorenanalyse und Skalenanalyse

Kapitel 12: Clusteranalyse

Kapitel 13: Multidimensionale Skalierung

Kapitel 14: Strukturgleichungsmodelle

Tags