Ghostwriting-Service Dr. Rainer Hastedt

Fachtexte, White Papers, statistische Auswertungen

Statistik-Service

Ich übernehme statistische Auswertungen und Vorarbeiten für statistische Untersuchungen, zum Beispiel einen Fragebogen entwickeln, die Stichprobengröße planen oder Untersuchungsmethoden vorschlagen.

Zu meinem Arbeitsgebiet gehören insbesondere:

  • Deskriptive Auswertungen
  • Mittelwert- und Medianvergleiche
  • Zeitreihenanalyse
  • Multiple lineare Regression
  • Logistische Regression
  • Explorative und konfirmatorische Faktoranalyse
  • Hauptkomponentenanalyse
  • Strukturgleichungsmodellierung (LISREL-Modelle, Partial Least Squares, Two Stage Least Squares)
  • Clusteranalyse
  • Diskriminanzanalyse

Mögliche Zusatzleistungen:

  • Suche nach fehlerhaften Daten (numerische und grafische Plausibilitätsprüfung)
  • Grafiken zu meinen statistischen Auswertungen, auf Wunsch individuell angepasst
  • Ausführliche Erläuterungen zu den verwendeten Methoden und den Ergebnissen
  • Ergebnispräsentation in Form eines kompletten Fachtexts mit Literaturangaben

Weitere Hinweise zu meinem Statistik-Service:

Software

Ich arbeite erstens mit R

R ist eine universell einsetzbare Statistik-Software, die, gemessen an der gebotenen Funktionalität, jede andere Statistik-Software in den Schatten stellt (1). R ist der weltweite De-Facto-Standard der statistischen Forschung an Universitäten (2).

R kann auf zweierlei Weise genutzt werden: über eine grafische Benutzeroberfläche oder durch direkte Anweisungen in der Programmiersprache R.

Die meines Erachtens beste grafische Benutzeroberfläche für R heißt R Commander und ist ebenso wie R kostenlos. Lesen Sie zum R Commander, einer Alternative zu SPSS, meine Einführung in die Statistik-Software R Commander.

Direkte Anweisungen in der Programmiersprache R sind der einzige Weg, die volle Funktionalität von R zu nutzen. Ich mache dies mit Hilfe von RStudio, einer kostenlosen Entwicklungsumgebung, die ich für sehr gut halte.

R arbeitet immer - auch mit dem R Commander - auf Basis von Anweisungen in der Programmiersprache R, die als Textdatei gespeichert werden können. Eine solche Datei heißt R-Skript.

Als Kunde erhalten Sie von mir das R-Skript, das meinen Arbeitsergebnissen zugrunde liegt (Beispiel: R-Code als Textdatei). Sie sehen daher, wie ich vorgegangen bin. Sie können ein solches Skript beliebig oft verwenden, auch mit dem R Commander.

R eignet sich besonders gut für die Erstellung von Grafiken. Mit R kann man alle bereits in R implementierten Grafiktypen individuell anpassen oder auch eigene Grafiken von Grund auf neu entwickeln.

R eignet sich für Massenauswertungen, weil R hierfür spezielle Lösungen bietet, zum Beispiel zur Nutzung von Datenbanken oder zum Arbeiten mit extrem großen Datensätzen.

R ist in zahlreiche Business-Analytics-Anwendungen integriert, unter anderem in Lösungen von Oracle, HP, SAP, IBM, Teradata, TIBCO, Pivotal und Microsoft.

R ist Open-Source-Software. R hat daher im Vergleich zu kommerzieller Software wie SAS oder SPSS zwei weitere Vorteile:

1. In R können Sie auch Detailfragen klären, die über die Benutzerdokumentation hinausgehen, zum Beispiel wie die mit einer bestimmten Funktion berechneten Ergebnisse zustande gekommen sind. Sie haben in R den Quellcode der betreffenden Funktion als zusätzliche Informationsquelle.

2. R ist für jeden Nutzer anpassbar und erweiterbar. Bei fehlendem Zugriff auf den Quellcode ginge dies entweder gar nicht oder nur eingeschränkt, abhängig davon, was genau Sie ändern wollen. Open-Source-Software hat wegen dieses Vorteils maßgeblich zum wissenschaftlichen Fortschritt beigetragen, insbesondere in der Genforschung (3).

Ich arbeite zweitens mit Excel

Excel eignet sich für einfache Auswertungen, insbesondere Mittelwertvergleiche, Korrelationsanalysen und multiple Regression, außerdem für einfach gehaltene deskriptive Auswertungen mit Tabellen und Grafiken.

Excel ist vor allem interessant, wenn die gewünschten Auswertungen mit Hilfe der verfügbaren Excel-Funktionen realisierbar sind. Sie erhalten dann eine dynamische Anwendung in Form einer Excel-Arbeitsmappe.

Dies bedeutet:

Wenn Sie Ihre Daten nachträglich ändern, ergänzen oder bereinigen aktualisiert Excel die gesamte Arbeitsmappe.

In einem derartigen Fall

  • korrigiert Excel sämtliche Berechnungen,
  • erstellt alle Diagramme neu und
  • wiederholt alle statistischen Prüfungen.

Außerdem kann ich meine Arbeitsergebnisse so in ein Word-Dokument (.docx) einbinden, dass Word das Textdokument ebenfalls dynamisch anpasst.

Ich habe zum Beispiel in das Word-Dokument eine Excel-Tabelle mit sieben Zeilen eingebunden. Weil Sie Ihre Ausgangsdaten nachträglich ändern, erweitert Excel die auf Ihren Daten basierende Tabelle um drei Zeilen. Word macht das Gleiche; die in Word angezeigte Tabelle hat jetzt drei neue Zeilen.

Excel kann mit Hilfe von Templates sehr rationell genutzt werden.

Sie planen zum Beispiel eine lineare Regressionsanalyse mit drei bis fünf unabhängigen Variablen. Sie wollen zunächst nur wissen, ob eine sehr einfache Regressionsgleichung mit vier unabhängigen Variablen zu akzeptablen Ergebnissen führt.

Mit Excel würde ich folgendermaßen arbeiten:

  • Ich kopiere die für die Regressionsanalyse erforderlichen Daten auf ein neues Arbeitsblatt und stelle sicher, dass die dynamische Anpassung erhalten bleibt
  • Danach öffne ich meine Arbeitsmappe Templates.xlsx und kopiere das Template für die gewünschte Regressionsanalyse
  • Jetzt kopiere ich den Inhalt der Zwischenablage in das neue Arbeitsblatt (normalerweise rechts neben den Daten)
  • Ich schreibe die Namen der für die Regressionsanalyse verwendeten Variablen in die hierfür im Template vorgesehenen Felder
  • Ich führe die RGP-Funktion aus, und zwar an der im Template markierten Stelle (liefert unter anderem die Schätzwerte für die Regressionskoeffizienten)
  • Anschließend ergänze ich die im ersten Schritt erstellte Tabelle um eine Spalte für die Residuen und schreibe einmal die Berechnungsformel
  • Zum Abschluss trage ich ein, in welcher Zelle der Arbeitsmappe die Irrtumswahrscheinlichkeit festgelegt wird

Mein Template liefert die folgenden Angaben:

  • Schätzwerte für die Regressionskoeffizienten
  • standardisierte Schätzwerte für die Regressionskoeffizienten
  • die Standardfehler der geschätzten Regressionskoeffizienten
  • Konfidenzintervalle für die Regressionskoeffizienten
  • für jeden Regressionskoeffizienten das Ergebnis eines t-Tests
  • das Ergebnis eines globalen F-Tests
  • das Bestimmtheitsmaß
  • das adjustierte Bestimmtheitsmaß
  • den Standardfehler der Regression
  • den Durbin-Watson-Koeffizienten

Auch bei dieser Vorgehensweise haben Sie sehr gute Kontrollmöglichkeiten. Zum Beispiel ergibt sich aus der Formel im Feld mit dem Zahlenwert, wie ich den Durbin-Watson-Koeffizienten ermittelt habe. Sie könnten die Definition des Durbin-Watson-Koeffizienten im Internet nachlesen und prüfen, ob meine Berechnungsformel hiermit übereinstimmt.


Fußnoten:

(1) Die Basisversion von R ist, gemessen an der gebotenen Funktionalität, vergleichbar mit einer Basisversion von SAS. Siehe zum Beispiel John Fox: Structural Equation Modeling With the sem Package in R, Structural Equation Modelling, Vol. 13(3), 2006, Seite 465, socserv.mcmaster.ca/jfox/Misc/sem/SEM-paper.pdf.

R kann durch kostenlos erhältliche Packages erweitert werden. Die wichtigsten Bezugsquellen sind www.r-project.org mit 18.843 Packages und www.bioconductor.org mit weiteren 2.183 Packages (Stand: 14. November 2022).

Einen neueren Vergleich bietet Bob Muenchen: R Now Contains 150 Times as Many Commands as SAS, 22. Mai 2015. Interessant sind auch die Kommentare zu diesem Blogartikel, insbesondere Muenchens Kommentar vom 24. Mai 2015 über die Grundversion von R im Vergleich zu SAS und SPSS.

(2) Siehe zum Beispiel John Fox: Introduction to the R Statistical Computing Environment, McMaster University, Sommer 2018, Vorbemerkung und Reinhold Hatzinger / Kurt Hornik / Herbert Nagel: R. Einführung durch angewandte Statistik, München, 2011, Seite 18.

(3) Siehe Yves Rosseel: lavaan: An R Package for Structural Equation Modeling, Journal of Statistical Software, Vol. 48, Issue 2, 2012, S. 4, www.jstatsoft.org/article/view/v048i02.