Methodik

Durch die Nutzung innovativer Methoden setzt das German Business Panel neue Standards im Bereich Datenqualität. Die Coronabefragung wurde als rollierender Querschnitt umgesetzt (Faas und Blumenberg, 2012) in Kombination mit einem Purposive Sampling Ansatz (Klar und Leeper, 2020).

Um Aussagen über die wirtschaftliche Situation für Deutschland treffen zu können, werden der geographischen Repräsentativität und der Repräsentativität in anderen Dimensionen (Wirtschaftsabschnitte, sozialversicherungspflichtige Mitarbeiter, Umsatz, Rechtsform) Rechnung getragen. Der Begriff der Repräsentativität ist statistisch nicht definiert und wird daher in der wissenschaftlichen Debatte vermieden, systematische Verzerrungen der Stichprobe hingegen sind wichtig für die Aussagekraft der Daten. Daher strebt das German Business Panel an, mit Hilfe von Zufallsstichproben aller Unternehmen, sorgfältig durchgeführter Implementierung und wissenschaftlichen Gewichtungsverfahren, die Grundgesamtheit möglichst genau abzubilden. Einen Eindruck im Hinblick auf die Repräsentativität der Unternehmen im German Business Panel im oben genannten Sinn liefert Abbildung 1.

Geographische Abdeckung

Hier ist die geographische Abdeckung der im German Business Panel enthaltenen Unternehmen auf Kreisebene dargestellt. Deutlich wird, dass vor allem Unternehmen aus größeren Städten wie Berlin, Hamburg, München, Köln, Frankfurt, etc. oder Ballungsräumen wie dem Ruhrgebiet vertreten sind. Ein Vergleich mit den Daten des Regionalatlas Deutschland der Statistischen Ämter des Bundes und der Länder zeigt, dass das German Business Panel die Unternehmenslandschaft in Deutschland sehr genau abdeckt.

Gewichtung durch MICE Imputation und Raking Kalibrierung

Für die Hochrechnung auf die Grundgesamtheit aller Unternehmen in Deutschland nutzt das German Business Panel (GBP) die Raking Methode zur iterativen proportionalen Anpassung. Die berechneten Raking-Gewichte basieren auf der Randverteilung des Unternehmensregisters des Statistischen Bundesamtes aus dem Jahr 2018 und berücksichtigen mehrere Dimensionen. Abbildung 2 stellt die relativen Häufigkeiten in der Grundgesamtheit denen der gewichteten Stichprobe für die Wirtschaftszweige auf Zweistellerebene gegenüber. Fehlende Werte in den Gewichtungs­merkmalen wurden über einen Chained-Equations-Algorithmus imputiert (multiple imputation by chained equations, MICE).

Die Abbildung zeigt, dass die Wirtschaftsabschnitte im Unternehmensregister und in der Stichprobe sehr gut übereinstimmen. Die Gewichte sind so kalibriert, dass auch die Verteilungen der Variablen Umsatz, Rechtsform und sozialversicherungspflichtiger Mitarbeiter*innen der Grundgesamtheit sehr gut durch die Stichprobe abgebildet werden können.

Statistische Inferenz

Die drei Abbildungen zeigen die exzellente Anpassungsgüte der gewichteten Beobachtungen der Stichprobe an die relativen Häufigkeiten der Grundgesamtheit. Für die Variablen Mitarbeiter*innen und Umsatz ist die Übereinstimmung hervorragend, selbst wenn diese Variablen nicht als Zielvariablen in die Kalibrierung eingehen. Mit Nutzung der resultierenden Gewichte kann statistische Inferenz durchgeführt werden, die Aussagen über Lage-, Streuungsparameter und Zusammenhänge aller Unternehmen in Deutschland erlaubt.

Rollierendes Panel

Das Design der Studie als rollierendes Panel erlaubt es, dynamische Effekte zu messen. Abbildung 2 zeigt die Umsetzung der Methodik für die Coronabefragung des German Business Panel. Für diese Befragung wurden an fünf Werktagen Einladungsschreiben versandt sowie nach je sieben Tagen zwei Erinnerungsschreiben. Die Effekte sind deutlich zu erkennen: Etwa 40% der Teilnehmer*innen haben unmittelbar im Anschluss auf den Erhalt der Einladung am Fragebogen teilgenommen. Weitere ca. 35% (25%) haben nach Erhalt des ersten (zweiten) Erinnerungsschreibens geantwortet.

Weiterführende Literatur

  • Deming, W. E. und Stephan, F. F. (1940): „On a Least Squares Adjustment of a Sampled Frequency Table When the Expected Marginal Totals are Known“, Annals of Mathematical Statistics 11(4), S.427-444.
  • Deville, J.-C., Sarndal, C.-E. und Sautory, O. (1993): „Generalized Raking Procedures in Survey Sampling“, Journal of the American Statistical Association, 88(423), S.1013-1020.
  • Faas, T. und Blumenberg, J. (2012): „Die Vermessung der Dynamik“, Methoden-Daten-Analysen, 6(2), S.157-183.
  • Klar, S. und Leeper, T.J. (2020): „Identities and Intersectionality: A Case for Purposive Sampling in Survey‐Experimental Research”. In „Experimental Methods in Survey Research“ (Hrsg. P. Lavrakas, M. Traugott, C. Kennedy, A. Holbrook, E. de Leeuw und B. West).
  • Kolenikov, S. (2014): „Calibrating Survey Data Using Iterative Proportional Fitting“, Stata Journal, 14(1), S.22-59.
  • Ruschendorf, L. (1995): „Convergence of the Iterative Proportional Fitting Procedure“, The Annals of Statistics, 23(4), S.1160-1174.