2.4.5.4 Statistischer EXKURS zur Vertiefung

Typ: Artikel , Schwerpunktthema: Einführung


verweist auf: LiteraturverzeichnisLiteraturhinweis/Bildquelle: BMI

Folgende Literatur wird zum Einstieg empfohlen:

  • Krämer, Walter: Statistik für alle – die 101 wichtigsten Begriffe anschaulich erklärt, 2015, Springer Spektrum-Verlag, Berlin.
  • Puhani, Josef: Statistik – Einführung mit praktischen Beispielen (13. Auflage), 2020, Springer Gabler-Verlag, Wiesbaden.
  • Rumsey, Deborah: Statistik für Dummies, 4. Auflage 2020, WILEY-VCH Verlag, Weinheim


2.4.5.4.1 Zeitreihenanalyse

Beobachtungen, die kontinuierlich über eine bestimmte Zeit erfasst werden, können als Werte einer Zeitreihe abgebildet werden.
Diese Werte werden durch

  • langfristige Trends,
  • saisonale,
  • konjunkturelle Entwicklungen sowie
  • zufällige Begebenheiten

beeinflusst.
Die statistische Betrachtung dieser Komponenten erfolgt mittels der Zeitreihenanalyse.[99]

Die Zeitreihenanalyse dient zum einen der Beschreibung der zeitlichen Entwicklung einer Variable X. Zum anderen dient sie der Prognose und damit der Schätzung eines Wertes dieser Variable für einen zukünftigen, über die Messreihe hinausgehenden Zeitpunkt.[100]

Vorbereitung

Für das folgende Beispiel wird der Kontext von Bewerbungszahlen zugrunde gelegt. Es soll bei der zuständigen bearbeitenden Stelle anhand n=10 in monatlichen Abständen gemessenen Beobachtungen der Bewerbungsanzahlen xt der zugrunde liegende lineare Trend untersucht werden (s. Tabelle 25), um das zukünftige Bewerbungsaufkommen abzuschätzen.

Quelle: eigene Darstellung

Tabelle 25: Messwerte für die Zeitreihenanalyse

Durchführung

Zur Berechnung des Trendparameters β1 wird, analog zur Regressionsanalyse, schrittweise die kalkulatorische Formel zerlegt und für das Anwendungsbeispiel berechnet.

1. Schritt 1

Zunächst wird die Kovarianz der Variablen X und T über die n=10 Messungen für den zu schätzenden Trendparameter β ̂1 berechnet (s. Tabelle 26).

Die zu verrechnenden Mittelwerte sind

Quelle: eigene Darstellung

Quelle: eigene Darstellung

Tabelle 26: Zwischenergebnisse für den Trendparameter, Schritt 1

2. Schritt 2

Mit den Zwischenergebnissen aus Schritt 1 können dann die Kovarianz sowie die quadrierten Anteile für die Standardabweichungen beider Merkmale für den Trendparameter β ̂1 berechnet werden (s. Tabelle 27).

Quelle: eigene Darstellung

Tabelle 27: Zwischenergebnisse für den Trendparameter, Schritt 2

3. Schritt 3

Mit den Zwischenergebnissen der Schritte 1 und 2 kann zunächst der Trendparameter β ̂1 berechnet werden. Das konstante Glied β ̂0 resultiert daraus entsprechend. Die geschätzten Trendparameter für das exemplarische lineare Trendmodell sind damit:

Quelle: eigene Darstellung

Die geschätzte Trendgerade ist entsprechend:

Quelle: eigene Darstellung

Abschluss

Mittels des geschätzten linearen Trendmodells y ̂t=49,33+1,57t lassen sich im vorliegenden, plakativen Beispiel exemplarische Schätzungen für das zu erwartende Bewerbungsaufkommen treffen. So wäre für die Periode t=15 die geschätzte Anzahl an Bewerbungen gerade y ̂i=73. Als Zeitreihe dargestellt ergibt sich folgende Grafik mit linearem Trend (vgl. Abbildung 43):

Quelle: eigene Darstellung

Abbildung 43: Zeitreihe der Bewerbungszahlen an 10 Zeitpunkten mit linearer Trendgerade

2.4.5.4.2 Korrelationsanalyse

Der Zusammenhang zwischen zwei Variablen wird als „Korrelation“ bezeichnet. Zwei Variablen sind „positiv korreliert“ (Korrelationskoeffizient größer 0), wenn größer werdenden Werten der einen Variable auch steigende Werte der anderen Variable gegenüberstehen bzw. sinkende Werte der einen Variable entsprechend mit abnehmenden Werten der anderen Variable zusammengehen. Von „negativer Korrelation“ (Korrelationskoeffizient kleiner 0) wird dann gesprochen, wenn sich die Variablen gerade entgegengesetzt verhalten, so dass bspw. ein Anstieg der einen Variable mit einer Reduzierung der anderen Variable einhergeht.[101]

Das Ergebnis der Korrelationsanalyse, der Korrelationskoeffizient rx,y, gibt die „Stärke“ eines Zusammenhangs zwischen zwei Merkmalen an. Rechnerisch reicht dieser Koeffizient von -1 im Fall eines exakt negativen Zusammenhangs bis zu 1 für einen kalkulatorisch ideal positiven Zusammenhang (s. Abbildung 1). Ein Korrelationskoeffizient von 0 entspricht einem konkret „unkorrelierten“ Zusammenhang.[102] Im Anwendungsbereich der Personalbedarfsplanung ein Korrelationskoeffizient größer 0,8 bzw. kleiner -0,8 als hinreichend hoch erachtet.[103] Alles, was davon abweicht, ist nicht belastbar und sollte entsprechend keine Verwendung finden.

Die formale Kalkulation des Korrelationskoeffizienten r_(x,y) ergibt sich als Quotient aus der Kovarianz[104] zu den Standardabweichungen beider metrisch skalierter Variablen X und Y für n Beobachtungen.[105]

Vgl. BACKHAUS et al. 2018, S. 372.

Vorbereitung

Für das folgende Beispiel wird der Kontext der Bearbeitung von Asylanträgen in verschiedenen Dienststellen zugrunde gelegt (s. Tabelle 28). Es soll anhand von zehn Dienststellen und damit n=10 Beobachtungspaaren (xi,yi) der Grad des linearen Zusammenhangs zwischen dem Arbeitsaufkommen in Form der Anzahl bearbeiteter Asylanträge xi und der Anzahl entsprechend tätiger BearbeiterInnen yi in der jeweiligen Behörde i in einem konkreten Zeitraum untersucht werden.

Quelle: eigene Darstellung

Tabelle 28: Beobachtungspaare für die Korrelationsanalyse

Durchführung

Zur Berechnung des Korrelationskoeffizienten wird im Folgenden schrittweise die kalkulatorische Formel zerlegt und für das Anwendungsbeispiel berechnet.

1. Schritt 1

Zunächst werden die zu summierenden Anteile der Kovarianz der Variablen X und Y für die n=10 Beobachtungen berechnet (s. Tabelle 29). Die dabei zu verrechnenden Mittelwerte sind

Quelle: eigene Darstellung

Tabelle 29: Zwischenergebnisse für den Korrelationskoeffizienten, Schritt 1

2. Schritt 2

Mit den Zwischenergebnissen aus Schritt 1 können dann die Kovarianz sowie die quadrierten Anteile für die Standardabweichungen beider Merkmale berechnet werde (s. Tabelle 30).

Quelle: eigene Darstellung

Tabelle 30: Zwischenergebnisse für den Korrelationskoeffizienten, Schritt 2

Abschluss

Nach der schrittweisen Berechnung aller notwendigen Variablen ergibt sich als Korrelationskoeffizient im gegebenen Beispiel entsprechend:

Quelle: eigene Darstellung

Für das vorgestellte Beispiel zeigt der Korrelationskoeffizient einen großen positiven linearen Zusammenhang (deutlich über dem Grenzwert 0,8) zwischen der Anzahl abgearbeiteter Asylanträge und der Anzahl entsprechend tätiger Bearbeiterinnen und Bearbeiter in den zehn beobachteten Dienststellen in einem konkreten Zeitraum. Diese Korrelationen können nun in die Regressionsanalyse übernommen werden.

2.4.5.4.3 Regressionsanalyse

Eine Variable kann einen statistisch überprüfbaren Einfluss auf eine andere abhängige Variable haben.[110] Das zur Überprüfung dessen häufig eingesetzte statistische Verfahren ist die Regressionsanalyse.[111] Hierbei handelt es sich im Wesentlichen um eine formalisierte Erweiterung der Korrelationsanalyse. Sie ermöglicht eine weitergehende Aussage über die tendenzielle Beziehung zwischen zwei Merkmalen.

Die Regressionsfunktion bzw. die Regressionsgerade lautet

Quelle: eigene Darstellung

Der Regressionskoeffizient stellt die Steigung der Regressionsgerade dar und kann als „Stärke“ der Wirkung des Regressors X auf die abhängige Variable Y verstanden werden. Beträgt beispielsweise β1=5, so nimmt der Wert des Schätzers y ̂i ,wenn xi um 1 steigt, gerade um 5 zu.[112]

Das Modell der linearen Einfachregression ist

Vgl. PUHANI 2020, S. 47 f.

Die Regressionskoeffizienten für das lineare Regressionsmodell berechnen sich durch

Vgl. FROST 2018, S. 9.

Vorbereitung

Für das folgende Beispiel wird der Kontext einer Behörde zugrunde gelegt, die in Abhängigkeit von der Anzahl angemeldeter Besuchsgruppen entsprechendes Personal abstellt. Es soll anhand von zehn Tagen und damit n=10 Beobachtungspaaren (xi,yi) der Grad des linearen Zusammenhangs zwischen der Anzahl abgefertigter Besuchsgruppen als unabhängige Variable X und der Anzahl des dafür eingeplanten Personals als abhängige Variable Y untersucht werden (s. Tabelle 31). Anmerkung: zu Veranschaulichungszwecken sind hier nur zehn Messungen dargestellt, auch wenn statistisch mindestens 30 Messungen notwendig sind.[115]

Quelle: eigene Darstellung

Tabelle 31: Beobachtungspaare für die Regressionsanalyse

Durchführung

Zur Berechnung des Regressionskoeffizienten wird im Folgenden schrittweise die kalkulatorische Formel für β ̂1 zerlegt und für das Anwendungsbeispiel berechnet.

1. Schritt 1

Zunächst werden die Anteile für die Kovarianz der Variablen X und Y über die n=10 Beobachtungen für den Regressionskoeffizienten β ̂1 berechnet (s. Tabelle 32). Die hierfür zu verrechnenden Mittelwerte sind

Quelle: eigene Darstellung

Quelle: eigene Darstellung

Tabelle 32: Zwischenergebnisse für den Regressionskoeffizienten, Schritt 1

2. Schritt 2

Mit den Zwischenergebnissen aus Schritt 1 können dann die Kovarianz sowie die quadrierten Anteile für die Standardabweichungen beider Merkmale für den Regressionskoeffizienten β ̂1 berechnet werden (s. Tabelle 33).

Quelle: eigene Darstellung

Tabelle 33: Zwischenergebnisse für den Regressionskoeffizienten, Schritt 2

3. Schritt 3

Mit den Zwischenergebnissen der Schritte 1 und 2 kann zunächst der Regressionskoeffizient β ̂1 berechnet werden. Das konstante Glied β ̂0 resultiert darauf entsprechend. Die geschätzten Regressionskoeffizienten für das exemplarische lineare Einfachregressionsmodell sind damit:

Quelle: eigene Darstellung

Die geschätzte Regressionsgerade ist entsprechend (vgl. Abbildung 42):

Quelle: eigene Darstellung

Abschluss

Mittels der geschätzten Regressionsgerade y ̂i=0,32+0,42x_i lassen sich im vorliegenden, plakativen Beispiel exemplarische Schätzung für den notwendigen Personalbedarf in Abhängigkeit von der angemeldeten Anzahl an Besuchsgruppen treffen. So wäre für die Anzahl von fünf Besuchsgruppen x ̂i=5 der geschätzte Bedarf an abzustellenden Beschäftigten gerade y ̂i=2. 


Fußnoten

[99] Vgl. PUHANI 2020, S. 69.
[100] Vgl. BACKHAUS et al. 2018, S. 124.
[101] Vgl. KRÄMER 2015, S. 109 f.
[102] Vgl. KRÄMER 2015, S. 112.
[103] Vgl. Lehrunterlage Personalbedarfsermittlung in Verwaltung und Dienstleistung, S. 49 (2016)
[104] Es wird deshalb ein sicheres Verständnis von Begriffen wie der Varianz, also der mittlere quadratische Abstand zum Mittelwert (Quadriert, damit sich negative und positive Abweichung nicht gegenseitig aufheben), oder auch der Standardabweichung als Wurzel der Varianz (zur Reduktion auf die ursprüngliche Messwertedimension) als weiteres Streuungsmaß vorausgesetzt. Auch der Begriff der Kovarianz als Messwert für die Variabilität zweier Variablen sollte formal und interpretativ verstanden sein.
[105] Vgl. KAHN/ÖZTÜRK 2017, S. 103.
[106] Vgl. BACKHAUS et al. 2018, S. 372.
[107]Vgl. KAHN/ÖZTÜRK 2017, S. 105.
[108] Vgl. PUHANI 2020, S. 45.
[109] Vgl. BACKHAUS et al. 2018, S. 60.
[110][110] Vgl. KRÄMER 2015, S. 159.
[111] Vgl. BACKHAUS et al. 2018, S. 58.
[112] Vgl. BACKHAUS et al. 2018, S. 64 f.
[113] Vgl. PUHANI 2020, S. 47 f.
[114] Vgl. FROST 2018, S. 9.
[115] Der Wert „30“ resultiert aus empirischen Untersuchungen und Praxiserfahrungen.