2.4.5.4 Statistischer EXKURS zur Vertiefung
Artikel Einführung
verweist auf: Literaturverzeichnis
Folgende Literatur wird zum Einstieg empfohlen:
- Krämer, Walter: Statistik für alle – die 101 wichtigsten Begriffe anschaulich erklärt, 2015, Springer Spektrum-Verlag, Berlin.
- Puhani, Josef: Statistik – Einführung mit praktischen Beispielen (13. Auflage), 2020, Springer Gabler-Verlag, Wiesbaden.
- Rumsey, Deborah: Statistik für Dummies, 4. Auflage 2020, WILEY-VCH Verlag, Weinheim
2.4.5.4.1 Zeitreihenanalyse
Beobachtungen, die kontinuierlich über eine bestimmte Zeit erfasst werden, können als Werte einer Zeitreihe abgebildet werden.
Diese Werte werden durch
- langfristige Trends,
- saisonale,
- konjunkturelle Entwicklungen sowie
- zufällige Begebenheiten
beeinflusst.
Die statistische Betrachtung dieser Komponenten erfolgt mittels der Zeitreihenanalyse.[99]
Die Zeitreihenanalyse dient zum einen der Beschreibung der zeitlichen Entwicklung einer Variable X. Zum anderen dient sie der Prognose und damit der Schätzung eines Wertes dieser Variable für einen zukünftigen, über die Messreihe hinausgehenden Zeitpunkt.[100]
Vorbereitung
Für das folgende Beispiel wird der Kontext von Bewerbungszahlen zugrunde gelegt. Es soll bei der zuständigen bearbeitenden Stelle anhand n=10 in monatlichen Abständen gemessenen Beobachtungen der Bewerbungsanzahlen xt der zugrunde liegende lineare Trend untersucht werden (s. Tabelle 25), um das zukünftige Bewerbungsaufkommen abzuschätzen.
Tabelle 25: Messwerte für die Zeitreihenanalyse
Durchführung
Zur Berechnung des Trendparameters β1 wird, analog zur Regressionsanalyse, schrittweise die kalkulatorische Formel zerlegt und für das Anwendungsbeispiel berechnet.
1. Schritt 1
Zunächst wird die Kovarianz der Variablen X und T über die n=10 Messungen für den zu schätzenden Trendparameter β ̂1 berechnet (s. Tabelle 26).
Die zu verrechnenden Mittelwerte sind
Tabelle 26: Zwischenergebnisse für den Trendparameter, Schritt 1
2. Schritt 2
Mit den Zwischenergebnissen aus Schritt 1 können dann die Kovarianz sowie die quadrierten Anteile für die Standardabweichungen beider Merkmale für den Trendparameter β ̂1 berechnet werden (s. Tabelle 27).
Tabelle 27: Zwischenergebnisse für den Trendparameter, Schritt 2
3. Schritt 3
Mit den Zwischenergebnissen der Schritte 1 und 2 kann zunächst der Trendparameter β ̂1 berechnet werden. Das konstante Glied β ̂0 resultiert daraus entsprechend. Die geschätzten Trendparameter für das exemplarische lineare Trendmodell sind damit:
Die geschätzte Trendgerade ist entsprechend:
Abschluss
Mittels des geschätzten linearen Trendmodells y ̂t=49,33+1,57t lassen sich im vorliegenden, plakativen Beispiel exemplarische Schätzungen für das zu erwartende Bewerbungsaufkommen treffen. So wäre für die Periode t=15 die geschätzte Anzahl an Bewerbungen gerade y ̂i=73. Als Zeitreihe dargestellt ergibt sich folgende Grafik mit linearem Trend (vgl. Abbildung 43):
Abbildung 43: Zeitreihe der Bewerbungszahlen an 10 Zeitpunkten mit linearer Trendgerade
2.4.5.4.2 Korrelationsanalyse
Der Zusammenhang zwischen zwei Variablen wird als „Korrelation“ bezeichnet. Zwei Variablen sind „positiv korreliert“ (Korrelationskoeffizient größer 0), wenn größer werdenden Werten der einen Variable auch steigende Werte der anderen Variable gegenüberstehen bzw. sinkende Werte der einen Variable entsprechend mit abnehmenden Werten der anderen Variable zusammengehen. Von „negativer Korrelation“ (Korrelationskoeffizient kleiner 0) wird dann gesprochen, wenn sich die Variablen gerade entgegengesetzt verhalten, so dass bspw. ein Anstieg der einen Variable mit einer Reduzierung der anderen Variable einhergeht.[101]
Das Ergebnis der Korrelationsanalyse, der Korrelationskoeffizient rx,y, gibt die „Stärke“ eines Zusammenhangs zwischen zwei Merkmalen an. Rechnerisch reicht dieser Koeffizient von -1 im Fall eines exakt negativen Zusammenhangs bis zu 1 für einen kalkulatorisch ideal positiven Zusammenhang (s. Abbildung 1). Ein Korrelationskoeffizient von 0 entspricht einem konkret „unkorrelierten“ Zusammenhang.[102] Im Anwendungsbereich der Personalbedarfsplanung ein Korrelationskoeffizient größer 0,8 bzw. kleiner -0,8 als hinreichend hoch erachtet.[103] Alles, was davon abweicht, ist nicht belastbar und sollte entsprechend keine Verwendung finden.
Die formale Kalkulation des Korrelationskoeffizienten r_(x,y) ergibt sich als Quotient aus der Kovarianz[104] zu den Standardabweichungen beider metrisch skalierter Variablen X und Y für n Beobachtungen.[105]
Vorbereitung
Für das folgende Beispiel wird der Kontext der Bearbeitung von Asylanträgen in verschiedenen Dienststellen zugrunde gelegt (s. Tabelle 28). Es soll anhand von zehn Dienststellen und damit n=10 Beobachtungspaaren (xi,yi) der Grad des linearen Zusammenhangs zwischen dem Arbeitsaufkommen in Form der Anzahl bearbeiteter Asylanträge xi und der Anzahl entsprechend tätiger BearbeiterInnen yi in der jeweiligen Behörde i in einem konkreten Zeitraum untersucht werden.
Tabelle 28: Beobachtungspaare für die Korrelationsanalyse
Durchführung
Zur Berechnung des Korrelationskoeffizienten wird im Folgenden schrittweise die kalkulatorische Formel zerlegt und für das Anwendungsbeispiel berechnet.
1. Schritt 1
Zunächst werden die zu summierenden Anteile der Kovarianz der Variablen X und Y für die n=10 Beobachtungen berechnet (s. Tabelle 29). Die dabei zu verrechnenden Mittelwerte sind
Tabelle 29: Zwischenergebnisse für den Korrelationskoeffizienten, Schritt 1
2. Schritt 2
Mit den Zwischenergebnissen aus Schritt 1 können dann die Kovarianz sowie die quadrierten Anteile für die Standardabweichungen beider Merkmale berechnet werde (s. Tabelle 30).
Tabelle 30: Zwischenergebnisse für den Korrelationskoeffizienten, Schritt 2
Abschluss
Nach der schrittweisen Berechnung aller notwendigen Variablen ergibt sich als Korrelationskoeffizient im gegebenen Beispiel entsprechend:
Für das vorgestellte Beispiel zeigt der Korrelationskoeffizient einen großen positiven linearen Zusammenhang (deutlich über dem Grenzwert 0,8) zwischen der Anzahl abgearbeiteter Asylanträge und der Anzahl entsprechend tätiger Bearbeiterinnen und Bearbeiter in den zehn beobachteten Dienststellen in einem konkreten Zeitraum. Diese Korrelationen können nun in die Regressionsanalyse übernommen werden.
2.4.5.4.3 Regressionsanalyse
Eine Variable kann einen statistisch überprüfbaren Einfluss auf eine andere abhängige Variable haben.[110] Das zur Überprüfung dessen häufig eingesetzte statistische Verfahren ist die Regressionsanalyse.[111] Hierbei handelt es sich im Wesentlichen um eine formalisierte Erweiterung der Korrelationsanalyse. Sie ermöglicht eine weitergehende Aussage über die tendenzielle Beziehung zwischen zwei Merkmalen.
Die Regressionsfunktion bzw. die Regressionsgerade lautet
Der Regressionskoeffizient stellt die Steigung der Regressionsgerade dar und kann als „Stärke“ der Wirkung des Regressors X auf die abhängige Variable Y verstanden werden. Beträgt beispielsweise β1=5, so nimmt der Wert des Schätzers y ̂i ,wenn xi um 1 steigt, gerade um 5 zu.[112]
Das Modell der linearen Einfachregression ist
Die Regressionskoeffizienten für das lineare Regressionsmodell berechnen sich durch
Vorbereitung
Für das folgende Beispiel wird der Kontext einer Behörde zugrunde gelegt, die in Abhängigkeit von der Anzahl angemeldeter Besuchsgruppen entsprechendes Personal abstellt. Es soll anhand von zehn Tagen und damit n=10 Beobachtungspaaren (xi,yi) der Grad des linearen Zusammenhangs zwischen der Anzahl abgefertigter Besuchsgruppen als unabhängige Variable X und der Anzahl des dafür eingeplanten Personals als abhängige Variable Y untersucht werden (s. Tabelle 31). Anmerkung: zu Veranschaulichungszwecken sind hier nur zehn Messungen dargestellt, auch wenn statistisch mindestens 30 Messungen notwendig sind.[115]
Tabelle 31: Beobachtungspaare für die Regressionsanalyse
Durchführung
Zur Berechnung des Regressionskoeffizienten wird im Folgenden schrittweise die kalkulatorische Formel für β ̂1 zerlegt und für das Anwendungsbeispiel berechnet.
1. Schritt 1
Zunächst werden die Anteile für die Kovarianz der Variablen X und Y über die n=10 Beobachtungen für den Regressionskoeffizienten β ̂1 berechnet (s. Tabelle 32). Die hierfür zu verrechnenden Mittelwerte sind
Tabelle 32: Zwischenergebnisse für den Regressionskoeffizienten, Schritt 1
2. Schritt 2
Mit den Zwischenergebnissen aus Schritt 1 können dann die Kovarianz sowie die quadrierten Anteile für die Standardabweichungen beider Merkmale für den Regressionskoeffizienten β ̂1 berechnet werden (s. Tabelle 33).
Tabelle 33: Zwischenergebnisse für den Regressionskoeffizienten, Schritt 2
3. Schritt 3
Mit den Zwischenergebnissen der Schritte 1 und 2 kann zunächst der Regressionskoeffizient β ̂1 berechnet werden. Das konstante Glied β ̂0 resultiert darauf entsprechend. Die geschätzten Regressionskoeffizienten für das exemplarische lineare Einfachregressionsmodell sind damit:
Die geschätzte Regressionsgerade ist entsprechend (vgl. Abbildung 42):
Abschluss
Mittels der geschätzten Regressionsgerade y ̂i=0,32+0,42x_i lassen sich im vorliegenden, plakativen Beispiel exemplarische Schätzung für den notwendigen Personalbedarf in Abhängigkeit von der angemeldeten Anzahl an Besuchsgruppen treffen. So wäre für die Anzahl von fünf Besuchsgruppen x ̂i=5 der geschätzte Bedarf an abzustellenden Beschäftigten gerade y ̂i=2.
Fußnoten
[99] Vgl. PUHANI 2020, S. 69.
[100] Vgl. BACKHAUS et al. 2018, S. 124.
[101] Vgl. KRÄMER 2015, S. 109 f.
[102] Vgl. KRÄMER 2015, S. 112.
[103] Vgl. Lehrunterlage Personalbedarfsermittlung in Verwaltung und Dienstleistung, S. 49 (2016)
[104] Es wird deshalb ein sicheres Verständnis von Begriffen wie der Varianz, also der mittlere quadratische Abstand zum Mittelwert (Quadriert, damit sich negative und positive Abweichung nicht gegenseitig aufheben), oder auch der Standardabweichung als Wurzel der Varianz (zur Reduktion auf die ursprüngliche Messwertedimension) als weiteres Streuungsmaß vorausgesetzt. Auch der Begriff der Kovarianz als Messwert für die Variabilität zweier Variablen sollte formal und interpretativ verstanden sein.
[105] Vgl. KAHN/ÖZTÜRK 2017, S. 103.
[106] Vgl. BACKHAUS et al. 2018, S. 372.
[107]Vgl. KAHN/ÖZTÜRK 2017, S. 105.
[108] Vgl. PUHANI 2020, S. 45.
[109] Vgl. BACKHAUS et al. 2018, S. 60.
[110][110] Vgl. KRÄMER 2015, S. 159.
[111] Vgl. BACKHAUS et al. 2018, S. 58.
[112] Vgl. BACKHAUS et al. 2018, S. 64 f.
[113] Vgl. PUHANI 2020, S. 47 f.
[114] Vgl. FROST 2018, S. 9.
[115] Der Wert „30“ resultiert aus empirischen Untersuchungen und Praxiserfahrungen.