Springe zum Inhalt oder Footer
SerloDie freie Lernplattform

Prognoseintervalle

Bei vielen Fragestellungen in der Stochastik ergibt sich folgendes Problem:

Für einen Zufallsversuch, der sich durch ein Binomialmodell beschreiben lässt, ist die Wahrscheinlichkeit pp und der Umfang nn einer Stichprobe vorgegeben.

Betrachtet werden nun σ\sigma -Umgebungen

von μ\mu oder σn\dfrac{\sigma}{n} - ~Umgebungen von pp.

In diesen Intervallen (Prognoseintervalle) wird das Stichprobenergebnis mit einer vorher festgelegten Sicherheitswahrscheinlichkeit γ\gamma liegen.

Binomialverteilung

1 Prognoseintervalle für Erwartungswerte

Schluss von der Gesamtheit auf ein Stichprobenergebnis

Die Trefferwahrscheinlichkeit pp in einer Gesamtheit ist vorgegeben. Dann kann man eine Prognose (Vorhersage) über die Trefferzahl XX in einer hinreichend großen Stichprobe der Größe nn angeben.

Dabei gibt man neben der Umgebung des Erwartungswertes μ\mu der Trefferzahl auch die Wahrscheinlichkeit (Sicherheitswahrscheinlichkeit γ\gamma⁣) an, mit der die Trefferzahl in diese Umgebung des Erwartungswertes fallen wird.

Vorausgesetzt wird, dass σ=np(1p)>3\sigma=\sqrt{n\cdot p\cdot (1-p)}>3 ist (Laplace-Bedingung).

Dann gilt für binomialverteilte Zufallsgrößen XX:

Größe der Sigma-Umgebungen

P(μ1σXμ+1σ)68,3  %    [μ1σ;μ+1σ]P(\mu-1\cdot \sigma\leq X \leq \mu+1 \cdot \sigma)\approx68{,}3\;\%\;\Rightarrow\;[\mu-1\cdot \sigma;\mu+1\cdot \sigma]

Die sogenannte "Ein-Sigma-Umgebung" um μ\mu enthält 68,3 %68{,}3~\% der Stichprobenergebnisse.

P(μ2σXμ+2σ)95,5  %    [μ2σ;μ+2σ]P(\mu-2\cdot \sigma\leq X \leq \mu+2 \cdot \sigma)\approx95{,}5\;\%\;\Rightarrow\;[\mu-2\cdot \sigma;\mu+2\cdot \sigma]

Die "Zwei-Sigma-Umgebung" um μ\mu enthält 95,5 %95{,}5~\% der Stichprobenergebnisse.

P(μ3σXμ+3σ)99,7  %    [μ3σ;μ+3σ]P(\mu-3\cdot \sigma\leq X \leq \mu+3 \cdot \sigma)\approx99{,}7\;\%\;\Rightarrow\;[\mu-3\cdot \sigma;\mu+3\cdot \sigma]

Die "Drei-Sigma-Umgebung" um μ\mu enthält 99,7 %99{,}7~\% der Stichprobenergebnisse.

Prognoseintervalle für die zugrundeliegende Wahrscheinlichkeit pp

Wenn XX in einer σ\sigma-Umgebung von μ\mu liegt, dann gilt:

Xμσ  Xnpσ  Xnpσn\left|{X}-\mu\right|\leq\sigma\;\Leftrightarrow \left|{X}-n\cdot p\right|\leq\sigma \;\Leftrightarrow \left|\dfrac{X}{n}- p\right|\leq\dfrac{\sigma}{n}

Also gilt:

Xn\dfrac{X}{n} liegt in einer σn\dfrac{\sigma}{n}-  ~Umgebung von pp.

Die Werte von Xn\dfrac{X}{n} fallen zu etwa 68,3  %68{,}3\;\% in das Intervall [pσn;p+σn]\left[p-\dfrac{\sigma}{n};p+\dfrac{\sigma}{n}\right],

zu etwa 95,5  %95{,}5\;\% in das Intervall [p2σn;p+2σn]\left[p-2\cdot\dfrac{\sigma}{n};p+2\cdot\dfrac{\sigma}{n}\right] und

zu etwa 99,7  %99{,}7\;\% in das Intervall [p3σn;p+3σn]\left[p-3\cdot\dfrac{\sigma}{n};p+3\cdot\dfrac{\sigma}{n}\right].

Intervalle für andere Wahrscheinlichkeiten

Intervalle der Form [μcσ;μ+cσ][\mu-c\cdot \sigma;\mu+c\cdot \sigma] oder [pσn;p+σn]\left[p-\dfrac{\sigma}{n};p+\dfrac{\sigma}{n}\right] können auch für andere Sicherheitswahrscheinlichkeiten γ\gamma⁣ angegeben werden.

cc ist hierbei ein Faktor, der die Intervallgröße so festlegt, damit eine bestimmte Sicherheitswahrscheinlichkeit γ\gamma garantiert wird.

Sicherheits-wahrschein-lichkeit γ\gamma

0,50{,}5

0,60{,}6

0,6830{,}683

0,750{,}75

0,800{,}80

0,850{,}85

0,900{,}90

0,950{,}95

0,955

0,99

0,997

Faktor c für Intervall-größe

0,6750{,}675

0,840{,}84

11

(1σ(1\sigma-Regel)

1,151{,}15

1,281{,}28

1,441{,}44

1,6451{,}645

1,961{,}96

22

(2σ(2\sigma-

Regel)

2,582{,}58

33

(3σ(3\sigma-

Regel)

MerkeSignifikante und hochsignifikante Abweichungen

Liegen Stichprobenergebnisse außerhalb der 2σ2\sigma-Umgebung des Erwartungswertes, dann spricht man von signifikanten Abweichungen.

Liegen Stichprobenergebnisse außerhalb der 3σ3\sigma-Umgebung des Erwartungswertes, dann spricht man von hochsignifikanten Abweichungen.

2 Prognoseintervalle für absolute bzw. relative Häufigkeiten

Bei den Prognoseintervallen für den Erwartungswert hat man eine Doppelungleichung erhalten. Aus dieser Doppelungleichung folgt ebenso eine Doppelungleichung für Prognoseintervalle absoluter bzw. relativer Häufigkeiten hh.

Es gilt: pcp(1p)nhp+cp(1p)np-c\cdot \sqrt{\dfrac{p(1-p)}{n}}\leq h\leq p+c\cdot \sqrt{\dfrac{p(1-p)}{n}}

Für eine Sicherheitswahrscheinlichkeit von 95  %95\;\% ist c=1,96c=1{,}96 und es folgt:

P(p1,96p(1p)nhp+1,96p(1p)n)95  %P\left(p-1{,}96\cdot \sqrt{\dfrac{p(1-p)}{n}}\leq h\leq p+1{,}96\cdot \sqrt{\dfrac{p(1-p)}{n}}\right)\approx95\;\%

Man kann somit vor einem Bernoulliversuch vorhersagen, dass bei einer gegebenen (als wahr angenommenen) Wahrscheinlichkeit pp die relative Häufigkeit eines Merkmals in einer Stichprobe vom Umfang nn mit 95  %95\;\%-Wahrscheinlichkeit im Prognoseintervall [p1,96p(1p)n;  p+1,96p(1p)n]\left[p-1{,}96\cdot \sqrt{\dfrac{p(1-p)}{n}};\; p+1{,}96\cdot \sqrt{\dfrac{p(1-p)}{n}}\right] liegen wird.

3 Die Länge des Prognoseintervalls

Allgemein gilt für das Prognoseintervall: [pcp(1p)n;  p+cp(1p)n]\left[p-c\cdot \sqrt{\dfrac{p(1-p)}{n}};\; p+c\cdot \sqrt{\dfrac{p(1-p)}{n}}\right].

Dann hat das Prognoseintervall die Länge l(n)=2cp(1p)nl(n)=2\cdot c\cdot \dfrac{\sqrt{p(1-p)}}{\sqrt{n}}.

Das Prognoseintervall kann noch nach oben abgeschätzt werden, wenn man berücksichtigt, dass f(p)=p(1p)f(p)=p(1-p) für p=0,5p=0{,}5 maximal wird.

Dann ergibt sich für das Prognoseintervall eine Abschätzung durch:

[pc0,50,5n;  p+c0,50,5n]    [p0,5cn;  p+0,5cn]\left[p-c\cdot \sqrt{\dfrac{0{,}5\cdot 0{,}5}{n}};\; p+c\cdot \sqrt{\dfrac{0{,}5\cdot 0{,}5}{n}}\right]\;\Rightarrow\;\left[p-\dfrac{0{,}5c}{\sqrt{n}};\; p+\dfrac{0{,}5c}{\sqrt{n}}\right]

Für die Intervalllänge folgt dann:

l(n)=20,5cn=cn\displaystyle l(n)=2\cdot \dfrac{0{,}5c}{\sqrt{n}}=\dfrac{c}{\sqrt{n}}

Für einen festen Wert von pp ist die Länge des Prognoseintervalls proportional zu 1n\dfrac{1}{\sqrt{n}}.

Man spricht auch vom 1n\dfrac{1}{\sqrt{n}}-Gesetz.

MerkeLänge des Prognoseintervalls

Will man die Länge des Prognoseintervalls halbieren, muss der Stichprobenumfang nn vervierfacht werden.

Übungsaufgaben: Prognoseintervalle

Laden

Laden


Dieses Werk steht unter der freien Lizenz
CC BY-SA 4.0Was bedeutet das?