Standardisering av normalfordelt stokastisk variabel
Anta at X∼N(μ,σ2). Da er
σ2X−μ∼N(0,1)
Forventningsverdi, varians og standardavvik
Diskret: E[g(X)]=∑xg(x)fX(x)
Kontinuerlig: E[g(X)]=∫−∞∞g(x)fX(x)dx
Var[X]=E[(X−E[x])2]=E[X2]−E[X]2
Var[X+Y]=Var[X]+Var[Y]+2Cov[X,Y]
SD[X]=Var[X]
Empirisk varians, S2=n−11∑i=1n(xi−xˉ)2, er en forventningsrett estimator for σ2 som gir T-fordeling med n−1 frihetsgrader.
Krav til ulike fordelinger
Bernoulli forsøksrekke
Hvert forsøk har to mulige utfall (suksess/fiasko)
Utfallene i de ulike forsøkene er uavhengige av hverandre
Sannsynligheten for suksess er lik i alle forsøkene
Binomisk fordeling
Betrakt en Bernoulli forsøksrekkebestående av n forsøk, og la X betegne antall suksesser i de n forsøkene. Da er X∼Bin(n,p).
Hypergeometrisk fordeling
Anta en urne med N kuler, der k er røde og N−k er blå. Vi trekker ut n kuler uten tilbakelegging og lar X være antall røde trukket ut. Da er X∼Hypergeo(N,k,n).
Geometrisk fordeling
Anta en Bernoulli forsøksrekke av uendelig forsøk og la p betegne sannsynligheten for suksess i hvert forsøk. La X betegne antall forsøk for nøyaktig én suksess. Da er X∼Geo(p).
Negativ binomisk fordeling
Anta en Bernoulli forsøksrekke av uendelig forsøk og la p betegne sannsynligheten for suksess i hvert forsøk. La X betegne antall forsøk for nøyaktig k suksesser. Da er X∼NB(k,p).
Poissonfordeling
En prosess N(t),t>0 kalles en poissonprosess med intensitet λ hvis følgende krav er oppfylt:
N(0) = 0
Antall hendelser i disjunkte intervaller er uavhengige
Sannsynligheten for en hendelse i et intervall er proposjonal med lengden på intervallet. To hendelser kan ikke skje samtidig.
La N(t),t>0 være en poissonprosess med intensitet λ. Fikser så en t>0 og la X=N(t). Da er X∼Pois(λt).
Eksponensialfordeling
La N(t),t>0 være en poissonprosess med intensitet λ, og la X betegne tidspunktet for den først hendelsen i prosessen. Da er X∼Exp(λ).
Kikvadratfordeling
La Z1,Z2,…,Zν være uavhengige og standard normalfordelte variabler og la X=Z12+Z22+⋯+Zν2. Da er X∼χν2.
T-fordeling
La Z∼N(0,1) og V∼χν2 være uavhengige stokastiske variabler. La T være definert ved T=νVZ. Da er T∼tν.
Sannsynlighetmaksimeringsestimator (SME)
L(θ)=∏i=1nfX(xi)
l(θ)=lnL(θ)
Løs dθdl=0 for θ.
Konfidensintervall
Bestem en pivotal Z som inneholder både θ og X1,X2,…,Xn.
P(z1−2α≤Z≤z2α)=1−α
Isolér θ: P(θ^L≤θ≤θ^H)=1−α
[θ^L,θ^H] kalles da et (1−α)⋅100%-konfidensintervall for θ.
Vanlige pivotaler
Z=Var[θ^]θ^−E[θ^]∼N(0,1),gitt en normalfordelt estimator θ^. Blir ∼tn−1 dersom σ2 estimeres som S2.
Z=nσ2Xˉ−μ∼N(0,1),for μ na˚r σ2 er kjent
T=nS2Xˉ−μ∼tn−1,for μ na˚r σ2 er ukjent
V=σ21i=1∑n(Xi−μ)2∼χn2,for σ2 na˚r μ2 er kjent
V=σ2(n−1)S2∼χn−12,for σ2 na˚r μ2 er ukjent
Z=nσ12+mσ22(Xˉ−Yˉ)−(μ1−μ2)∼N(0,1),for μ1−μ2 na˚r σ12, σ22 er kjente.
Z=np^(1−p^)p^−p∼N(0,1),for p^=nX ved normaltilnærming.
Z=np1^(1−p1^)+mp2^(1−p2^)(p1^−p2^)−(p1−p2)∼N(0,1),for p1^−p2^ ved normaltilnærming.
Prediksjonsintervall
Bestem en Z som inneholder både den neste observasjonen X0 og de tidligere X1,X2,…,Xn. Vanlig å standardisere X0−Xˉ til Z=σ2(1+n1)X0−Xˉ.
P(z1−2α≤Z≤z2α)=1−α
Isolér X0: P(X^L≤X0≤X^H)=1−α
[X^L,X^H] kalles da et (1−α)⋅100%-prediksjonsintervall for X0.
Ordningsvariabler
X(1)=min{X1,X2,…,Xn}FX(1)(x)=1−i=1∏n(1−FXi(x))X(n)=max{X1,X2,…,Xn}FX(n)(x)=i=1∏nFXi(x)Medianen m er gitt vedF(m)=0.5
Hypotesetest
Type 1-feil: Forkaste H0 gitt at H0 er riktig.
Type 2-feil: Ikke forkaste H0 gitt at H1 er riktig.
Testobservator: velg en tilsvarende pivotal fra KI og erstatt det ukjente parameteret med verdien som er gitt av H0. Testobservatoren beholder da den kjente fordelingen under H0.
Signifikansnivå: α=P(Type 1-feil)=P(forkaste H0∣H0 er riktig)
Teststyrke er gitt ved: 1−β=1−P(Type 2-feil)=P(forkaste H0∣H1 er riktig)
Forkastingsregel: avgjør når vi forkaster H0. F.eks. Z>k, der k er en kritisk verdi.
Kritisk verdi: kan bestemmes vha. signifikansnivået.
P-verdi: sannsynligheten for å observere en verdi for testobservatoren som er lik den observerte verdien eller mer ekstrem i retning av den alternative hypotesen. F.eks., dersom H1:θ>a er p=P(Z>zobs∣H0). Gitt et signifikansnivå α, skal vi forkaste H0 dersom p≤α.
Transformasjoner
Gjøres enten ved transformasjonsformelen (blå heftet) fY(y)=fX(w(y))∣dydw∣, X=w(Y), eller via kumulativ funksjon: gitt en sannsynlighetstetthet f(x) og en transformasjon Y=g(X)
FX(x)=∫−∞xfX(x)dx
FY(y)=P(Y≤y)=P(g(X)≤y)=P(X≤h(y))=FX(h(y))
fY(y)=dydFY
Momentgenererende funksjoner
Momentgenerende funksjoner for ulike fordelinger står i det blå heftet.
Gitt en diskret stokastisk variabel X, er MX(t)=E[etX]=∑xetxf(x).
Gitt en kontinuerlig stokastisk variabel X, er MX(t)=E[etX]=∫−∞∞etxf(x)dx.
La X og Y være to stokastiske variabler med momentgenererende funksjoner MX(t) og MY(t). Dersom MX(t)=MY(t) for alle t, er sannsynlighetsfordelingene til X og Y identiske.
Enkel lineær regresjon
Anta at Yi=β0+β1xi+ϵi, der ϵi∼N(0,σ2). Da er Yi∼N(β0+β1xi,σ2). Ved å estimere β0 og β1, kan vi estimere y(x).
\ \
For forenkling definerer vi:
Sxx=∑i=1n(xi−xˉ)2
Syy=∑i=1n(Yi−Yˉ)2
Sxy=∑i=1n(xi−xˉ)(Yi−Yˉ)=∑i=1n(xi−xˉ)Yi
\ \
Antagelser for lineær regresjonsmodell:
En klar sammenheng mellom xi og Yi.
Varians uavhengig av xi.
Støyleddene ϵi er normalfordelte og uavhengige.
Minste kvadraters metode
Minste kvadraters metode velger estimater β0^ og β1^ slik at SSE =∑i=1n(yi−yi^)2 blir minst mulig, der yi^=β^0+β^1xi. Resultatene blir β^1=SxxSxy og β^0=Yˉ−β1^xˉ.
SME
SME gir samme resultat for β0^ og β1^ som minste kvadraters metode. Men her har vi i tillegg σ^2=n1∑i=1n(Yi−β0^−β1^xi)2.
Egenskaper til regresjonsestimatorene
E[β1^]=β1
Var[β1^]=Sxxσ2
E[β^0]=β0
Var[β^0]=nSxxσ2∑i=1nxi2
S2=n−21∑i=1n(Yi−β^0−β^1xi)2 er en forventningsrett estimator for σ2, som gir T-fordeling med n−2 frihetsgrader.