Diskrete fordelinger I: uniform, Bernoulli og binomialfordeling
Sessionsmateriale:¶
Ross: 4.1., 4.2., 4.4., 4.6., 5.1, 5.4
Videoserien giver en hurtig gennemgang af diskrete fordelinger, og er en god introduktion til kurset og kan bruges som erstatning for læsestoffet.
Se Tutorial 2: Diskrete fordelinger: Uniform, Bernoulli og Binomial
Download tutorial som notebook (.ipynb)
Video Materiale:¶
Discrete Probability Distributions
Playliste med 13 videoer, der dækker diskrete fordelinger (også til session 3).
Sessionbeskrivelse¶
I denne session bygger vi videre på det fundament, der blev lagt sidst, ved at formalisere begrebet stokastiske variable. Hvor vi sidst arbejdede med deskriptiv statistik på observerede data, dykker vi nu ned i de underliggende matematiske modeller, der beskriver, hvordan data genereres. Vi skelner skarpt mellem diskrete og kontinuerte variable og introducerer de essentielle værktøjer til at beskrive dem: sandsynlighedsfunktioner, tæthedsfunktioner og fordelingsfunktioner.
Vi arbejder videre med forventningsværdi og varians, men definerer dem nu teoretisk ud fra fordelingerne snarere end blot som gennemsnit af et datasæt. Dette gør os i stand til at forudsige egenskaber ved data, før vi har målt dem. Endelig kobler vi teorien til praksis ved at gennemgå tre fundamentale standardfordelinger: Bernoulli- og binomialfordelingen, som er hjørnestenene i modellering af binære udfald (f.eks. succes/fiasko i softwaretest), samt Uniform-fordelingen, der beskriver situationer med lige stor sandsynlighed over et interval.
Centrale begreber¶
- Stokastiske variable: Diskrete vs. kontinuerte
- Funktioner: Tætheds- (PDF), sandsynligheds- (PMF) og fordelingsfunktioner (CDF)
- Nøgletal: Forventningsværdi (\(E[X]\)) og varians (\(Var(X)\))
- Diskrete fordelinger: Uniform,Bernoulli- og binomialfordeling
Læringsmål
- Kunne definere en stokastisk variabel og skelne mellem diskrete og kontinuerte typer.
- Kunne anvende og fortolke tæthedsfunktioner, sandsynlighedsfunktioner og fordelingsfunktioner til at beregne sandsynligheder.
- Kunne beregne forventningsværdi og varians ud fra en given fordeling.
- Kunne identificere situationer, der kan modelleres med en Binomialfordeling, og udføre beregninger herpå.
- Forstå egenskaberne ved en Ligefordeling og kunne anvende denne i simple modelleringssammenhænge.
Øvelser¶
Disse øvelser skal I kunne lave med og uden Python. I må gerne bruge Wolfram Alpha (se eventuelt tutorial til denne session).
Se løsninger til øvelserne (Python + WolframAlpha)
Download løsningsnotebook (.ipynb)
Øvelse 1¶
A computer system uses passwords that are exactly six characters and each character is one of the 26 letters (a–z) or 10 integers (0–9). Suppose that 10,000 users of the system have unique passwords. A hacker randomly selects (with replacement) 100,000 passwords from the potential set, and a match to a user’s password is called a hit.
- What is the distribution of the number of hits?
- What is the probability of no hits?
- What are the mean and variance of the number of hits?
- The distribution of the number of hits is Binomial with \(n = 10^5\) and \(p=\frac{10^4}{36^6}\)
- \(P(X=0) = 0.6317\)
- \(\mu = \sigma^2 = 0.4594\)
Øvelse 2¶
Because all airline passengers do not show up for their reserved seat, an airline sells 125 tickets for a flight that holds only 120 passengers. The probability that a passenger does not show up is 0.10, and the passengers behave independently.
- What is the probability that every passenger who shows up can take the flight?
- What is the probability that the flight departs with empty seats?
- $p = 0.9961 $
- \(p = 0.9886\)
Øvelse 3¶
A congested computer network has a 1% chance of losing a data packet that must be resent, and packet losses are independent events. An e-mail message requires 100 packets.
- What is the probability that at least one packet is resent?
- What is the probability that two or more packets are resent?
- What are the mean and standard deviation of the number of packets that are resent?
- If there are 10 messages and each contains 100 packets, what is the probability that at least one message requires that two or more packets be resent?
- \(P(X \geq 1)=0.634\)
- \(P(X \geq 2)=0.2642\)
- \(\mu = 1, \sigma = 0.995\)
- \(P(Y \geq 1)=0.9535\)
Øvelse 4¶
The probability that a patient recovers from a rare blood disease is 0.4. If 15 people are known to have contracted this disease, what is the probability that:
- At least 10 survive
- From 3 to 8 survive
- Exactly 5 survive
- Find the mean and variance.
- \(P(X \geq 10) \approx 0.0338\)
- \(P(3 \leq X \leq 8) \approx 0.8778\)
- \(P(X=5) \approx 0.1859\)
- \(\mu = 6, \sigma^2 = 3.6\)
Øvelse 5¶
Let \(X\) and \(Y\) be two independent discrete random variables with the following PMFs:
For \(X\):
For \(Y\):
- Find \(P(X<2 \text{ and } Y<2)\).
- Find \(P(X \ge 2 \text{ or } Y \ge 2)\).
- Find \(P(X \ge 2 \mid Y \ge 2)\).
- Find \(P(X < Y)\).
- 0.12
- 0.88
- 0.70
- 0.26