"Learning" a Probability Distributions

We can learn a joint probability distribution from data by counting occurrences and computing relative frequencies.

Example: Suppose we examine 10 patients and observe:

Data