Chapter 1 Exercises

Solution to exercise 1.1

Given

\[ E(\bar w) = \frac12 \sum_{n=1}^N \left( x_n^M w_M + \dots + x_n w_1 + w_0 - t_n \right)^2 \]

Compute the partial derivative

\[ \frac{\partial E}{\partial w_i} = \sum_{n=1}^N x_n^i \left( x_n^M w_M + \dots + x_n w_1 + w_0 - t_n \right) \]

Set the partial derivatives to zero to get $w$ that minimizes $E$

\[ \frac{\partial E}{\partial w_i} = \sum_{n=1}^N x_n^i \left( x_n^M w_M + \dots + x_n w_1 + w_0 - t_n \right) = 0 \]

\[ = \sum_{n=1}^N x_n^{M+i} w_M + \dots + x_n^{1+i} w_1 + x_n^{0 + i}w_0 - x_n^{i} t_n = 0 \]

\[ = \sum_{n=1}^N x_n^{M+i} w_M + \dots + x_n^{1+i} w_1 + x_n^{0 + i}w_0 = \sum_{n=1}^N x_n^{i} t_n \]

\[ = w_M \sum_{n=1}^N x_n^{M+i} + \dots + w_j \sum_{n=1}^N x_n^{j+i} + \dots + w_0 \sum_{n=1}^N x_n^{0 + i} = \sum_{n=1}^N x_n^{i} t_n \]

\[ = A_{iM} w_M + \dots + A_{ij} w_j + \dots + A_{i0} w_0 = T_i \]

\[ = \sum_{j=1}^M A_{ij}w_j = T_i \]

Solution to exercise 1.2

Given

\[ E(\bar w) = \frac12 \sum_{n=1}^N \left( x_n^M w_M + \dots + x_n w_1 + w_0 - t_n \right)^2 + \frac\lambda2 || \bar w ||^2 \]

Compute the partial derivative

\[ \frac{\partial E}{\partial w_i} = \left[ \sum_{n=1}^N x_n^i \left( x_n^M w_M + \dots + x_n w_1 + w_0 - t_n \right) \right] + \lambda w_i \]

Set the partial derivatives to zero to get $w$ that minimizes $E$

\[ \frac{\partial E}{\partial w_i} = \sum_{n=1}^N x_n^i \left( x_n^M w_M + \dots + x_n w_1 + w_0 - t_n \right) + \lambda w_i = 0 \]

\[ = \sum_{n=1}^N x_n^{M+i} w_M + \dots + x_n^{1+i} w_1 + x_n^{0 + i}w_0 - x_n^{i} t_n + \lambda w_i = 0 \]

\[ = \sum_{n=1}^N x_n^{M+i} w_M + \dots + x_n^{1+i} w_1 + x_n^{0 + i}w_0 + \lambda w_i = \sum_{n=1}^N x_n^{i} t_n \]

\[ = w_M \sum_{n=1}^N x_n^{M+i} + \dots + w_i (\lambda + \sum_{n=1}^N x_n^{2i}) + \dots + w_0 \sum_{n=1}^N x_n^{0 + i} = \sum_{n=1}^N x_n^{i} t_n \]

\[ = \hat A_{iM} w_M + \dots + \hat A_{ij} w_j + \dots + \hat A_{i0} w_0 = T_i \]

\[ = \sum_{j=1}^M \hat A_{ij}w_j = T_i \]

where

\[ \hat A_{ij} = \begin{cases} \lambda + \sum_{n=1}^N x_n^{2i} & \text{if } i = j \\ \sum_{n=1}^N x_n^{j+i} & \text{otherwise} \end{cases} \]

or simply

\[ \hat A = \lambda I_M + A \]

Solution to exercise 1.3

The probability of selecting an apple is

\[ \begin{split} P(a) &= P(a, r) + P(a, b) + P(a, g) \\ &= P(a \mid r)P(r) + P(a \mid b)P(b) + P(a \mid g)P(g) \\ &= 3/10 \times 0.2 + \frac12 \times 0.2 + 3/10 \times 0.6 = 0.34 \end{split} \]

Following the Bayes theorem, the probability of the selected box being green given that the selected fruit is an orange is

\[ P(g \mid o) = \frac{P(o \mid g) P(g)}{P(o)} = \frac{0.3 \times 0.6}{0.36} = 0.5 \]

where

\[ \begin{split} P(o) &= P(o, r) + P(o, b) + P(o, g) \\ &= P(o \mid r)P(r) + P(o \mid b)P(b) + P(o \mid g)P(g) \\ &= 4/10 \times 0.2 + \frac12 \times 0.2 + 3/10 \times 0.6 = 0.36 \end{split} \]

Solution to exercise 1.4

Revised solution from Bishop's solution manual.

Let $g$ be a non-linear change of variable $x = g (y)$ , for probability density functions we know that $p_{y} (y) = p_{x} (g (y)) \cdot ∣ g^{'} (y) ∣$ Let $\overset{x}{^}, \overset{y}{^}$ be the maximum of $p_{x}, p_{y}$ densities respectively. Let $s = sign (g^{'} (y)) \in {- 1, 1}$ and re-write: $p_{y} (y) = p_{x} (g (y)) \cdot s g^{'} (y)$ Differentiate both sides: $p^{'} (y) = s p_{x}^{'} (g (y)) [g^{'} (y)]^{2} + s p_{x} (g (y)) g^{''} (y)$ Suppose that $\overset{x}{^} = g (\overset{y}{^})$ , then $p^{'} (\overset{y}{^}) = s p_{x}^{'} (g (\overset{y}{^})) [g^{'} (\overset{y}{^})]^{2} + s p_{x} (g (\overset{y}{^})) g^{''} (\overset{y}{^}) = s p_{x}^{'} (\overset{x}{^}) [g^{'} (\overset{y}{^})]^{2} + s p_{x} (\overset{x}{^}) g^{''} (\overset{y}{^}) = s \cdot 0 \cdot [g^{'} (\overset{y}{^})]^{2} + s p_{x} (\overset{x}{^}) g^{''} (\overset{y}{^}) = s p_{x} (\overset{x}{^}) g^{''} (\overset{y}{^}) = 0$ Where:

$s \in {- 1, 1}$ cannot be zero
$p_{x} (\overset{x}{^})$ is the maximum probability, thus cannot be zero

This means $\frac{\partial ^{2} g ( y ^ )}{\partial y ^{2}}$ has to be 0, which depends on $g$ , hence the relation $\overset{x}{^} = g (\overset{y}{^})$ may not hold. If $g$ is linear, then the second derivative of $g$ is 0 and the relation $\overset{x}{^} = g (\overset{y}{^})$ is valid.

Solution to exercise 1.5

$v a r [X] = \int p (x) [f (x) - E [f (x)]]^{2} d x = \int p (x) [f (x)^{2} - 2 E [f (x)] f (x) + E [f (x)]^{2}] d x = \int (p (x) f (x)^{2} - 2 p (x) E [f (x)] f (x) + p (x) E [f (x)]^{2}) d x = \int p (x) f (x)^{2} d x - 2 \int p (x) E [f (x)] f (x) d x + \int p (x) E [f (x)]^{2} d x = E [f (x)^{2}] - 2 E [f (x)] \int p (x) f (x) d x + E [f (x)]^{2} \int p (x) d x = E [f (x)^{2}] - 2 E [f (x)]^{2} + E [f (x)]^{2} = E [f (x)^{2}] - E [f (x)]^{2}$

Solution to exercise 1.6

From 1.41

$co v (x, y) = E_{x, y} [x y] - E [x] E [y]$

But if x and y are indipendent, then

$E_{x, y} [x y] = \int\int p (x, y) x y d x d y = \int\int x p (x) y p (y) d x d y = E [x] \int y p (y) d y = E [x] E [y]$

Therefore $co v (x, y) = 0$ .

Solution to exercise 1.32

Let $x \sim p_{x} (x)$ and let $y = A x$ be a linear change of variable. In that case, the jacobian factor is the determinant $∣ A ∣$ and we can write

$p_{y} (y) = p_{x} (y) ∣ A ∣$

So we can write

$H (y) = - \int p_{y} (y) ln p_{y} (y) d y = - \int p_{y} (y) ln [p_{x} (y) ∣ A ∣] d y = - \int p_{y} (y) [ln p_{x} (y) + ln ∣ A ∣] d y = [- \int p_{y} (y) ln p_{x} (y) d y] - ln ∣ A ∣ \int p_{y} (y) d y = [- \int p_{y} (y) ln p_{x} (y) d y] - ln ∣ A ∣$

(last steps: solve the integral on the left-hand side using the substitution $A^{- 1} y = x$ remembering that A is non-singular)

pattern-recognition-and-machine-learning