import numpy as np
import matplotlib.pyplot as plt
import datasource
import fit_experiments

#plt.rcParams["figure.figsize"] = (7.5,5.5)

ds = datasource.DataSource(seed=200)
x, y = ds.gen_data(80)

model1 = fit_experiments.BaggingTreeRegression(num_trees=1,
                                               max_leaf_nodes=10000000)

model1.fit(x,y)
model1.plot(x, y)

num_trees2 = 30

model2 = fit_experiments.BaggingTreeRegression(num_trees=num_trees2,
                                               max_leaf_nodes=100000)
model2.fit(x,y)
model2.plot(x, y)

num_trees1 = 1
max_leaf_nodes1 = 1000000

num_trees2 = 30
max_leaf_nodes2 = 1000000


plt.subplot(121)
print("Single Tree:")
fit_experiments.bias_variance_experiment(num_trials=100, train_size=80, 
                                        max_leaf_nodes=max_leaf_nodes1,
                                        num_trees=num_trees1,
                                        source=ds)
plt.title('trees: {}'.format(num_trees1))

plt.subplot(122)
print("\n{} Tree Ensemble:".format(num_trees2))
fit_experiments.bias_variance_experiment(num_trials=100, train_size=80, 
                                        max_leaf_nodes=max_leaf_nodes2,
                                        num_trees=num_trees2,
                                        source=ds)
plt.title('trees: {}'.format(num_trees2))
plt.show()

Single Tree:
mean squared bias: 0.0006
mean variance: 0.0726

30 Tree Ensemble:
mean squared bias: 0.0005
mean variance: 0.0367

Ensemble Methods - Bagging¶

Bagging and Variance¶