import numpy as np
import matplotlib.pyplot as plt
np.set_printoptions(precision=3, suppress=True)


import os
import urllib
import numpy as np

base = r"https://github.com/SageLabTW/auto-grading/raw/master/nsysu-digits/"
for c in ['X', 'y']:
    filename = "nsysu-digits-%s.csv"%c
    if filename not in os.listdir('.'):
        print(filename, 'not found --- will download')
        urllib.request.urlretrieve(base + c + ".csv", filename)

A = np.array([[1,1,-1,-1],
              [1,1,-2,-2],
              [2,2,-1,-1]])
grid = np.meshgrid(np.arange(3), 
                   np.arange(3), 
                   np.arange(3))
xx = grid[0].ravel()
yy = grid[1].ravel()
zz = grid[2].ravel()
C = np.vstack([xx, yy, zz]).T


A = np.array([[1,1,-1,-1],
              [1,1,-2,-2],
              [2,2,-1,-1]])
grid = np.meshgrid(np.arange(3), 
                   np.arange(3), 
                   np.arange(3))
xx = grid[0].ravel()
yy = grid[1].ravel()
zz = grid[2].ravel()
C = np.vstack([xx, yy, zz]).T
X = C.dot(A)

from sklearn.decomposition import PCA
model = PCA(1)
X_new = model.fit_transform(X)
model.components_

array([[-0.5, -0.5,  0.5,  0.5]])

A = np.array([[1,1,-1,-1],
              [1,1,-2,-2],
              [2,2,-1,-1]])
grid = np.meshgrid(np.arange(3), 
                   np.arange(3), 
                   np.arange(3))
xx = grid[0].ravel()
yy = grid[1].ravel()
zz = grid[2].ravel()
C = np.vstack([xx, yy, zz]).T


A = np.array([[1,1,-1,-1],
              [1,1,-2,-2],
              [2,2,-1,-1]])
grid = np.meshgrid(np.arange(3), 
                   np.arange(3), 
                   np.arange(3))
xx = grid[0].ravel()
yy = grid[1].ravel()
zz = grid[2].ravel()
C = np.vstack([xx, yy, zz]).T
X = C.dot(A)

from sklearn.decomposition import PCA
model = PCA(4)
X_new = model.fit_transform(X)
plt.plot(np.arange(1,5), model.explained_variance_ratio_.cumsum())
print("2 dimension is enough to get almost 100% explained variance.")

2 dimension is enough to get almost 100% explained variance.


mus = np.array([[1,1,-1,-1],
                [1,1,-2,-2],
                [2,2,-1,-1]])
p = np.array([2,2,2,1])

dist = np.linalg.norm(mus - p, axis=1)
dist.argmin()

2

Xsys = np.genfromtxt('nsysu-digits-X.csv', dtype=int, delimiter=',') ### flattened already
ysys = np.genfromtxt('nsysu-digits-y.csv', dtype=int, delimiter=',')
X = Xsys[ysys==1]


Xsys = np.genfromtxt('nsysu-digits-X.csv', dtype=int, delimiter=',') ### flattened already
ysys = np.genfromtxt('nsysu-digits-y.csv', dtype=int, delimiter=',')
X = Xsys[ysys==1]

from sklearn.cluster import DBSCAN
model = DBSCAN(eps=1100, min_samples=5)
model.fit(X)

# The problem did not provide you with 
# the hyperparameters eps and min_samples,
# so any answer is correct.  
# Everyone will receive 2 points for this problem.
model.core_sample_indices_.shape

(109,)

x = np.arange(1,11)
y = 0.3 * x + 5 + 0.5*np.sin(x)


x = np.arange(1,11)
y = 0.3 * x + 5 + 0.5*np.sin(x)
X = x[:,np.newaxis]

from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X, y)
y_new = model.predict(X)
plt.plot(x, y_new, c='red')
plt.scatter(x, y)

print('c0 =', model.intercept_)
print('c1 =', *model.coef_)

c0 = 5.1836863219109155
c1 = 0.2794314721181791

x = np.linspace(-1.5,-0.5,10)
y = np.sin(x)


x = np.linspace(-1.5,-0.5,10)
y = np.sin(x)
X = np.vstack([x, np.exp(x)]).T

from sklearn.linear_model import LinearRegression
model = LinearRegression(fit_intercept=False)
model.fit(X, y)
y_new = model.predict(X)
plt.plot(x, y_new, c='red')
plt.scatter(x, y)

print('c0, c1 =', model.coef_)

c0, c1 = [ 0.665 -0.346]

Xsys = np.genfromtxt('nsysu-digits-X.csv', dtype=int, delimiter=',') ### flattened already
ysys = np.genfromtxt('nsysu-digits-y.csv', dtype=int, delimiter=',')
mask = (ysys==4) | (ysys==5)
X = Xsys[mask]
y = ysys[mask]


Xsys = np.genfromtxt('nsysu-digits-X.csv', dtype=int, delimiter=',') ### flattened already
ysys = np.genfromtxt('nsysu-digits-y.csv', dtype=int, delimiter=',')
mask = (ysys==4) | (ysys==5)
X = Xsys[mask]
y = ysys[mask]

from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier(5)
model.fit(X, y)

from PIL import Image
img = Image.open('sampleJ_000.png')
img = np.array(img)

X_new = img.reshape(1,784)
y_new = model.predict(X_new)
y_new

/home/jephian/.local/lib/python3.10/site-packages/sklearn/neighbors/_classification.py:228: FutureWarning: Unlike other reduction functions (e.g. `skew`, `kurtosis`), the default behavior of `mode` typically preserves the axis it acts along. In SciPy 1.11.0, this behavior will change: the default value of `keepdims` will become False, the `axis` over which the statistic is taken will be eliminated, and the value None will no longer be accepted. Set `keepdims` to True or False to avoid this warning.
  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)

array([5])

Xsys = np.genfromtxt('nsysu-digits-X.csv', dtype=int, delimiter=',') ### flattened already
ysys = np.genfromtxt('nsysu-digits-y.csv', dtype=int, delimiter=',')
mask = (ysys==4) | (ysys==5)
X = Xsys[mask]
y = ysys[mask]


Xsys = np.genfromtxt('nsysu-digits-X.csv', dtype=int, delimiter=',') ### flattened already
ysys = np.genfromtxt('nsysu-digits-y.csv', dtype=int, delimiter=',')
mask = (ysys==4) | (ysys==5)
X = Xsys[mask]
y = ysys[mask]

from PIL import Image
img = Image.open('sampleJ_000.png')
img = np.array(img)

X_new = img.reshape(1,784)
dist = np.linalg.norm(X - X_new, axis=1)
nbrs = np.argpartition(dist, 4)[:5]
votes = y[nbrs]
print(votes)

[4 5 4 5 5]


print("Node #4")

Node #4

tree.children_left  = [1, 3, 5, -1, -1, 7, -1, -1, -1]
tree.children_right = [2, 4, 6, -1, -1, 8, -1, -1, -1]

Xsys = np.genfromtxt('nsysu-digits-X.csv', dtype=int, delimiter=',') ### flattened already
ysys = np.genfromtxt('nsysu-digits-y.csv', dtype=int, delimiter=',')
X = Xsys[:1300]
y = ysys[:1300]
X_test = Xsys[1300:]
y_test = ysys[1300:]


Xsys = np.genfromtxt('nsysu-digits-X.csv', dtype=int, delimiter=',') ### flattened already
ysys = np.genfromtxt('nsysu-digits-y.csv', dtype=int, delimiter=',')
X = Xsys[:1300]
y = ysys[:1300]
X_test = Xsys[1300:]
y_test = ysys[1300:]

from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier()
model.fit(X, y)
y_model = model.predict(X_test)

from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_model)

0.36578171091445427

Math599 2023S¶

ML exam¶

Problem 1 [2pt]¶

Problem 2 [2pt]¶

Problem 3 [2pt]¶

Problem 4 [2pt]¶

Problem 5 [2pt]¶

Problem 6 [2pt]¶

Problem 7 [2pt]¶

Problem 8 [2pt]¶

Problem 9 [2pt]¶

Problem 10 [2pt]¶

Problem 11 [extra 2pt]¶