import project 

import sklearn
import sklearn.linear_model
import sklearn.discriminant_analysis

project.notebook()


records = project.sql_query(""" 
    SELECT vector, category FROM talks
    WHERE  vector IS NOT NULL
    ORDER BY slug ASC;
""")

(x, y), (z, t)                       \
    = train_set, test_set            \
    = splits                         \
    = project.split_in_sets( records )

project.describe_sets(splits)

train_set  =>  (0, 1376) (1, 1572) (2, 1052) 
test_set   =>  (0,  243) (1,  275) (2,  192)


lr  = sklearn.linear_model.LogisticRegression( 
    multi_class='multinomial', penalty='none', solver='lbfgs',
    max_iter=400, tol=1e-2, fit_intercept=False, C=2,
    class_weight=project.class_weights(y)
).fit(x,y)


p = lr.predict(z) 

confusion_matrix          = project.confusion_matrix (t,p)
accuracy,precision,recall = project.present_metrics  (t,p)

accuracy    0.7408450704225352
precision   0.7365318176479799
recall      0.7403739556054371


rc  = sklearn.linear_model.RidgeClassifier( 
    alpha=0.1, solver='svd',
    fit_intercept=True, normalize=True,
    class_weight=project.class_weights(y)
).fit(x,y)


p   = rc.predict(z) 

confusion_matrix          = project.confusion_matrix (t,p)
accuracy,precision,recall = project.present_metrics  (t,p)

accuracy    0.7563380281690141
precision   0.7522610013922973
recall      0.7541861516398555


sgd = sklearn.linear_model.SGDClassifier( 
    alpha=0.0001, epsilon=0.2, random_state=6,
    max_iter=400, tol=1e-2, fit_intercept=True,
    eta0=0.001, learning_rate='optimal',
    class_weight=project.class_weights(y)
).fit(x,y)


p = sgd.predict(z) 

confusion_matrix          = project.confusion_matrix (t,p)
accuracy,precision,recall = project.present_metrics  (t,p)

accuracy    0.7211267605633803
precision   0.731389816581849
recall      0.7236507825165233


lda = sklearn.discriminant_analysis.LinearDiscriminantAnalysis(tol=0.02).fit(x,y)


p = lda.predict(z)

confusion_matrix          = project.confusion_matrix (t,p)
accuracy,precision,recall = project.present_metrics  (t,p)

accuracy    0.7535211267605634
precision   0.752896152811407
recall      0.7458835266242674


qda = sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis(tol=0.02).fit(x,y)


p = qda.predict(z)

confusion_matrix          = project.confusion_matrix (t,p)
accuracy,precision,recall = project.present_metrics  (t,p)

accuracy    0.7225352112676057
precision   0.7226533786346861
recall      0.707300473874548

Logistic Regression¶

Ridge Classifier¶

Stochastic Gradient Descent Classifier¶

Linear Discriminant Analysis¶

Quadratic Discriminant Analysis¶