import project 

import numpy   as np
import xgboost as xgb
import sklearn
import sklearn.tree
import sklearn.ensemble

project.notebook()


records = project.sql_query(""" 
    SELECT vector, category FROM talks
    WHERE  vector IS NOT NULL
    ORDER BY slug ASC;
"""); pruning_method = 'IF'

records = project.prune_outliers(records, pruning_method)

(x, y), (z, t)                       \
    = train_set, test_set            \
    = splits                         \
    = project.split_in_sets( records )

project.describe_sets(splits)

Data reduced from 4710 to 4456 (-5.39%).

train_set  =>  (0, 1383) (1, 1556) (2, 1061) 
test_set   =>  (0,  156) (1,  193) (2,  107)


xgbc = xgb.XGBClassifier( 
    objective='multi:softprob', eval_metric='rmse',
    sampling_method='gradient_based', num_parallel_tree=2
).fit(np.array(x), np.array(y))


p = xgbc.predict(np.array(z)) 

confusion_matrix          = project.confusion_matrix (t,p)
accuracy,precision,recall = project.present_metrics  (t,p)

accuracy    0.756578947368421
precision   0.7432107124050251
recall      0.7336024372487499


dtc = sklearn.tree.DecisionTreeClassifier ( 
    criterion='entropy', splitter='best',
    max_depth=None, min_samples_split=3,
    ccp_alpha=0.0, random_state=42,
    class_weight=project.class_weights(y)
).fit(x,y)


p = dtc.predict(z) 

confusion_matrix          = project.confusion_matrix (t,p)
accuracy,precision,recall = project.present_metrics  (t,p)

accuracy    0.6337719298245614
precision   0.6082343425907472
recall      0.6071408764377628


rfc = sklearn.ensemble.RandomForestClassifier ( 
    n_estimators=400, criterion='entropy',
    max_depth=None, min_samples_split=3,
    ccp_alpha=0.0, random_state=42, bootstrap=True,
    class_weight=project.class_weights(y)
).fit(x,y)


p = rfc.predict(z) 

confusion_matrix          = project.confusion_matrix (t,p)
accuracy,precision,recall = project.present_metrics  (t,p)

accuracy    0.7456140350877193
precision   0.7359055108256612
recall      0.71329278977819

eXtreme Gradient Boosting Classifier¶

Decision Trees Classifier¶

Random Forest Classifier¶