train_classifier.py

import pickle

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np


data_dict = pickle.load(open('./data.pickle', 'rb'))

#print(data_dict.keys())
lens = []
padded_data = []
max_len = max([len(pt) for pt in data_dict['data']])
for point in data_dict['data']:
    if len(point)<max_len:
        padded_data.append(point+(max_len-len(point))*[0])
        continue
    padded_data.append(point)
print([len(l) for l in padded_data])
    
# print(data_dict['data'])

padded_data = np.asarray(padded_data)
labels = np.asarray(data_dict['labels'])

x_train, x_test, y_train, y_test = train_test_split(padded_data, labels, test_size=0.2, shuffle=True, stratify=labels)

model = RandomForestClassifier()

model.fit(x_train, y_train)

y_predict = model.predict(x_test)

score = accuracy_score(y_predict, y_test)

print('{}% of samples were classified correctly !'.format(score * 100))

f = open('model.p', 'wb')
pickle.dump({'model': model}, f)
f.close()