Качество машинного моделирования (машинного обучения) определяется по тому, насколько верно угадала обученная на тренировочной выборке исторических данных, применённая к тестовой выборке тех же исторических данных.
Тоесть всю базу данных с историческими данными делят на две группы (обычно в соотношении 80 – 20).
Качество угадывания разных применённых моделей мы сравниваем по специальным метрикам.
Вот функция для печати метрик качества машинного моделирования:
import pandas as pd from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score from sklearn.metrics import roc_auc_score # определим функцию, которая будет выводить наши метрики def print_all_metrics(y_true, y_pred, y_proba, title='Метрики классификации'): print(title) print('\tAccuracy: {:.2f}'.format(accuracy_score(y_true, y_pred))) print('\tPrecision: {:.2f}'.format(precision_score(y_true, y_pred))) print('\tRecall: {:.2f}'.format(recall_score(y_true, y_pred))) print('\tF1: {:.2f}'.format(f1_score(y_true, y_pred))) print('\tROC_AUC: {:.2f}'.format(roc_auc_score(y_true, y_proba)))