PyCaret：机器学习模型开发变得简单

May 18, 2022

在当今快节奏的数字世界中，机构们使用低代码/无代码（LC/NC）应用来快速构建新的信息系统。本文将介绍 PyCaret，这是一个用 Python 编写的低代码机器学习库。

Featured-image-of-pycaret

PyCaret 是 R 编程语言中 Caret（分类和回归训练 Classification And REgression Training 的缩写）包的 Python 版本，具有许多优点。

提高工作效率： PyCaret 是一个低代码库，可让你提高工作效率。由于花费更少的时间进行编码，你和你的团队现在可以专注于业务问题。
易于使用： 这个简单易用的机器学习库将帮助你以更少的代码行执行端到端的机器学习实验。
可用于商业： PyCaret 是一个可用于商业的解决方案。它允许你从选择的 notebook 环境中快速有效地进行原型设计。

你可以在 Python 中创建一个虚拟环境并执行以下命令来安装 PyCaret 完整版：

pip install pycaret [full]

机器学习从业者可以使用 PyCaret 进行分类、回归、聚类、异常检测、自然语言处理、关联规则挖掘和时间序列分析。

使用 PyCaret 构建分类模型

本文通过从 PyCaret 的数据仓库中获取 Iris 数据集来解释使用 PyCaret 构建分类模型。

我们将使用 Google Colab 环境使事情变得简单，并按照下面提到的步骤进行操作。

步骤 1

首先，通过给出以下命令安装 PyCaret：

pip install pycaret

步骤 2

接下来，加载数据集，如图 2 所示：

Loading the data set

from pycaret.datasets import get_data
dataset = get_data('iris') 
（或者）
import pandas as pd 
dataset = pd.read_csv('/path_to_data/file.csv')

步骤 3

现在设置 PyCaret 环境，如图 2 所示：

PyCaret environment setup

from pycaret.classification import *
clf1 = setup(data=dataset, target = ‘species’)

PyCaret environment setup result

使用 PyCaret 构建任何类型的模型，环境设置是最重要的一步。默认情况下，setup() 函数接受参数 data（Pandas 数据帧）和 target（指向数据集中的类标签变量）。setup() 函数的结果如图 3 所示。 setup() 函数默认将 70% 的数据拆分为训练集，30% 作为测试集，并进行数据预处理，如图 3 所示。

步骤 4

接下来，找到最佳模型，如图 4 所示：

Finding the best model

best = compare_models()

默认情况下，compare_models() 应用十倍交叉验证，并针对具有较少训练时间的不同分类器计算不同的性能指标，如准确度、AUC、召回率、精度、F1 分数、Kappa 和 MCC，如图 4 所示。通过将 tubro=True 传递给 compare_models() 函数，我们可以尝试所有分类器。