1．7．5 做出预测 -Python机器学习基础教程(上) - 码小课 - 程序员在线学习平台

当前位置:　首页>> 技术小册>> Python机器学习基础教程(上)

### 1.7.5 做出预测

在Python机器学习项目中，经过数据预处理、特征选择、模型训练等一系列步骤后，最终的目标往往是对未知数据进行预测或分类。本章“做出预测”将深入探讨如何利用训练好的模型进行预测，包括预测流程、评估预测结果的重要性，以及如何处理实际预测中可能遇到的问题。

#### 1.7.5.1 预测流程概览

预测流程通常分为以下几个步骤：

1. **准备测试数据**：首先，需要准备一套与训练数据格式一致但内容不同的数据集作为测试集。测试集应包含需要预测的目标变量（对于监督学习而言），但在进行预测时，我们只使用测试集的特征部分，目标变量用于后续评估预测准确性。

2. **加载训练好的模型**：使用训练阶段保存的模型参数，加载模型到内存中。这通常涉及使用如`joblib`、`pickle`或特定库（如TensorFlow的`tf.saved_model`）的序列化功能。

3. **执行预测**：将测试集的特征输入到模型中，执行预测操作。对于分类问题，预测结果通常是类别的标签；对于回归问题，则是连续值。

4. **评估预测结果**：通过比较预测结果与实际目标变量（即测试集的真实标签）来计算评估指标，如准确率、召回率、F1分数（对于分类问题）或均方误差（MSE）、R²分数（对于回归问题）。这些指标帮助量化模型的性能。

5. **解释与调优**：根据评估结果，分析模型表现不佳的可能原因，如过拟合、欠拟合、特征选择不当等，并据此调整模型参数或重新训练模型。

6. **部署模型**：一旦模型满足性能要求，就可以将其部署到生产环境中，用于实时或批量预测。

#### 1.7.5.2 实战案例：使用scikit-learn进行预测

以下是一个使用scikit-learn库进行简单线性回归预测的示例。

**步骤1：准备测试数据**

假设我们已有训练好的线性回归模型和一个包含新数据点的测试集。

```python
import numpy as np
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# 生成模拟数据
X, y = make_regression(n_samples=100, n_features=1, noise=0.1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
model = LinearRegression().fit(X_train, y_train)

# 准备测试数据（这里直接使用X_test作为示例）
# 在实际应用中，这些测试数据可能来自新的、未见过的数据源
```

**步骤2：加载训练好的模型**

由于在本例中我们直接训练了模型，所以无需额外加载步骤。但在实际应用中，你可能会从文件或数据库中加载已保存的模型。

**步骤3：执行预测**

```python
# 使用训练好的模型对测试集进行预测
y_pred = model.predict(X_test)
```

**步骤4：评估预测结果**

```python
from sklearn.metrics import mean_squared_error, r2_score

# 计算均方误差和R²分数
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R² Score: {r2}")
```

**步骤5：解释与调优**

根据MSE和R²分数的值，我们可以评估模型的性能。如果MSE较高或R²分数较低，可能需要检查数据预处理、特征选择或模型类型是否适合当前问题，并尝试调整模型参数（如正则化强度）或使用不同的模型。