工具介绍：使用 Optuna 进行超参数调优

共 7209字，需浏览 15分钟

· 2022-01-19

在机器学习中，除了一般可学习的参数外，还有一些参数需要预先设置，称为超参数。

超参数的值对于模型的性能至关重要，寻找在验证集上性能最佳的超参数称为超参数优化，然而这并不是一项简单的任务。

可以通过搜索方法来选择比较好的超参数。比如，Grid Search 和 Random Search 之类的方法。后者貌似带有一定随机性，但往往表现得比前者好。因为它以不均匀的间隔搜索超参数空间，避免了 Grid Search 的很多冗余操作。

除了这种搜索方式，我们还可以使用像 Optuna 这样的更加灵活强大的工具来应对这项任务。先安装它，

pip install optuna

1流程及简例

一个典型的 Optuna 的优化程序中只有三个最核心的概念，

objective，负责定义待优化的目标函数并指定参数的范围。
trial，对应目标函数 objective 的单次试验。
study，负责管理整个优化过程，决定优化的方式、总试验的次数、试验结果的记录等功能。

.简例 .

例如，在定义域内估计函数的最小值及其对应的。

我们就用这个例子来练练手，代码如下。

import optuna
 
def objective(trial):
    x = trial.suggest_uniform('x', 0, 1)
    y = trial.suggest_uniform('y', 0, 1)
    return (x + y) ** 2
 
study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=100)
 
print(study.best_params)
print(study.best_value)

{'x': 0.00136012038661543, 'y': 0.0003168904600867363}
2.8123653799567168e-06

首先，定义一个 objective 函数，即，其参数和采样自两个均匀分布。
然后，Optuna 创建了一个 study，指定了优化的方式为最小化并且最大实验次数为 100，然后将目标函数传入其中，开始优化过程。
最后，输出在 100 次试验中找到的最佳参数组合。

注意，上面例子是拿来演示它的使用流程，并不是拿它去解一般的最优化问题。

.可视化 .

等 study 结束，下一步就是查看结果，可以使用 Optuna 的内置可视化函数来查看 study 的各项进度。

下面用 plotly 来作多个方式的可视化。如果没有安装过，则安装它 pip install plotly。

下图显示了模型在多次迭代中的性能演化。预期的行为是模型性能随着搜索次数的增加而提高。

在 study.optimize 执行结束以后，调用 plot_contour，并将 study 和需要可视化的参数传入该方法，Optuna 将返回一张等高线图。

例如，当在上面的例子中，我们想要查看参数和的关系以及它们对于函数值的共同贡献，只需要下面的语句即可：

optuna.visualization.plot_contour(study, params=['x', 'y'])

还有其他形式的一些图，如通过展示超参数重要性可以了解到哪些超参数对模型的性能影响较大。

optuna.visualization.plot_param_importances(study)

2CNN 超参数优化例子

本文接下来结合 PyTorch 和 Optuna，来实验 CNN 模型在 MNIST 数据集上的超参数优化。

import matplotlib.pyplot as plt
import numpy as np

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader,TensorDataset,random_split,SubsetRandomSampler, ConcatDataset
from torch.nn import functional as F
import torchvision
from torchvision import datasets,transforms
import torchvision.transforms as transforms

import optuna
import os

DEVICE = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
CLASSES = 10
DIR = os.getcwd()
EPOCHS = 10
LOG_INTERVAL = 10

train_dataset = torchvision.datasets.MNIST('classifier_data', train=True, download=True)
m=len(train_dataset)

transform = torchvision.transforms.Compose([
    torchvision.transforms.ToTensor()
])

train_dataset.transform=transform

定义具体的卷积神经网络，并增加参数 trial 来设置要采样的超参数。

class ConvNet(nn.Module):
    def __init__(self, trial):
        # We optimize dropout rate in a convolutional neural network.
        super(ConvNet, self).__init__()

        self.conv1 = nn.Conv2d(in_channels=1, out_channels=16, kernel_size=5, stride=1, padding=2)

        self.conv2 = nn.Conv2d(in_channels=16, out_channels=32, kernel_size=5, stride=1, padding=2)
        dropout_rate = trial.suggest_float("dropout_rate", 0, 0.5,step=0.1)
        self.drop1=nn.Dropout2d(p=dropout_rate)   
        
        fc2_input_dim = trial.suggest_int("fc2_input_dim", 32, 128,32)
        self.fc1 = nn.Linear(32  7  7, fc2_input_dim)
        dropout_rate2 = trial.suggest_float("dropout_rate2", 0, 0.3,step=0.1)
        self.drop2=nn.Dropout2d(p=dropout_rate2)

        self.fc2 = nn.Linear(fc2_input_dim, 10)

    def forward(self, x):
        x = F.relu(F.max_pool2d(self.conv1(x),kernel_size = 2))

        x = F.relu(F.max_pool2d(self.conv2(x),kernel_size = 2))
        x = self.drop1(x)

        x = x.view(x.size(0),-1)

        x = F.relu(self.fc1(x))
        x = self.drop2(x)

        x = self.fc2(x)

        return x

定义函数来获取训练集中不同 batch_size 大小的批次数据。它将 train_dataset 和 batch_size 作为输入，并返回训练和验证数据加载器对象。

def get_mnist(train_dataset,batch_size):

    train_data, val_data = random_split(train_dataset, [int(m-m0.2), int(m0.2)])
    # The dataloaders handle shuffling, batching, etc...
    train_loader = torch.utils.data.DataLoader(train_data, batch_size=batch_size)
    valid_loader = torch.utils.data.DataLoader(val_data, batch_size=batch_size)
    return train_loader, valid_loader

接下来是定义目标函数，它通过采样程序来选择每次试验的超参数值，并返回在该试验中验证集上的准确度。

def objective(trial):

    # Generate the model.
    model = ConvNet(trial).to(DEVICE)

    # Generate the optimizers.

    # try RMSprop and SGD
    '''
    optimizer_name = trial.suggest_categorical("optimizer", ["RMSprop", "SGD"])
    momentum = trial.suggest_float("momentum", 0.0, 1.0)
    lr = trial.suggest_float("lr", 1e-5, 1e-1, log=True)
    optimizer = getattr(optim, optimizer_name)(model.parameters(), lr=lr,momentum=momentum)
    '''
    #try Adam, AdaDelta adn Adagrad
    
    optimizer_name = trial.suggest_categorical("optimizer", ["Adam", "Adadelta","Adagrad"])
    lr = trial.suggest_float("lr", 1e-5, 1e-1,log=True)
    optimizer = getattr(optim, optimizer_name)(model.parameters(), lr=lr)
    batch_size=trial.suggest_int("batch_size", 64, 256,step=64)

    criterion=nn.CrossEntropyLoss()

    # Get the MNIST imagesset.
    train_loader, valid_loader = get_mnist(train_dataset,batch_size)
    
    # Training of the model.
    for epoch in range(EPOCHS):
        model.train()
       
        for batch_idx, (images, labels) in enumerate(train_loader):
            # Limiting training images for faster epochs.
            #if batch_idx * BATCHSIZE >= N_TRAIN_EXAMPLES:
            #    break

            images, labels = images.to(DEVICE), labels.to(DEVICE)

            optimizer.zero_grad()
            output = model(images)
            loss = criterion(output, labels)
            loss.backward()
            optimizer.step()

        # Validation of the model.
        model.eval()
        correct = 0
        with torch.no_grad():
            for batch_idx, (images, labels) in enumerate(valid_loader):
                # Limiting validation images.
               # if batch_idx * BATCHSIZE >= N_VALID_EXAMPLES:
                #    break
                images, labels = images.to(DEVICE), labels.to(DEVICE)
                output = model(images)
                # Get the index of the max log-probability.
                pred = output.argmax(dim=1, keepdim=True)
                correct += pred.eq(labels.view_as(pred)).sum().item()

        accuracy = correct / len(valid_loader.dataset)

        trial.report(accuracy, epoch)

        # Handle pruning based on the intermediate value.
        if trial.should_prune():
            raise optuna.exceptions.TrialPruned()

    return accuracy

接着，创建一个 study 对象来最大化目标函数，然后使用 optimize 来展开试验，实验次数设为 20 次。

study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=20)

trial = study.best_trial

print('Accuracy: {}'.format(trial.value))
print("Best hyperparameters: {}".format(trial.params))

Accuracy: 0.98925
Best hyperparameters: {'dropout_rate': 0.0, 'fc2_input_dim': 64, 'dropout_rate2': 0.1, 'optimizer': 'Adam', 'lr': 0.006891576863485639, 'batch_size': 256}

df = study.trials_dataframe().drop(['state','datetime_start','datetime_complete','duration','number'], axis=1)
df.tail(5)

3可视化 study

先通过下面代码看一下各超参数的总体优化进展情况。

optuna.visualization.plot_optimization_history(study)

以及还可以查看不同超参数组合的等值线图，下图中只关注批次大小和学习率。

.超参数重要性 .

查看各个超参数对目标值的影响大小。

optuna.visualization.plot_param_importances(study)

.单个超参数切片 .

查看不同的单个超参数在多次试验中的变化情况，颜色对应试验次数。

optuna.visualization.plot_slice(study, params=['dropout_rate', 'batch_size', 'lr'])

4小结

Optuna 基于贝叶斯方法来进行超参数优化，提供了一种有效的搜索结构化，为模型超参数的选取提供了一种较为理想的解决方案，大家不妨在实践中增加对它的理解。

参考资料

图片

表情

【第129期】程序员的新宠：三款终端工具，让你告别Xshell！

概述 WindTerm：跨平台的SSH利器首先介绍的是WindTerm，这是一款使用C语言开发的跨平台SSH客户端。它不仅完全免费，而且没有商业使用的限制。WindTerm支持SSH v2、Telnet、Raw Tcp等协议，而且性能出色，甚至超过了FinalShell和Electerm。功能

前端微服务

AI论文写作工具和生成器（一）

随着人工智能和大模型的迅猛发展，AI对研究人员和学生提供了极大的写作便利。本文将介绍市面上常用的AI论文写作工具，帮助你提高论文写作效率并遵循学术道德。请仅将AI论文生成器视为辅助参考手段，切勿直接挪用全文。XPaper AlXPaper AI是由点击式创作工具晓语台推出的一款论文写作生成平台，只需

IQ前端

周四002 瑞超：同样落寞的境遇——北雪平vs埃尔夫斯堡

上赛季最终排名联赛第9的北雪平本赛季伊始表现不佳，4轮战罢他们仅以1胜1平2负的战绩排在倒数第三，这支历史上曾夺得13次联赛冠军、6次杯赛冠军老牌劲旅，正如英格兰赛场上的一众百年俱乐部，在低谷中不断探索着出路。球队主教练安德烈亚斯·阿尔姆曾是AIK索尔纳及赫根队的主教练，他于今年年初刚刚拿起球队教鞭

产品与体验

日本影山优佳最新杂志照，展现充满透明感的美丽

今天的图文分享的是影山优佳的杂志写真。元日向坂46的影山优佳，登上了写真杂志《周刊FLASH》5/7和‬5/14合并号的封面。影山优佳是日本艺人、女演员、前偶像。身高155厘米。2001年‬5月‬8日‬出生‬于‬东京都。2023年7月从组合日向坂46毕业，之后作为演员活跃的影山优佳，在《周刊FLAS

python教程

盘点一个使用超级鹰识别验证码并自动登录的案例

点击上方“Python共享之家”，进行关注回复“资源”即可获赠Python学习资料今日鸡汤江上几人在，天涯孤棹还。大家好，我是皮皮。一、前言前几天在Python钻石交流群【静惜】问了一个Python实现识别验证码并自动登录的问题，提问截图如下：验证码的截图如下所示：二、实现过程这里大家激烈的探讨，【

IT共享之家

Langchain使用 | 模型、提示和解析器、存储

零、LangChain介绍为各种不同基础模型提供统一接口- 帮助管理提示的框架- 一套中心化接口，用于处理长期记忆（参见Memory）、外部数据（参见Indexes）、其他 LLM（参见Chains）以及 LLM 无法处理的任务的其他代理（例如，计算或搜索）。总的来说，有六大核心模块：Models：

Python之王

请问哪位大佬有空？我自己搞不定pycharm安装调试了？

点击上方“Python共享之家”，进行关注回复“资源”即可获赠Python学习资料今日鸡汤残云归太华，疏雨过中条。大家好，我是Python进阶者。一、前言前几天在Python最强王者交流群【斌】问了一个Python环境安装的问题，请问哪位大佬有空？我自己搞不定pycharm安装调试了。二、实现过程这

IT共享之家

Stability AI开放Stable Diffusion 3 API，在线免费使用

「Stability AI」宣布开放其最新文本到图像生成模型「Stable Diffusion 3」的API接口，供开发者和企业使用。该模型采用创新的多模态扩散转换器架构，在字体、细节还原、提示理解等方面表现优异，评测结果超越了业内其他顶尖系统。与DALL-E 3和Midjourney v6等最先进

IQ前端

分享几个前端中好玩且有用的开源工具,总有一个适合你！

点击上方前端Q，关注公众号回复加群，加入前端Q技术交流群正所谓差生文具多,作为前端的我们,拥有几个合适的工具和网站可以很有效的提高我们的工具效率,还会有一些很有趣的网站可以在我们敲 bug 累了的时候供我们娱乐,接下来我就和大嘎分析一下我在用的一些工具和网站。聚合API该网站提供了大量的

前端Q

超赞！这个ChatGPT提问教程，PDF免费下载

你好，我是郭震AI来袭，我们该如何学习？今天先分享给大家一份超好的GPT提问指南。教程的详细介绍参考下面视频：这个PDF资料旨在教我们更好的给GPT发送指令，让GPT更准确的回答我们的提问。一共有30页，内容包括7个小章节，按照逻辑展开。分别介绍文本回答，代码辅助，结构化结果输出，非结构化结构输出，

Python与算法社区