AB-Gen 抗体设计

Jun 16, 2023 2563 words 6 minutes

Contents

今天给大家介绍的文章是来自沙特阿卜杜拉国王科技大学 (KAUST) 高欣教授课题组 (http://cemse.kaust.edu.sa/sfb) 和中科院福建物质结构研究所张璐研究员团队开发的基于生成式预训练 Transformer (GPT) 和强化学习设计抗体库的方法，AB-Gen，于近日发表在《Genomics, Proteomics & Bioinformatics》上，文章的第一作者是KAUST的博士生徐晓鹏。

概要

抗体能够特异性识别和结合抗原，具有广泛的临床应用。目前，已经有上百种抗体药物在临床试验中或已经上市，用于治疗癌症、自身免疫性疾病、传染性疾病等多种病症。然而，开发高药效的抗体药物，需要对抗体序列进行多属性优化，包括特异性、亲和力、溶解度、粘度、表达水平和免疫原性等。优化过程通常耗时长、成本高、成功率低，成为抗体药物研发的瓶颈。

为解决这一难题，AB-Gen 采用了基于 GPT 的强化学习框架，能够生成满足多个属性约束条件的新型 CDRH3 序列。

背景

近年来，特别是在 AlphaFold 2 成功之后，蛋白质从头设计得到了关注，并且已经有几种方法可以设计具有特定结构的蛋白质。例如，RFDesign 可以设计具有特定功能的蛋白质，例如免疫原、酶活性和蛋白质相互作用。这类方法以结构约束为指导，能设计符合特定结构的蛋白质序列，从而设计新的蛋白。尽管有前景，但这类方法无法优化与结构无直接关系的属性，例如溶解度和粘度，因此不能用于抗体多属性优化任务。

基于计算的抗体设计是一个新兴的研究领域。目前已经有一些深度学习方法来生成新的抗体序列。例如，2021 年发表在 Nature communications 的一项研究中，自回归卷积神经网络被用于生成互补决定区 (CDR3) 序列。他们在大约120万个天然抗体序列上训练模型，并用训练好的模型生成的 CDR3 序列。模型生成的库比随机序列库的表达性能高出1000倍，证明了生成模型学到了抗体序列的表达性能。另一项 2022 年发表在 MAbs 的工作在 70,000 个重链互补决定区 (CDRH3) 序列上预训练了一个 LSTM，并使用分子对接数据集或预测模型进行微调，以生成对抗原有高亲和力的序列。此外，Transformer 也被用于设计抗体序列。一项 2021 年发布在 bioRxiv 的工作使用 Transformer 解码器生成 CDRH3序列。他们在 5.58 亿条抗体可变区序列上训练模型，并增加了链类型和物种信息，能生成比随机基线更好的序列。另一项 2022 年发表在 MAbs 上的工作使用 Transformer 编码器将人类和非人类序列区分，可以高精度地分离人类和非人类抗体序列，从而指导抗体的优化。这些研究显示了生成模型可以学习有用的抗体信息，但它们都没有针对抗体设计中多属性优化问题。

方法

**AB-Gen 的核心思想是利用深度强化学习来探索抗体序列空间，从而生成具有期望属性的序列。**深度强化学习是一种让机器通过与环境的交互来学习最优行为的方法，它由一个智能体和环境组成。智能体根据环境的状态采取动作，并从环境中获得奖励。智能体的目标是最大化累积奖励，即找到最优的策略。在 AB-Gen 中，智能体是一个 GPT。GPT 的优点是它可以利用大量的无标签数据进行预训练，从而学习到通用的语言模型，然后在特定的任务上进行微调，提高性能。在 AB-Gen 中，GPT 作为策略网络，生成给定长度的 CDRH3 序列。环境是一个属性评估器，它可以对生成的序列进行多个属性的评估，并给出相应的奖励。这些属性包括特异性、粘度、清除速率和免疫原性等。属性评估器可以使用现有的属性预测模型或实验检测结果来构建。状态是当前生成的序列。动作是一个字符，表示要添加到当前序列末尾的氨基酸。

**AB-Gen 的训练过程分为两个阶段：预训练和强化学习。**在预训练阶段，GPT 使用了超过7,500万条来自 OAS 数据库的 CDRH3 序列来进行无监督学习，从而学习到 CDRH3 序列空间的分布和规律。在强化学习阶段，GPT 使用了一种基于策略梯度的算法，REINFORCE，来调整模型参数，使其能够生成具有期望属性的序列。具体地说，**GPT 通过与属性评估器交互，获得每个序列的奖励，并根据奖励更新模型参数。**这样，GPT 就可以逐渐优化其策略，从而生成更优质的序列。

**图 1 AB-Gen 的工作流程。**从 OAS 数据库中获取 CDRH3 序列来训练先验模型。用先前模型来初始化强化学习智能体。强化学习的每个步骤中，用智能体生成 CDRH3 序列；使用属性预测器对生成的序列进行评分；将属性分数和先验模型的似然性组合在一起作为对智能体的反馈。智能体在多步训练后能生成满足多属性约束的序列。

结果

为了评估先验模型学习 CDRH3 序列空间的能力，文章中分析了生成的样本的性质分布。用预训练好的先验模型生成 10,000 条序列用于评估，并且从训练数据集中随机取样的 10,000 条序列作为对比。结果如下，生成的序列和训练集的序列表现出相似的性质分布。

**图2 先验模型生成的 CDRH3 序列和训练集序列的属性分布。**先验生成的序列和训练集遵循相似的属性分布，这意味着先验模型能够学习到与训练样本相似的分布。

接着，研究团队以 HER2 为靶标，展示 AB-Gen 的多属性优化性能。HER2 是一种与乳腺癌相关的蛋白质，也是许多抗体药物的靶点。在本研究中，他们训练了两个智能体，一个只优化 HER2 特异性 (Agent_HER2)，另一个同时优化多个属性 (Agent_MPO)。结果展示了多属性优化可以显著提升生成序列的质量，满足多属性要求。

**图 3 以 HER2 为靶点生成序列的属性分布。**Agent_MPO 能够优化属性分布，提升满足要求的序列的比率。

通过使用 AB-Gen，研究团队成功地设计出了 509 条满足所有属性过滤条件的 CDRH3 序列，并发现了三个高度保守的残基。在分子动力学模拟中，这些残基对与 HER2 结合的稳定性显示出重要作用，证明了 AB-Gen 能够在这种复杂优化任务中捕捉到重要信息。

**图 4 设计的抗体 CDRH3 库中三个保守残基的图示。**残基 G103、Y105 和 D108 在这些序列中高度保守，在 Herceptin 和 HER2 的结合构象中形成了四个氢键。

总结与展望

与传统的先生成序列、再按属性过滤方法相比，AB-Gen 具有更高的成功率和更低的计算成本。该研究为抗体库设计提供了一个新颖而有效的方法，有望在实际抗体设计中得到应用，并加速抗体药物的发现和开发过程。该研究也展示了 GPT 和深度强化学习在蛋白质设计领域的巨大潜力，为解决复杂的蛋白质设计问题提供了新的思路。

**本文提出的方法在概念上类似于 ChatGPT，即将预训练语言模型与强化学习相结合，生成满足指定属性的设计。**但相比于 ChatGPT 只在强化学习过程中优化一个属性，该方法可以同时优化多个属性，因而更为先进。这种新方法为 ChatGPT 及其类似模型在蛋白质设计领域的应用提供了新的启示，是当前生物信息学领域最热门的话题。