Protein Structure-Based Organic Chemistry-Driven Ligand Design from Ultralarge Chemical Spaces

https://pubs.acs.org/doi/10.1021/acscentsci.3c01521

Summary

この論文は、超大規模化学空間から、有機化学の知見を活用してタンパク質の立体構造に基づくリガンド設計を行う新しいアプローチ「SpaceDock」を提案しています。

近年、数十億もの化合物を含む超大規模化学空間が創薬の初期段階でのヒット同定を大きく変えつつあります。しかしその膨大なサイズゆえに、化学空間全体を列挙することができず、その中を探索しヒット化合物を選択するための専用の計算ツールが必要とされています。

著者らは本研究で、市販の化学試薬をまず標的タンパク質にドッキングし、その後有機化学反応とトポロジーのルールに従って直接連結することで、標的の3次元的制約の下で薬物様化合物を列挙する、構造ベースのアプローチを提案しています。

このアプローチを、異なるサイズと化学的複雑性を持つ2つの創薬標的受容体(エストロゲンβ受容体とドーパミンD3受容体)に適用したところ、既知のリガンド(もしくは非常に類似した化合物)と新規な化学構造を持つ候補化合物の両方を素早く列挙することに成功し、in vitro結合試験で実験的に活性が確認されました。

提案手法は汎用性が高く、どのようなドッキングアルゴリズムにも適用可能で、計算資源も少なくて済むため、数十億規模の化学空間から容易に合成可能なヒット化合物を優先順位付けできるとしています。

導入部では、創薬の初期段階でヒット化合物を同定するために、化合物ライブラリーの実験的・計算的スクリーニングが行われてきたこと、これまでの市販化合物空間は1000-1500万化合物程度に限定されていたが、オンデマンド化合物ライブラリーの登場で数十億化合物が利用可能になったことが述べられています。

超大規模化学空間の仮想スクリーニングの初期の成功例として、予想外に高いヒット率、高活性、高選択性などが挙げられていますが、そのサイズゆえに化合物を全て列挙することができず、登録・保存・探索のための専用ツールが必要だと指摘しています。

超大規模化学空間をスクリーニングするために、これまでにもいくつかの計算手法が提案されてきましたが、中程度から重度の制限があったとしています。例えば14億化合物の網羅的ドッキングは高価な専用プラットフォームを用いて実現されましたが、今後登場するトリリオンサイズの化学空間には対応できないでしょう。

そこで本研究では、上記の欠点を回避する簡単で高速な計算アプローチSpaceDockを提案しました。まず市販の化学試薬を標的にドッキングし、標準的な有機化学反応に従って適切に配置された試薬同士を連結することで、数十億化合物のライブラリを提案するものです。

製薬業界で関心の高い2つの受容体に適用したところ、既知リガンド(もしくは非常に近い類似体)と新規性の高い化合物の両方をすばやく発見することができ、in vitro結合試験で活性が確認されました。

提案手法は汎用性が高く、どのドッキングアルゴリズムにも適用可能で、計算資源の要求も少ないため、数十億規模の化学空間から容易に合成可能なヒット化合物を優先順位付けできると主張しています。

次に、化学試薬のドッキングが高精度に行えるかを検証するためのベンチマーク研究について述べられています。タンパク質-リガンド複合体のX線構造から薬物様リガンドを3次元的に断片化し、欠損した反応基を追加して「代用X線ポーズ」を作成し、対応する試薬が親リガンドを生成すると予想されるポーズを構築しました。

最終的に5,845個の試薬を選択し、これらを5つの最先端ドッキングツールでドッキングしたところ、70-80%の化学試薬が2Å以内のRMSD精度でドッキングされ、非常に高い精度が示されました。また相互作用フィンガープリント類似度でも同様に高い精度が確認されました。

この結果から、化学試薬のドッキング精度は使用するドッキングツールに依存せず、試薬の化学的性質やタンパク質ファミリーにも依らないことがわかりました。

次に、36の堅牢な有機化学反応から5.5億化合物の化学空間を定義する方法が述べられています。Enamine社のREAL spaceに含まれる145,705の市販試薬から、単一の化学的機能を持ち副反応の可能性が低い134,331の試薬を選択し、反応タイプ、反応物の役割、反応原子で注釈付けを行いました。その結果、176,824のドッキング可能なユニークな試薬が得られました。

最初の適用例として、エストロゲンβ受容体(ERβ)の活性型にSpaceDockを適用しました。ERβはドラッグ可能な結合部位を持ち、多くの高親和性低分子アゴニストとの複合体構造が得られているためです。

ジェニステインとの複合体構造を選び、145の2-アミノフェノールと3,874のベンズアルデヒドをドッキングして56万の可能なベンゾオキサゾールを探索しました。さらに9700万のスルホンアミドデコイ化合物も考慮し、全ての試薬をドッキングした後、一連のフィルターを適用して最終的に64の候補リガンドを得ました。

その結果、Ground truthのベンゾオキサゾールが大幅に濃縮され(84%)、上位にGround truth(9位)と既知アゴニスト(25位)、52の他の2-アリールベンゾオキサゾールが、ほぼ完璧な結合モードで発見されました。64のヒット中30がChEMBLの既知ERβリガンドと類似していましたが、Enamine REAL spaceと厳密に一致したのは17だけでした。

この予備的検証から、SpaceDockは適切に配置され化学的に両立する試薬から複雑な有機化学反応(環化)を行い、標的の構造的制約の下で完全に列挙されたリガンドを生成・優先順位付けできることが示されました。

2つ目の適用例では、ドーパミンD3受容体(DRD3)を標的とするカルボン酸アミドの6.7億化合物の化学空間に適用しました。DRD3のX線構造はアンタゴニストエチクロプリドとの複合体しか得られていないため、エチクロプリドを基準および ground truth リガンドとして使用しました。

市販のカルボン酸と一級/二級アミンから53,613の試薬を選択し、6.7億のカルボキサミドの化学空間を探索しました。ドッキング後、一連のフィルターを適用し最終的に315のユニークなリガンドを得ました。

その結果、ground truth リガンドのエチクロプリドを含む15のオルトメトキシベンズアミド(OMB)が発見され、非常に類似した結合ポーズが確認されました。さらに300の非OMBヒットが提案され、エチクロプリドに近い結合ポーズと相互作用パターンを示しました。

DRD3ヒットはERβに比べてChEMBLの既知リガンドからの逸脱が大きかった(24%が化学的に類似)一方で、REAL spaceでより入手しやすいものが多かった(53%が直接購入可能で、38%がREAL spaceの化合物に非常に近い)。

16の化学的に多様な代表的ヒットを購入したところ、15が合成に成功し(5mg、>90%純度)、ヒト DRD3 への結合試験に供されました。10化合物が10μMで検出可能な結合を示し(>20%阻害)、6つの最強の結合物質は300-1600nMのKi値を示しました。

この顕著なヒット率(10μMで66%、500nMで20%)は、超大規模ライブラリーのドッキングに関する過去の知見と一致しており、SpaceDockが大規模化学空間のスクリーニングにおいて、はるかに要求の厳しい完全原子ドッキングとよく競合することを示唆しています。

興味深いことに、強力な結合物質4つで、ChEMBLのドーパミンD2/D3リガンド6,714化合物のどれにも見られない新規のヘテロ芳香族-カルボキサミド骨格が明らかになりました。SpaceDockの提案は一次スクリーニングヒットと考えるべきですが、ChEMBLの最も近いD2/D3アンタゴニストよりも活性は低いものの、高いリガンド効率を示しました。

結論では、標的タンパク質の特異的制約と既知の結合物質の制約の下で超大規模化学空間を網羅的に探索する新しい計算手法SpaceDockが述べられています。

製薬業界で注目される2つの標的に最大6.7億化合物の化学空間を適用し、既知リガンド/骨格の迅速な再発見と新規な強力なヒット化合物の同定に成功しました。

SpaceDockは既存の手法とは大きく異なる2つの特徴を持ちます。1つは合成ブロックではなく未修飾の化学試薬を一次的なヒットの情報源として使用すること、もう1つは有望なリガンドを、事前にドッキングされた試薬ペアの幾何学的・化学的交差適合性に基づいて、タンパク質結合部位内で3次元的in silico合成によって直接得ることです。

化学試薬のドッキングはSpaceDockの最も時間がかかるステップですが、試薬の数に対してスケールするだけで、化学空間を定義する生成物の数にはスケールしません。高速な距離/角度の測定だけで可能なソリューションの99.8%を除去でき、処理の高速化に役立ちます。

SpaceDockの提案は古典的ドッキングでも再現されるべきだと考えられ、実際にGOLDを用いた再ドッキングを推奨しています。特にひずみエネルギーと、満たされないイオン結合・水素結合ドナー/アクセプターの数に注意を払っています。

DRD3の例では、この品質チェックステップを省略すると偽陽性が大幅に増加し、実験では確認されませんでした。SpaceDockは比較的軽量な計算手順であり、1億化合物の化学空間でも2日以内に処理でき、将来的にはトリリオンサイズの化学空間にも適用可能だと考えられます。

以上が、本論文の内容の詳細な日本語での説明になります。超大規模化学空間から標的タンパク質の立体構造を考慮して有機化学的に合成可能なリガンドを設計するSpaceDockは、創薬の効率化に大きく貢献する可能性を秘めた新しいアプローチだと言えるでしょう。計算資源の制約が少なく汎用性が高いため、様々な創薬標的に適用が期待されます。


Introduction

創薬の初期段階で最初のヒット化合物を同定するために、しばしば実験的あるいは計算的に化合物ライブラリーのスクリーニングが行われ、それによって古典的な薬物化学戦略を用いたヒットからリードへの展開が可能になります。つい最近まで、スクリーニングに適した薬物様化合物を記述する市販の化学空間は、年間約50万化合物の成長率で、1000万から1500万化合物に限定されていました。オンデマンドの化合物ライブラリーはこの状況を完全に変え、まだ入手可能ではないが数ステップで容易に合成可能で、再現性のある並列合成で得られる数十億もの化合物を提案しています。超大規模化学空間のサブセットを仮想的にスクリーニングする初期の取り組みは、特に予想外の高いヒット率、非常に高い効力、そして優れた選択性など、目覚ましい成功をもたらしました。今日、約700億の化合物が、高純度グレード(>95%)で迅速な納品(6-8週間)でオンデマンドでアクセス可能です。その巨大なサイズゆえに、これらの超大規模化学空間を記述する化合物を完全に列挙することはできず、登録、保存、ナビゲーションのための専用の計算ツールを必要とします。

通常、大規模な化学空間は、それらを合成するために必要なビルディングブロックと有機化学反応から、組み合わせ的な方法で記述されます。これらの大規模な化学空間を効率的に照会するためのリガンドベースのアプローチは現在利用可能ですが、マクロ分子標的情報(例えば結合部位のトポロジー)を含む構造ベースのアプローチは、数十億の化学空間を網羅的に探索するためにまだ開発される必要があります。実際、そのようなタスクのためのいくつかの計算手法が中程度から重度の制限を伴って記述されています。一方では、14億化合物の網羅的なドッキングが、高価な専用プラットフォームの助けを借りて首尾よく記述されていますが、化合物の数に対して線形にスケールするだけなので、まもなく登場する兆の規模の化学空間ではすぐに限界に達するでしょう。回避策は、全空間の代表的なサブセットをスクリーニングするための適切なシードフラグメント/スキャフォールドを選択することです。シードフラグメントは、フラグメントベースの代表的なシントンの早期ドッキング、X線回折スクリーニングデータ、あるいは薬物化学の知識に由来する可能性があります。シードフラグメントが同定されたら、一連の有機化学反応を介して対応する化学空間を探索するスキャフォールド中心の二次元ライブラリーを列挙し、三次元原子座標に変換して物理的にドッキングし、新規ヒットを提案することができます。このアプローチはいくつかの標的に成功裏に適用されていますが、まだ数百万規模のサブセット(全空間の有意な部分)をドッキングできるハードウェア設定を必要とします。最後に、高速な機械学習アプローチは、まずリガンドで注釈付けされたドッキングポーズの代表的なセットでドッキングスコアを予測するように学習され、次に残りの空間のドッキングスコアを予測するために適用される可能性があります。原子レベルでドッキングしなければならないのは全空間のごく一部(1-5%)だけですが、単一の標的で最初の10億のドッキングスコアを収集する必要があるため、この戦略は兆の規模の化学空間にはさらに適用できません。さらに、このアプローチはヒット率とヒット効力に関して非常に控えめな結果しかもたらしておらず、さらなる実験的検証が必要です。

本研究では、上記の欠点を回避する簡単で高速な計算アプローチ(SpaceDock)を提案します。まず、市販の化学試薬を対象の標的にドッキングする必要があります。次に、標準的な有機化学反応に従ってそれらを連結し、標的の三次元的制約の下で数十億の化合物ライブラリーを提案します。製薬業界で関心の高い2つの標的に適用したところ、既存のリガンドと化学的に同一(あるいは非常に近い)のヒットだけでなく、化学的に新規で強力なリガンドを素早く発見することができました。

Setting up the Conditions for Accurate Docking of Chemical Reagents

SpaceDockアプローチの実現可能性を評価するために、まず、タンパク質に結合した化学試薬の基準となる三次元構造のアーカイブを設定する必要がありました。そのようなデータセットの実験データが不足しているため、既知のタンパク質-リガンドのX線構造(sc-PDBデータセット)から薬物様リガンドを三次元空間で断片化し、一連の12の一般的な有機化学反応を用いて、欠損した反応性部分(例えば、ボロン酸、ハロゲン化物など)の三次元原子座標を追加し、上記の反応で親リガンドを生成すると予想される対応する試薬の「代用X線ポーズ」をオンザフライで作成しました。最終的なアーカイブは、適切なフィルタリング(表S1)の後に選択された5,845個の試薬からなり、反応性基(例えば、アミン、アリールハロゲン化物、ボロン酸)の頻繁な使用を反映した13の化学的機能を持つ化合物が多数を占めていました。これは創薬における単純な有機化学反応の頻繁な使用を反映しています。

一連の基準となる試薬を手に入れたので、次に最先端のドッキングアルゴリズムが代用X線ポーズを再現できるかどうかを検証しました。異なる原理に基づく5つのアルゴリズム(FlexX: 逐次的構築、GOLD: 遺伝的アルゴリズム、PLANTS: アントコロニー最適化、RDPSOVina: ランダムドリフト粒子群最適化、Surflex: 表面ベースの分子類似性)がその目的で使用されました。SpaceDock戦略では、適切にドッキングされた化学的に適合する一対の試薬だけが必要なので、ドッキングの性能は、代用X線構造に最も近い(最良の)ポーズの平均二乗偏差(rmsd)を計算することで測定されました。すべてのドッキングツールは優れたドッキング性能を示し、70-80%の化学試薬が2Åのrmsd精度でドッキングされました(図1A)。最良のドッキング/スコアリング手法(GOLDドッキング、PLPスコアリング; 図1A)では、最大70%の非常に高品質なポーズ(rmsd < 1Å)が生成されました。したがって、観察されたドッキング精度は選択したドッキングアルゴリズムに依存せず、低分子量のフラグメントに関するドッキングのベンチマークと一致しています。

rmsdは主要なタンパク質-試薬相互作用が検証されているかどうかを考慮しないグローバルな尺度であるため、ドッキングされたポーズと代用X線ポーズの間のタンパク質-試薬相互作用フィンガープリント(IFP)の類似性を追加で計算しました。この直交する品質記述子を用いても、ライブラリーの75-85%の化学試薬で、X線ポーズへのIFP類似性が許容できると判断され(Tc-IFP > 0.60; 図1B)、再び優れた性能が認められました。

すべての化学的機能がドッキングに等しく適しているかどうかを確認するため、最良のドッキング戦略(GOLDドッキングとPLPスコアリング)に焦点を当てて、ライブラリに存在する13の化学基それぞれについて同じ分析を繰り返しました。心強いことに、ドッキングの性能は、試薬の化学的機能(図1C)や標的タンパク質ファミリー(図1D)にほとんど依存しないようです。

Defining a Readily Accessible Ultralarge Chemical Space from Simple Organic Chemistry Reactions

Hartenfellerらの先駆的な研究を出発点として、我々は36の堅牢で立体選択的かつ位置選択的な有機化学反応を選択し、1〜2段階の合成ステップで容易にアクセス可能な5.5億化合物の化学空間を定義しました(表S2, 図S2)。以前の類似のアプローチとは対照的に、化学試薬はここでは、Enamineの360億化合物のREAL spaceに貢献する145,705の市販化学試薬のリストから特定のSMARTS文字列を用いて慎重に選択されました。さらに、合成収率に影響を与える可能性のある副反応は、特定の化学機能に対して単官能性であり(例えば、モノカルボン酸)、反応収率を低下させる追加の化学機能(例えば、求電子試薬に対する求核性基)を欠く試薬を選択することで、マイナーなものとしました(表S2)。

合計で、134,331の市販の反応物を反応タイプ、反応物の役割、反応原子で明確に注釈付けすることができ、合計713,155の原子タグが得られました(図2)。三次元原子座標への変換により、未定義の不斉中心を最大2つ持つ反応物の立体異性体を含む、pH 7.4でイオン化された176,824のドッキング可能なユニークな試薬が得られました。

Retrospective Chemical Space Docking of 97 Million Compounds for Human Estrogen Receptor Beta Agonists

最初の概念実証として、以下の2つの理由からヒトエストロゲン受容体ベータ(ERβ)の活性化型を標的として選択しました。(i)リガンド結合キャビティは疎水性/親水性のバランスが良く、ドラッグ可能性が高い。(ii)受容体は多くの高親和性低分子アゴニストと共結晶化されており、特に我々がコード化した36の反応の1つである2-アミノフェノールとベンズアルデヒドからのワンステップ合成で得られる2-アリール-ベンゾオキサゾール骨格を共有する化合物が含まれる。

ケモタイプバイアスを避けるために、非ベンゾオキサゾールの高親和性アゴニストであるゲニステイン(PDB 1QKM)と共結晶化されたX線受容体構造を選択し、ここからは「参照リガンド」として使用し(図3A)、必要な反応物(2-アミノフェノール、ベンズアルデヒド)を最初にドッキングし、次にタンパク質結合部位内でベンゾオキサゾール環形成を可能にすることで、「ground truth」ベンゾオキサゾールアゴニスト(WAY-338、図3A)または任意の近縁アナログを回収できるかどうかを尋ねました。

このために、145の市販の2-アミノフェノールと3,874のベンズアルデヒドを三次元で生成し、1QKM構造にドッキングして、561,730の可能なベンゾオキサゾールの組み合わせ的空間を探索しました。後者の空間は小さいので、我々は追加で1,275のスルホニルクロリドと76,758のアミンから合成可能な9700万のスルホンアミドデコイを考慮し、全化学空間(0.57%)でベンゾオキサゾール空間を強くマイナーとしました。

両方の化学空間を探索するために必要な全ての試薬を、前に見出された最良のプロトコル(GOLDドッキング、PLPスコアリング)でドッキングした後、一連のフィルターを複雑さを増しながら(表1)、可能なソリューションの数を減らしながら反復的に適用しました。最初は潜在的に反応可能な試薬ポーズのペアから始め、次に成功裏に列挙されたリガンドポーズ、最後に品質チェックされた再ドッキングポーズに適用しました。

SpaceDockのフローチャートを図3に示します。第一段階では、純粋に化学的・トポロジカルなフィルター(図S3、S4)を全ての可能な反応物ペアのドッキングポーズに適用して、不可能な反応を素早く取り除きます(フィルター#1)。安全サイドに立つために、我々は結合した反応物のペアのうち、ゲニステインのX線ポーズに対する全相互作用フィンガープリント(IFP)の類似性が許容閾値(全ての非結合性相互作用を考慮してIFP≥0.60、極性相互作用のみを考慮してIFP≥0.50)を上回るものだけを考慮しました(フィルター#2)。

残りの821,702ペアの反応物を、タンパク質の三次元空間内で、それぞれ対応するベンゾオキサゾールとスルホンアミドに変換し、完全に列挙されたリガンドを素早くタンパク質結合部位内で最小化しました。エネルギー最適化後のポーズが最適化前のポーズから1.0Å rmsd未満しか逸脱しなかったのは539,906ポーズだけでした(フィルター#3)。

残りの最小化されたポーズは、ゲニステインのX線ポーズへのIFP類似性に従ってさらにフィルタリングされました(全ての非結合性相互作用を考慮してIFP≥0.60、極性相互作用のみを考慮してIFP≥0.60; フィルター#4)。この段階で、2つ以上の不斉中心と8つ以上の回転可能な結合を持つ化合物を除去し、49,569ポーズを残して更なる処理を行いました。

選択されたSpaceDockポーズが古典的なドッキングでも再現できることを保証するために、残りの全てのヒットを、ERβ構造に再度ドッキングしました。これは試薬の場合と同様に行いました。エネルギー最小化されたSpaceDockポーズに近い(rmsd≤2.0Å; 全ての非結合性相互作用についてIFP≥0.60、極性相互作用のみについてIFP≥0.60)121,470ポーズのみが保持されました(フィルター#5)。

残りのポーズの品質チェック(フィルター#6)を次に適用して、あり得ないソリューション(≥1のひずんだねじれ、局所ひずみエネルギー>4 kcal/mol、全体ひずみエネルギー>8 kcal/mol、満たされないイオン結合なし、>2の満たされない水素結合ドナー、>4の満たされない水素結合アクセプター)を取り除きました。

もっともらしいソリューションの数(7,712)がまだ多かったので、最後にカスタムフィルターを適用して、結合ポケットの両側にアンカーされたポーズのみを残しました(Glu305またはArg346へ、そしてHis475への水素結合)。これは全ての強力なERβアゴニストで見られるものです(ゲニステインのX線ポーズを参照、図3A)。

最終的なヒットリストは、64のユニークなリガンド(フィルター#7)からの102ポーズを含み、そのうち54がベンゾオキサゾール、10がスルホンアミドでした(図3B、表S3)。参照リガンドに対する全IFP類似性の減少順、極性IFP類似性の減少順、そしてHYDEスコアリング関数で予測される絶対結合自由エネルギーの増加順に並べ替えられています。

最初の空間(0.57%)ではマイナーであったにもかかわらず、ground truthのケモタイプが最終的なヒットリストでかなり濃縮された(84%)ことは心強いことです。ヒットの構造と結合ポーズを調べたところ、SpaceDockは実際に上位のヒットの中に、ground truthリガンド(9位)、既知のERβアゴニストChEMBL187673(IC50 = 50 nM、25位)、そして52の他の2-アリールベンゾオキサゾールを、ほぼ完璧な結合モード(ground truthリガンドでrmsd = 1.15 Å、図3C)で見出すことができました。

ヒットの約半数(64中30; 全てベンゾオキサゾール空間由来)は、既存のERβリガンド(図S5)と化学的に類似している(環状ECFP4フィンガープリントで測定したタニモト係数による)と考えられ、SpaceDockが既知のリガンド(またはその非常に近い類似体)と新規化学実体の両方を提案できることを示しています。しかし、厳密にEnamine REAL空間と交差したのは少数の化合物(17、そのうち10がスルホンアミド空間を共有)のみでした(図S5)。この観察は、それらの合成可能性を排除するものではなく、出発物質となるビルディングブロックが市販であるにもかかわらず、これらのヒットがREAL空間を定義する167の並列合成プロトコルの範囲内では得られないことを示しているだけです。

この予備的な概念実証から、ここで提示した方法は、適切に配置され化学的に適合する化学試薬から、標的の立体構造の制約下で複雑な有機化学反応(環化)を行い、完全に列挙されたリガンドを生成し、意味のある理由で優先順位を付けることができるように思われます。そこで我々は、はるかに大きな化学空間の前向きスクリーニングにSpaceDockを適用することにしました。

Prospective Chemical Space Docking of 670 Million Compounds for Human Dopamine D3 Receptor Antagonists

次に、ヒトドーパミンD3受容体(DRD3)を標的とする6.7億のカルボキサミドのはるかに大きな化学空間に本手法を適用しました。利用可能な唯一の高解像度DRD3受容体構造(PDB 3PBL)がアンタゴニストのエチクロプリドと複合体で得られている(図4A)ので、このオルトメトキシベンズアミド(OMB)リガンドを参照および ground truth リガンドの両方として使用しました。

市販のカルボン酸と一級/二級アミン(表S2)を最初にフィルタリングして、アミド結合形成時に非薬物様リガンドになる試薬を取り除き(表S4)、19,887のカルボン酸と33,726のアミン(三次元座標)を保持して6.7億のカルボキサミド(図4B)の化学空間を探索しました。得られた53,613の化学試薬を、前に述べたようにGOLDドッキングとPLPスコアリングを用いてエチクロプリド非存在下のDRD3構造にドッキングしました。各反応物について20のポーズを保存したので、合計2680億(19,8872033,726*20)の可能な反応がSpaceDockフローチャート(図4B)に渡されました。

まず、幾何学的基準に従って不可能なアミド結合形成を取り除きながら、重要なAsp110残基への極性の結合を示すアミンポーズのみを保持し(フィルター#1、図4B)、次に参照リガンドに対するIFPの類似性が全相互作用で0.60以上、極性相互作用のみで0.50以上である反応物ポーズのペアを保持しました(フィルター#2)。合計24,674,693の反応がin silicoで行われ、対応するカルボキサミドが受容体ポケット内で生成され、後にエネルギー最小化されました。最初のポーズから大きく逸脱しない(rmsd < 1.0Å)最小化ポーズのみを保持することで、15,120,198のもっともらしいソリューションが得られました(フィルター#3、図4B)。

この段階で、シス-アミド結合を持つヒット、2つ以上の不斉中心を持つヒット、9つ以上の回転可能な結合を持つヒットを除去して、薬物様化合物のみを保持しました。ヒット数がまだ非常に多かったため、参照リガンドに対して高いIFP類似性(全体で> 0.60)を示し、極性相互作用(H結合とAsp110へのイオン結合)に関してエチクロプリドと完全に一致する(IFP = 1)最小化ポーズのみを保持することで、ヒットリストを絞り込みました。

このフィルター(フィルター#4、図4B)により、518,306のSpaceDockポーズ(500,041のユニークな化合物に対応)が得られ、対応するリガンドを完全原子ドッキング(GOLDドッキング、PLPスコアリング、20ポーズ保存)し、最小化されたSpaceDockポーズと比較することで確認する必要がありました。以下の3つの基準(rmsd≤2.0ÅかつIFP_full≥0.60かつIFP_polar=1)を満たすドッキングポーズのみが保持され、712,120の良好なドッキングポーズ(フィルター#5、図4B)が完全性チェック(ねじれひずみなし、局所ひずみエネルギー≤4 kcal/mol、全体ひずみエネルギー≤8 kcal/mol、満たされないイオン結合なし、満たされない水素結合ドナー≤2、満たされない水素結合アクセプター≤4、フィルター#6、図4B)のために残されました。残りのポーズ数がまだ多かったため(97,096)、デフォルトでは実装されていないカスタムフィルター(表1)が追加され、芳香環を持たない化合物(既知のDRD3アンタゴニストに常に存在)、予測絶対結合自由エネルギー(HYDEスコア)が30 kJ/mol未満の化合物、元のSpaceDockポーズからのずれをさらに制限する化合物(rmsd≤1.0ÅかつIFP_full≥0.75)のポーズが除去されました。

315のユニークなリガンド(フィルター#7、図4B)からの757のドッキングポーズが最終的なヒットリストを定義しました。化合物は、参照リガンドに対する全IFP類似性の減少順、極性IFP類似性の減少順、HYDE結合自由エネルギーの増加順にランク付けされました(表S5)。

ERβリガンドの最初の試行と同様に、まず ground truth リガンドとそれに対応するOMB骨格がリストに含まれているかどうかを確認しました。実際、エチクロプリド(30位)を含む15のOMBが、参照リガンドで観察されたものとほぼ同じ結合ポーズでリストの一部となっていました(エチクロプリドのrmsd = 0.73Å、図4C)。興味深いことに、OBM骨格を共有しない300の追加のヒットが、エチクロプリドで見られるものとかなり近いポーズとタンパク質-リガンド相互作用パターンで優先順位付けされました(図4D)。ほとんどのリガンドは、オルトメトキシベンザミドがビシクロヘテロアリール-アミドに置き換えられ、2-3個の炭素原子で塩基性アミンに接続されているスキャフォールドホッピングでした。

ERβのヒットリストと比較して、DRD3のヒットは既知のChEMBLリガンドからより逸脱していましたが(24%が化学的に類似と見なされた)、REAL空間ではより入手しやすいものでした(53%が直接購入可能で、さらに38%がREAL空間の化合物に非常に近い; 図S7)。化学的に多様で代表的な16のヒットがEnamineから直接購入され、そのうち15が6週間で合成され(5 mg、>90%純度)、ヒトDRD3への結合についてさらに試験されました(図5)。

試験した15化合物のうち10化合物が、10μMの単一濃度でDRD3受容体への検出可能な結合(>20%阻害)を示しました(図5)。最も強力な6つの結合物質(#1、#25、#66、#107、#142、#161)は、阻害定数(Ki)の決定のための用量-反応曲線に選択されました(図5、図S8)。そのうち3つ(#1、#66、#142)は300-400 nMの範囲のKi値を示し、他の3つは1.4-1.6μMでした。この顕著なヒット率(10μMで66%、500 nMで20%)は、超大規模ライブラリーのドッキングに関する以前の知見と一致しており、SpaceDockが大規模な化学空間のスクリーニングにおいて、はるかに要求の厳しい完全原子ドッキングとうまく競合することを示唆しています。

興味深いことに、強力な結合物質の4つ(#66、#107、#142、#161)で、ChEMBLの6,714のドーパミンD2/D3リガンドのどれにも見られない新規のヘテロ芳香族-カルボキサミド骨格が明らかになりました(表2)。SpaceDockの提案は依然として一次ヒットと見なされるべきですが、ChEMBLの最も近いドーパミンD2/D3アンタゴニストよりも効力は低いものの、より高いリガンド効率を示しました。

Conclusion

我々は本研究で、標的タンパク質の特異的制約と既知の結合物質の制約の下で超大規模化学空間を網羅的に探索する新規な計算手法(SpaceDock)について述べました。製薬業界で関心の高い2つの標的に最大6.7億化合物の化学空間を適用したところ、既知のリガンド/骨格の迅速な再発見と、化学的に新規で強力な新規化学実体の同定に成功しました。

SpaceDockは既存の手法とは2つの大きな違いがあります。(i)完全に修飾されていない化学試薬を一次的なヒットの情報源として使用し、合成ブロック(化学情報を含んだ出口ベクトルを持つ骨格)は使用しない。(ii)最も有望なリガンドを、以前に配置された試薬ペアの三次元での化学的交差適合性に基づいて、タンパク質結合部位内で直接的にin silico合成によって得る。

確かに、化学試薬の直接ドッキングは我々の知る限り報告されていません。興味深いことに、我々の予備的ベンチマークは、化学試薬のドッキングが低分子量フラグメントのドッキングと同程度に正確であり、完全なPDBリガンド中の対応する部分構造に対して約75%の化合物が適切に配置されることを示しています。注目すべきは、ドッキングの精度が使用するドッキングツールに依存せず、反応物の反応性部分にも標的タンパク質ファミリーにも依存しないことです。したがって、本手法はあらゆるドラッグ可能な標的と市販のビルディングブロックのセットに対して開かれています。

最も容易に合成可能なSpaceDockヒットを得るために、本手法はEnamine社のREAL spaceに貢献する化学試薬に依存し、36の堅牢な2成分有機化学反応のセットを用いて結合部位の三次元空間内でヒットを生成します。反応物の70%の平均ドッキング精度を考えると、2つの化学的に適合する反応物を完全に列挙され適切に配置されたリガンドに連結する可能性は約50%と予想されます。もちろん、有機化学反応に関与する化学部分は初期ドッキングステップで考慮されます。ある官能基が誤って配置され、標的と強く相互作用する場合、第2の配置された反応物との位相的および化学的適合性がもはや検証されなければ、さらなる連結に使用できなくなる可能性があります。出発化学試薬のドッキングは明らかに全フローチャートの中で最も時間のかかるステップ(約15秒/試薬)であり、つまりSpaceDockはスクリーニングされる化学空間を定義する生成物の数ではなく反応物の数に対してスケールします。その後の処理速度を最適化するために、もっともらしいソリューションの数が減少するにつれて、複雑さが増す一連のフィルターをステップバイステップで適用します。互換性のある反応物の相対位置を高速な距離/角度測定だけでチェックすることで、可能なソリューションの99.8%を除去することができます。

必須ではありませんが、我々は参照ポーズへのIFP類似性を適用して、主要な残基との予想される相互作用を満たさない位相的に妥当なリガンドを除去しました。このフィルターにより、3番目に時間のかかるが必要不可欠なエネルギー最小化ステップ(約1秒/再構成されたポーズ)への完全リガンドポーズの数を減らし、新たに作成された結合周りの局所的ひずみを除去することができます。SpaceDock提案は、タンパク質結合部位内でのエネルギー最小化時にrmsdとIFP類似性の点で変化しない(≤1Å)ほど興味深く、対応するリガンドの完全原子ドッキングによって再現できると仮定しています。必須ではありませんが、我々はSpaceDockとあらゆる最先端のドッキングツール(ここではGOLDを使用しましたが、他のツールも同様に使用できます)が最終ポーズについて合意することを保証するために、この再ドッキングステップを推奨します。特に局所的および全体的ひずみエネルギー(それぞれ≤4および8 kcal/mol)、ならびに満たされないイオン結合(なし)と満たされない水素結合ドナー/アクセプター(それぞれ≤2および4)の数を重視しています。DRD3のテストケースでは、このステップを省略すると最終的なヒットリストに偽陽性が劇的に濃縮され、実験的には確認できませんでした。

ここで提案された化学空間ドッキングアプローチは、少なくとも今回のGタンパク質共役型受容体の場合には、高いヒット率とナノモルレベルの効力を持つ実験的に検証されたヒットをもたらすことができ、これは超大規模ライブラリーの完全原子ドッキングに関する傾向と一致しています。

SpaceDockは比較的軽量な計算手順のままであり、1億化合物の化学空間の探索はIntel(R) Xeon(R) Silver 4210プロセッサの16コアで2日以内に達成できます。55億の化学空間全体の探索は、第4回国際CACHEチャレンジでまだ限られたリソース(400コアで1週間)で可能になりました。さらに大きな化学空間(例えば、3成分反応を追加することによって)をスキャンする予備的な試みは、本手法が1兆化合物まで容易に適用できることを示唆しています。

Methods

断片化タンパク質結合リガンドからの化学試薬ライブラリーの構築

sc-PDBデータベースの37,922のリガンドを、12のRECAP-inspired retrosynthetic rulesのセットを用いて断片化し、97,024の化学試薬を生成しました(図S1)。これらの化学試薬は、TRIPOSフォースフィールドから取得した標準的なトポロジー(結合長、角度、ねじれ角)を持っています。得られたビルディングブロックは次のルールを用いてフィルタリングされました。(i) IChem v.5.2.8による、元のsc-PDBタンパク質標的との少なくとも4つの非共有結合的相互作用(そのうちの1つがイオン結合または水素結合)の検出、(ii) 重原子の総数が3〜23、(iii) 回転可能な結合の総数が6以下、(iv) ヘテロ原子と炭素の比が0.05〜4.5、(v) 2つ以下の縮合環、(vi) 3未満の芳香環の数。最終的なライブラリーは、4,656のユニークなsc-PDBリガンドに由来する5,845の試薬(mol2ファイル形式)を含んでいました。ビルディングブロックは標的と明示的に共結晶化されてはいませんが、対応するポーズは以降「代用X線」ポーズと注釈付けされます。

sc-PDBビルディング試薬の認知標的へのドッキング 上述の試薬を、Surflexのran_archiveルーチンを用いて初期配向とねじれ角をランダム化した後、ほぼ標準的なパラメータ(表S6-S8)で、それらが由来したリガンドと元々結合していたsc-PDB標的に、5つの最先端ドッキングツール(FlexX v.5.2.0、GOLD v.2022、PLANTS v1.2、RDPSOVina v.2.0、Surflex v.4.5.4.3)を用いてドッキングしました。ホウ素原子は一部のドッキングツールでパラメータ化されていないため、ダミー原子(FlexX、GOLD、PLANTS、Surflex)または炭素(RDPSOvina)に置換し、ホウ酸の三方両錐幾何学的構造は変更しませんでした。最大20ポーズを可能な限りmol2ファイル形式(GOLD、PLANTS、Surflex)、sdファイル形式(FlexX)、またはpdbqtファイル形式(RDPSOVina)で優先的に保存しました。各ドッキングポーズについて、mol2ファイルを比較する際はSurflex rmsルーチンを用い、異なるフォーマットのファイル(mol2対pdbqt、mol2対sd)を比較する際はADFRsuite-1.0のobrmsルーチンを用いて、対応する代用X線ポーズに対する重原子の平均二乗偏差(rmsd)を計算しました。さらに、ドッキングされたポーズとX線ポーズの間のタンパク質-リガンド相互作用の類似性を、IChem v.5.2.8パッケージのIFPモジュールで測定しました。

36の堅牢な有機化学反応でエンコードされた専用化学空間の準備

市販のビルディングブロックの全ストック(250,355化合物、sdファイル形式、日付:2022-12-28)をEnamine社のウェブサイトからダウンロードし、REAL spaceに貢献する145,707試薬を保持するためにカタログ識別番号でフィルタリングしました。ビルディングブロックは、以前に述べたように不適切なエントリを取り除くためにフィルタリングされました。36の異なる1段階または2段階の有機化学反応(表S2)のそれぞれについて、PipelinePilot v.22.1.0.2935のSMARTS文字列クエリを用いて対応する反応物を取得しました(図S9)。副反応を避けるために、ビルディングブロックは対象の反応基に対して単官能性であり、反応の収率を下げる可能性のある追加の化学機能(例えば、求電子試薬に対する求核性の化学基)がないことが必要です(表S2)。各保持されたビルディングブロックと可能な反応について、注釈付けの三つ組が提供されます。(i)反応タイプ、反応物の役割、反応原子。最終的な注釈表は、134,331のREALビルディングブロックに対して713,155の注釈の三つ組を含んでいます。選択されたビルディングブロックは最後にPipelinePilotを用いてpH 7.4で最も可能性の高いイオン化状態でイオン化され、Corina v.3.40を用いて三次元原子座標に変換されました。これにより、エントリあたり最大4つのジアステレオ異性体を生成し、単一の即座にドッキング可能なmol2ファイル形式としました。

ヒトエストロゲン受容体βへの化学試薬のドッキング

ヒトエストロゲン受容体βのX線構造をアゴニストのゲニステインと複合体でタンパク質データバンク(PDB 1QKM)からダウンロードしました。水素原子とタンパク質、水、リガンド原子のプロトン化状態の同時最適化をProtoss v.4.0で行いました。全ての水分子とゲニステインを取り除き、鎖Aの残りのタンパク質原子のみを保持し、mol2ファイル形式で保存しました。ベンゾオキサゾール環またはスルホンアミド結合の形成に選択された市販のビルディングブロック(145のアミノフェノールと3,874のベンズアルデヒド、1,275のスルホニルクロリドと76,758のアミン)を、以前に報告したパラメータ設定(表S7)を用いてGOLDでERβの原子座標にドッキングしました。空洞はゲニステインのX線原子座標から検出されました。各ビルディングブロックについて最大20ポーズをPLPスコアリング関数でスコアリングして保持しました。

ヒトドーパミンD3受容体(DRD3)への化学試薬のドッキング

ヒトドーパミンD3受容体のX線構造を、アンタゴニストのエチクロプリドと複合体でタンパク質データバンク(PDB 3PBL)からダウンロードしました。水素原子とタンパク質、水、リガンド原子のプロトン化状態の同時最適化をProtoss v.4.0で行いました。挿入されたT4リゾチーム配列(Asn1002-Tyr1161)、全ての水分子、エチクロプリドを取り除き、鎖Aの残りのタンパク質原子のみを保持し、mol2ファイル形式で保存しました。市販のビルディングブロックは、最初にアミド結合形成を通じて薬物様分子を形成する能力(表S4)とREAL Spaceで利用される試薬のプールへの包含に基づいてフィルタリングされました。可能なアミド結合形成のために選択された試薬(33,726のアミンと19,887のカルボン酸)を、以前に報告したパラメータ設定(表S7)を用いてGOLDでDRD3原子座標にドッキングしました。空洞はエチクロプリドのX線原子座標から検出されました。各ビルディングブロックについて最大20ポーズをPLPスコアリング関数でスコアリングして保持しました。可能な再構成の数を減らすために、IChemでオンザフライで検出された重要な残基Asp110へのイオン結合を示すアミンのドッキングポーズのみを、アミド結合形成のためにさらに保持しました。

試薬の連結によるリガンドの列挙

化学的に適合する試薬の2つのポーズが与えられると、それらのそれぞれの位置と化学的適合性に従って、タンパク質結合部位内でリガンドが生成されます。試薬ポーズは最初に社内mol2パーサーを用いて読み込まれ、図2に示すタグテーブルに基づいて少なくとも1つの反応に注釈付けされます。反応性原子とその直近の隣接原子の原子座標が抽出され、後続の計算のために保存されます。このプロセスは、類似のワークフローに従って各反応について繰り返されます。その後、反応物ポーズのペアに一連のフィルターが適用されます。これには、遠く離れたペアをすぐに排除するためのそれらの重心間の距離、適切な幾何学を保証するための結合可能な原子間の距離、将来形成される結合/環の特定の角度の検査、置換基の重なりを防ぐための衝突(非反応性原子間で≤4)の考慮が含まれます。ペアが全てのルールを満たす場合、結合可能な原子間に結合が作成されます。次に、新しく作成された結合を反映するように反応原子の混成が更新され、出口原子(反応後に除去される原子)が削除されます。完全に列挙された分子は、単一のmol2ファイルに保存されます。このステージではオプションのステップも利用可能です。参照リガンドが存在する場合、分子は最初に一時的なmol2ファイルに書き込まれ、IChem v.5.2.8を用いて参照ポーズに対するIFP類似性(デフォルト値は全ての非結合性相互作用について≥0.60、極性相互作用のみについて≥0.50)を評価します。類似性の閾値に達した場合、分子は最終的なmol2ファイルに転送されます。これらのフィルターの詳細なルールは、図S3、S4、S6に見出すことができます。完全に列挙された分子は、標的タンパク質の存在下で、標準的な設定とMMFF94力場を用いてSzybki v2.4.0.0でエネルギー最小化されます。

基準リガンドとの比較 任意のポーズ(エネルギー最適化の前後)と参照X線リガンドとの間の相互作用フィンガープリント類似性検索は、IChem v.5.2.8パッケージに実装されたIFPモジュールの標準パラメータを用いて行われました。同様に、平均二乗偏差はSurflex-Dock v.4.5.4.3のrmsルーチンで計算されました。

SpaceDockポーズの再ドッキング

2つの試薬ポーズの連結とその後のタンパク質の制約下での最適化(「SpaceDock」ポーズと呼ばれる)は、GOLDを用いて標的タンパク質構造に再ドッキングされました。採用されたスコアリング関数はPLPで、20のポーズを生成し、表S7に記載されているのと同じパラメータファイルを使用しました。構造的バイアスを排除するために、入力リガンド構造はOEChem Toolkit v.3.4.0.1を用いてSMILES形式に変換され、Corina v.3.40を用いて三次元構造に変換されました。各SpaceDockポーズに対して、Surflex rmsで計算されたrmsdが2Å未満で、全ての非結合性相互作用についてIFP≥0.60、極性相互作用のみについて正確に同じIFPを示す結果の完全原子ドッキングポーズが確認されたと見なされ、その後の調査のために保持されました。各SpaceDockポーズに対して複数のドッキングポーズがこれらのルールを満たす場合、それら全てが保持されました。

再ドッキングポーズの品質チェック

全ての再ドッキングポーズのねじれひずみの数は、TorsionAnalyzer v.2.0.0で推定されました。少なくとも1つのねじれが「ひずんでいる」と注釈付けされたポーズは、さらなる分析から除外されました。次に、Freeform v.2.4.0.0の標準パラメータを用いて、局所ひずみ(特定のコンフォメーションの最も近い局所ミニマからの歪み)とグローバルひずみ(水中の対応する化合物の完全なコンフォメーションアンサンブルから特定のコンフォメーションを選択するために必要なエネルギー)が計算されました。局所および全体的ひずみエネルギーがそれぞれ4および8 kcal/mol以上の化合物は、それらのタンパク質結合状態で、満たされないイオン結合、水素結合ドナー、アクセプターの数を数えるために調べられました。まず、IChemを用いてタンパク質-リガンド間のイオン結合と水素結合が登録されました。上記のリストに存在しないリガンドの任意の荷電原子または水素結合ドナー/アクセプター原子(IChemの定義による)は、「満たされていない」原子として注釈付けされました。ドナーとアクセプターの両方である重原子(例えば、ヒドロキシル酸素原子)は一度だけカウントされました。分子内水素結合に関与するリガンド原子は満たされているとみなされました。全体として、2つ以上の満たされていないドナーと4つ以上の満たされていないアクセプターを持つリガンドポーズは最終的なヒットリストから除去されました。

ChEMBLおよびREAL spaceリガンドとの類似性

ヒトエストロゲン受容体β(CHEMBL242)およびヒトドーパミンD2(CHEMBL217)とD3(CHEMBL234)受容体の既知のリガンドは、以下の基準を満たすリガンドエントリーに対してSMILES文字列としてChEMBLデータベース(リリース33)から取得されました。Ki < 1μM、assay_type = B。SpaceDockヒットとChEMBLリガンド間の化学的類似性のペアワイズ計算は、PipelinePilot v.22.1.0.2935を用いてECFP4環状フィンガープリントから計算され、Tanimoto係数の値でスコアリングされました。

SpaceDockヒット(mol2からSMILES文字列に変換、Open Babel v.3.1.0を利用)と360億のREAL spaceリガンド(バージョンREALSpace_36bn_2023-03.space)の最大共通部分構造(MCS)類似性は、SpaceMACS v.0.9.2で計算され、MCS-Tanimoto類似性値の減少順でランク付けされた上位15のREAL space化合物が保存されました。


この記事が気に入ったらサポートをしてみませんか?