タンパク質のアルゴリズム選択

ニュース

ホームページホームページ / ニュース / タンパク質のアルゴリズム選択

Aug 28, 2023

タンパク質のアルゴリズム選択

Rapporti scientifici Volume 13,

Scientific Reports volume 13、記事番号: 8219 (2023) この記事を引用

381 アクセス

1 オルトメトリック

メトリクスの詳細

本研究では、任意のタンパク質-リガンドドッキングタスクに対してアルゴリズムを自動的に選択するためのアルゴリズム選択の使用を調査します。 創薬および設計のプロセスでは、タンパク質とリガンドの結合を概念化することが大きな問題となります。 計算手法を通じてこの問題をターゲットにすることは、医薬品開発プロセス全体に必要なリソースと時間を大幅に削減するために有益です。 タンパク質とリガンドのドッキングに対処する 1 つの方法は、それを検索および最適化問題としてモデル化することです。 この点に関しては、さまざまなアルゴリズムによる解決策が存在しています。 しかし、タンパク質とリガンドのドッキングの品質と速度の両方の観点から、この問題に効率的に取り組むことができる究極のアルゴリズムは存在しません。 この議論は、特定のタンパク質とリガンドのドッキング シナリオに合わせた新しいアルゴリズムを考案する動機になります。 この目的を達成するために、この論文では、改善された堅牢なドッキング パフォーマンスのための機械学習ベースのアプローチを報告します。 提案されたセットアップは完全に自動化されており、問題とアルゴリズムの両方の側面について専門家の意見や関与を必要とせずに動作します。 ケーススタディとして、1428 個のリガンドを含むよく知られたタンパク質であるヒト アンジオテンシン変換酵素 (ACE) について実証分析が実行されました。 一般的な適用性を考慮して、AutoDock 4.2 がドッキング プラットフォームとして使用されました。 候補アルゴリズムも AutoDock 4.2 から取得されています。 アルゴリズム セットを構築するために、28 個の個別に構成されたラマルク遺伝的アルゴリズム (LGA) が選択されます。 推奨システムベースのアルゴリズム選択システムである ALORS は、インスタンスごとに LGA バリアントからの選択を自動化するために好まれました。 この選択の自動化を実現するために、各標的タンパク質とリガンドのドッキングインスタンスを特徴付ける特徴として、分子記述子と部分構造フィンガープリントが採用されました。 計算結果から、アルゴリズムの選択がこれらすべての候補アルゴリズムよりも優れていることが明らかになりました。 アルゴリズム空間に関するさらなる評価が報告され、LGA パラメータの寄与について議論されます。 タンパク質とリガンドのドッキングに関連するため、前述の特徴の寄与が調べられ、ドッキングのパフォーマンスに影響を与える重要な特徴が明らかになります。

新興疾患の出現と人間の幸福を改善したいという意識の高まりを受けて、新しい医療イノベーションを導入するための継続的な努力が行われてきました。 創薬/設計 (DD)1 の幅広い概念は、最も関心のあるトピックです。 ただし、DD プロセスは時間と費用がかかります。 DD パイプライン全体は 15 年間も続く可能性があり、多額の予算と大規模な科学者グループの参加が必要です。 この点において、従来の DD プロセスは多くの場合、高いコストとリスク、そして低い成功率を伴い、新たな研究を妨げ、この分野の実質的な進歩を妨げる要因となっています 2。 この事実に寄与する主な要因は、DD が本質的に、創薬可能な化合物を検出するための巨大な化学空間の探索問題であるということです 3,4。 おそらく、この困難なプロセスで最も重要なステップは、新薬として開発される可能性のある新しい化合物を特定することです。

コンピュータによるアプローチは、DD プロセスを加速して前進させ、成果を向上させる効果的なメカニズムであるため、一般に実用的です。 Computer-Aided DD (CADD)5、6、7、8、9、10 は、これらの計算手順をカバーする包括的な用語です。 具体的には、CADD は、DD での利用に関して分野を横断する数学的およびデータ駆動型ツールのコレクションです。 これらのツールはコンピューター プログラムとして実装され、さまざまな実験方法と組み合わせて、新しい化学物質の発見を促進します。 CADD 戦略は、非常に多くの化合物を迅速にトリアージし、リードに変換できるヒットを特定できます。 その後、実験室の方法が薬の検査と最終仕上げに引き継がれます。 このプロセスは反復的かつ相互的です。 CADD 法の結果は、化学合成や生物学的アッセイに供される化合物を考案するために利用されます。 これらの実験から得られた情報は、CADD アプローチに組み込まれた構造活性相関 (SAR) および定量的 SAR (QSAR) をさらに開発するために利用されます。

CADD 法の中でも、分子ドッキングは特に人気があります。 分子ドッキングは、一般にリガンドと呼ばれる小分子が、実験室での作業を行わずにコンピューターによってタンパク質または他の生体分子と相互作用するプロセスです。 手順的には、限られた確率的ステップでリガンドの立体構造と配向を変化させます。 その目標は、結合エネルギーを最小限に抑える最適なドッキング構造、つまりポーズを追求することです。 分子ドッキング プログラムによって返される結果は、通常、結合エネルギー値と、リガンドが受容体と共結晶化するときの実際の結合親和性と位置を示すタンパク質-リガンド複合体ファイルです。 分子ドッキングは、特定の疾患(生物学的)標的への多数の分子の結合を調べるプロセスである仮想スクリーニングを含む、さまざまな CADD 手順で恩恵を受けています。

この研究は、アルゴリズム選択 (AS)11,12 を適用して、タンパク質-リガンドドッキング問題 (PLDP) を最適に解決するアルゴリズムを自動的に提案することを目的としました。 AS のアイデアは、ノー フリー ランチ定理 (NFLT)13 によって動機付けられています。 NFLT は基本的に、すべてのアルゴリズムが考えられるすべての問題インスタンスに適用された場合、平均して同じパフォーマンスを発揮すると述べています。 したがって、アルゴリズムがどれほど複雑で高度であっても、すべてのアルゴリズムには独自の長所と短所があります。 AS は基本的に、任意のドメインの特定の問題インスタンスに対処するために、既存のアルゴリズムのプールから最適なアルゴリズムを選択しようとします。 この作業の目的は、特定の PLDP インスタンスごとに、PLDP アルゴリズムの固定プールから最適なアルゴリズムを特定することでした。 AutoDock414 は広く使用されている PLDP ツールであり、有利なアルゴリズム プールを提供するため、推奨されました。 遺伝的アルゴリズム (GA)7 とローカル検索 (LS)16 を統合する既存の AutoDock ソルバーである Lamarckian GA (LGA)15 は、候補アルゴリズムのスイートが導出されるようにパラメーター化された方法で使用されました。 このステップにより、デフォルトのパラメーター値を持つ LGA を含む 28 個の LGA バリアントが生成されました。 それらは 1428 個の PLDP インスタンスで使用され、それぞれが 1428 個のリガンドのうち 1 個のリガンドとヒト アンジオテンシン変換酵素 (ACE) の単一標的タンパク質に関係していました。 これら 28 のアルゴリズムは、推奨システムベースの AS アプローチである ALORS17 によって管理されます。 AS を使用できるようにするために、広く採用されている分子記述子や部分構造のフィンガープリントを含む、PLDP インスタンスを表すための機能セットが導出されます。 この設定に続いて、最初に各スタンドアロン LGA バリアントを ALORS と比較して、詳細な実験分析が報告されます。 ALORS の分析機能に関しては、LGA パラメータと PLDP インスタンスの特徴の重要性に加えて、候補アルゴリズムの類似性 (この場合は LGA パラメータ値の点で) と PLDP インスタンスの類似性が調査されます。 結果として得られる評価は、パフォーマンスを向上させて LGA を使用する方法と、特定の PLDP シナリオを解決する際に何を考慮すべきかについての実践的な洞察を提供します。この論文の残りの「方法」セクションでは、PLDP と AS の両方について正式に説明した後、関連する文献について説明します。 アルゴリズムの選択に使用された AS 方法については、「結果と考察」セクションで詳しく説明します。 包括的な計算分析と考察は「結論」セクションで提供されます。

タンパク質とリガンドのドッキングは、現代の製薬研究と医薬品開発において重要な役割を果たしています。 ドッキング アルゴリズムは、サンプリングとランキングを通じてリガンド-受容体複合体の構造を推定します。 彼らはまず、受容体の活性部位にあるリガンドの立体構造をサンプリングします。 次に、特定のスコアリング関数に基づいて、または単純に結合エネルギーを計算することによって、生成されたすべてのポーズをランク付けします18。 したがって、ドッキングアルゴリズムは、リガンドがタンパク質受容体に結合するときのリガンドの最適な配向をシミュレートすることができます。

最初のドッキング手法は、フィッシャーのロック アンド キーの仮定に基づいています19。 この仮定では、リガンドと受容体の両方を、その幾何学的形状に比例する親和性を持つ剛体として扱います。 ほとんどの基本剛体システムでは、結合部位に適合するリガンドが 6 次元の回転空間または並進空間で検索されます。 その後、Koshland は、リガンド相互作用が受容体の活性部位を継続的に修飾することを示唆する理論 iniduced-fit20 を提案しました。 本質的に、ドッキング手順は動的であり、採用可能であると考えられます。 過去数十年にわたり、DOCK21、AutoDock22、GOLD23、Glide24 など、数多くのドッキング テクノロジーやツールが開発されてきました。 3D 姿勢調査、タンパク質受容体モデリングなどの実装の違いに加えて、それらの間の主な違いは、異なるスコアリング関数 (SF) によって実行される結合親和性の評価です 25。 既存のスコアリング関数は、(1) 力場ベース、(2) 経験関数ベース、(3) 知識ベースに分類できます26。 さまざまなスコアリング関数でタンパク質とリガンドの相互作用がどのようにモデル化されるかは不均一であるため、1 つのスコアリング関数をすべてのドッキング タスクに適用すると、多様なパフォーマンスが観察される可能性があります。

この調査では、オープンソースで広く使用されているシステムである AutoDock4 を利用しました。 これは、完全な柔軟性でリガンドをモデル化できる最初のドッキング ソフトウェアです27。 AutoDock4 は、AutoDock と AutoGrid という 2 つの基本的なソフトウェア コンポーネントで構成されています。 AutoDock が主要なソフトウェアである一方で、AutoGrid は相互作用の非共有結合エネルギーを計算し、静電ポテンシャル グリッド マップを生成します28。 AutoDock427の特徴として、側鎖をシフトすることで受容体の柔軟性をモデル化することが可能です。 サイドチェーンの柔軟性に対処するために、同時サンプリング方式が提供されています。 他の鎖は硬いままですが、ユーザーが選択した鎖はリガンドを使用して特定の方法でサンプリングされます。 AutoGridでは、剛体部分をグリッドエネルギーマップとして処理します。 グリッドマップは、受容体の柔軟な部分とともに、選択されたリガンドのドッキングプロセスを指示します28。

AutoDock4 は、AMBER 力場の初期バージョンから派生したファンデルワールス、静電、および方向性水素結合ポテンシャルを使用した物理ベースの力場スコアリング機能を採用しています29。 さらに、部分電荷に基づくペアワイズ加法脱溶媒和項と、単純な構造エントロピー ペナルティが含まれています 26。 スコアリング関数は、静電項とレナード・ジョーンズ VDW 項で構成されます。

ここで、\(A_{ij}\) と \(B_{ij}\) は VDW パラメーター、\(r_{ij}\) はタンパク質原子 \(i \) とリガンド原子 \( j \)、\(q_{i}\) と \(q_{j}\) は原子電荷です。 \(\varepsilon \left( {r_{ij} } \right)\) は、クーロン項の単純な距離依存誘電率として導入されます。 ただし、脱溶媒和効果はクーロン項で表すことができません26。 溶媒の影響が無視されると、比較的低電荷のリガンドが考慮されない偏ったスコアリング関数が生成されます。

知識ベースのスコア関数 25 は、相互作用する原子ペアの統計力学に基づいてさらに確立されます。 ペアごとの加法的脱溶媒和項が導入されます。これは、ボルツマン関係によって原子ペアの出現頻度から直接取得されます。 構造情報から得られるエネルギーポテンシャルも原子構造の決定に含まれます26。 ポテンシャルは次のように計算されます。

ここで、 \(\kappa_{B}\) はボルツマン定数、 \(T \) は系の絶対温度、 \(\rho \left( r \right)\) はタンパク質 - リガンドの数密度です。距離 \(r \) にある原子ペア、\(\rho *\left( r \right)\) は原子間相互作用がゼロの場合のペア密度です。 逆ボルツマンは、真のポテンシャルではなく平均力ポテンシャルを表しており、単純な流体システムとはまったく異なります26。 したがって、体積や組成などの影響は除外されますが、原子間の距離を複雑なタンパク質系に適した関数に変換するのに役立ちます。

ほとんどの AutoDock4 ユーザーは、他の分子ドッキング プラットフォームのユーザーと同様に、指定されたデフォルト値を使用して推奨されるドッキング プロトコルに従う傾向があります。 この慣行は主に、ドッキング プログラムの微調整を避けるために行われます。 さらに、AutoDock4 を含む一部のドッキング プログラムは、特定のスコアリング関数を使用して検索を実行するための限られたオプション セットのみを提供しますが、他にも多くの組み合わせがまだ残っています。 AutoDock4 の場合、推奨されるアルゴリズムの選択は、Lamarckian Genetic Algorithm (LGA) です。 そうは言っても、LGA のパフォーマンスが比較的低いドッキング シナリオを示すことは可能です。

さまざまな状況における問題解決のための適切なアルゴリズムの選択は、ここ数十年でますます注目を集めています30。 パフォーマンスの相補性として知られる現象は、実証研究に基づいて、あるアルゴリズムがある設定では優れたパフォーマンスを発揮する一方で、他の条件では他のアルゴリズムがより優れたパフォーマンスを発揮する可能性があると主張しています12。

インスタンスごとのアルゴリズム選択の概念が提案され、検討されました11。 この考え方は、特定のインスタンスにどのアルゴリズムが最適かを見つけることを指します12。 このアルゴリズムを詳細に検討する根拠は、膨大な数の多様な既存のアルゴリズムから適切なアルゴリズムを選択することにあります。 しかし、ブール充足可能性 (SAT) やその他の難しい組み合わせ問題に対処するために適用されるように普及するには数十年かかりました 31。 指定された手順では、適切なアルゴリズムと特定のシナリオの間にルールが作成されます。 したがって、最適化の問題では、インスタンスごとのアルゴリズムの選択が重要になってきました。

機械学習手法の適用が多くのタスクに有効であることが証明されているため、自動ルール接続手法が研究されています12。 最初の自動アルゴリズム選択プロセスについては、詳細で洞察力に富んだ指示 32 が提供されており、回帰または分類の選択、動的特徴と静的特徴の区別など、多くの重要な問題に対処しています。 ただし、連続問題は省略しています。 さらに、離散問題の利点を強調することによって、連続最適化問題 33 への一般化が提案されています。

提案されたアプローチの主なコンポーネントは、図 1 に示すアルゴリズム選択 (AS) モジュールです。これは、インスタンスごとにアルゴリズムを選択し、特定の (PLDP) インスタンスに対応する適切なアルゴリズムを照合する役割を果たします。 また、以前の AS の説明を参照すると、最初に PLDP アルゴリズムのグループ A が提供される必要があります。 これらのアルゴリズムは固定的な方法で決定して使用できますが、アルゴリズム ポートフォリオ生成戦略 34、35、36 を組み込んで候補アルゴリズムを導き出すことができます。 AS システムをモデル化するには、アルゴリズム セット、インスタンス セット \(I\) に加えて対応する必要があります。 AS は問題に依存しない戦略ですが、AS の動作はそれらのインスタンスの選択によって大きく影響されます。 AS をドッキング タスクのかなり特殊なファミリーを実現するために使用することが計画されている場合、\(\mathcal{I}\) にはその特定のファミリーのインスタンスを含めることができます。 それ以外の場合、一般化された AS モデルを作成するには、\(I\) に広範囲にわたる多様な PLDP インスタンスが含まれることが有益です。 現在の研究では、標的タンパク質は 1 つだけですが、かなり大きなリガンドのセットが存在します。 したがって、ここで構築された AS モデルはすべて、リガンドに関してある程度の一般性を持ちながら、その標的タンパク質に特異的です。 この多様性の側面に関連して、\(\mathcal{A}\) の相補性を通じて高い多様性を持たせることで、改善された堅牢な AS モデルを提供できる可能性があります。 ここでの相補性とは、さまざまな問題解決能力を備えたアルゴリズムを持つことを意味します。 あるアルゴリズムは特定のタイプのインスタンスでは適切に機能しますが、以前のアルゴリズムのパフォーマンスが低いインスタンスでは別のアルゴリズムが適切に機能する可能性があります。 次に、選択された \(A\) と \(I\) を使用して、各問題インスタンスにおける各候補アルゴリズム \(a\) のパフォーマンスを示すパフォーマンス データ \(P(A, I)\) が生成されます。 , \(P(a, i) = {p}_{ai}\)。 このパフォーマンス データ生成ステップでは、候補アルゴリズムの確率的/非決定的性質を考慮することが重要です。 これは、アルゴリズムがまったく同じ問題インスタンスに対して実行されるたびに異なる解決策を提供する可能性がある場合、そのアルゴリズムを 1 回だけ実行し、その値を \(P\) に使用するのは誤解を招くことを意味します。 このような場合、それらのアルゴリズムを複数回実行し、その平均値または中央値をインスタンスごとのパフォーマンス指標として使用するのが合理的です。 AS モデルの構築に必要な最後の要素は、対象となる問題インスタンスの特性を適切に記述する特徴量 \(F\) を指定することです。 データ操作またはデータ形式変換では、特徴が自動的に導出されるため、このステップをスキップできます37。 それ以外の場合は、化学の専門家の助けを借りて、合理的に代表的なインスタンスの特徴を収集できます。 しかし、専門家の実際の存在を必要とせずに、関連文献を参照してそのような機能を思いつくことは潜在的に可能です。 とはいえ、対象となる問題によっては、基本的な統計的尺度やランドマークによって得られる値のみを利用するだけで十分な場合もあります38。 この時点で、伝統的に、パフォーマンス予測、\(\Theta :F\left(I\right)\to P\left(A,I\right)\) などの形式で AS モデルを構築できます。既存の AS 戦略を使用できます。

アルゴリズム選択の図。 従来のインスタンスごとのアルゴリズム選択 (AS) プロセス。

図 2 は、与えられたフレームワークに従って、この記事で実行される AS 設定を視覚化したものです。 データ生成ステップは AutoDock 4.2 に基づいて実現されます。 AS法については既存技術であるALORS117を採用する。 ALORS は、協調フィルタリング (CF)39 に基づくアルゴリズム推奨システムです。 これは、関連するタンパク質構造予測問題に関するものを含む、さまざまな問題領域 40、41、42、43 に関するさまざまな選択決定に適用され、成功しています 44、45。 CF はレコメンデーション アプローチの一種で、ユーザーが映画や製品などの特定のアイテムをどの程度好むかを予測します。 ユーザー レベルとアイテム レベルの両方で、類似したエントリの関連付けに基づいて予測を行います。 他の推奨方法とは異なり、CF は疎なエントリを処理します。 ALORS は、アルゴリズムをアイテムとして考慮しながら、問題のインスタンスをユーザーとして考慮することで、CF のアイデアに対応します。 つまり、すべての候補アルゴリズムと比較したアルゴリズムの相対的な成功度に応じて、インスタンスがアルゴリズムをどの程度気に入っているかを示します。 CF アプリケーションと同様に、ALORS はランクベースのデータ、つまりすべての問題インスタンスに対する現在のすべてのアルゴリズムのランクも処理します。 その点で、ALORS はランク予測タスクとしてアルゴリズム選択 (AS) を実行します。 ただし、既存の AS システムとは異なり、ALORS は間接的にランク予測を実行します。 基本的に、ALORS によって導出される予測モデルは、アルゴリズム 1 で詳述されているように、特徴対特徴モデルです。これは、ターゲットの問題インスタンスを特徴付ける厳選された一連の特徴を、インスタンス特徴の別のグループにマッピングします。 後者の一連の特徴は、行列分解 (MF) によってランク パフォーマンス データから自動的に抽出されたものです。 具体的には、次元削減のための MF 手法として、SVD(Singular Value Decomposition)*6 が用いられます。

タンパク質とリガンドのドッキングのための ALORS のフレームワーク。 すべてのリガンドは 28 のアルゴリズムを使用して ACE とドッキングされ、データ生成手順中に AutoDock4 でそれぞれ異なるパラメーター構成が使用されます。 28 番目のアルゴリズム設定 (A28) など、50 回の実行の平均で最低のドッキング スコアを生成するアルゴリズム構成が、特定のインスタンスに最適なアルゴリズムとして選択されます。 ALORS モデルは、分子記述子とフィンガープリント、および各リガンドに対応する最適なアルゴリズム ラベルを使用してトレーニングされます。 私たちのモデルは、単一の新しいリガンドの特徴を使用して、推論に最適なアルゴリズム構成を決定します。

ここでの ALORS は SVD による MF のランクに対して k = 5 として適用されます。 Random Forest (RF)47 のモデリングコンポーネントについては、Scikit のデフォルト値である 100 にツリー数が設定されています。

候補アルゴリズム セットは 28 のアルゴリズムで構成され、ドッキング シナリオ (インスタンス) の数は 1428 です。アルゴリズムは基本的に、表 1 に詳細が示されているように、ラマルク遺伝的アルゴリズム (LGA) の個別のパラメーター構成を設定することによって指定されます。評価は次のとおりです。 10 倍の交差検証 (10-cv) によって実現されます。

リガンドは、米国食品医薬品局 (FDA) 2 によって ZINC15 データベースに承認されている分子です 48。 SARS-COV ウイルスと腎臓および心血管機能にとって重要な膜タンパク質であるヒト アンジオテンシン変換酵素 (ACE) が、標的受容体として選択されています (PDB DOI: 1O86)49。 元のリガンド ファイルは MOL2 形式であり、Openbabel50 を介してドッキングするために PDB 形式に変換されます。 受容体とリガンドは AutoDock Tools によって前処理され、PDBQT の形式での水素結合と電荷の追加が含まれます。 ドッキング プロセス全体は AutoDock 4.2 経由で実行されます。 ランダム シードは実験の再現性のために固定されています。 各アルゴリズムは、リガンドごとに 50 回実行されるように設定され、エネルギー評価の数は 2,500,000 に設定されます。これらは両方とも、各アルゴリズムが利用できる計算リソースを制御するために固定されています。 残りの設定はデフォルトであり、詳細については AutoDock4 のユーザー ガイド 3 で説明されています。特徴抽出の場合、RDKit51 を使用して分子記述子が生成され、PubChem 部分構造フィンガープリントは PaDEL-Descriptor52 によって計算されます。 分子記述子は、アルゴリズムによって計算された分子の特性の数値です51。 すべてのリガンドにわたって値 0 の記述子を削除すると、208 個の特徴が得られます。 このステップに続いて、異なるリガンド間でほぼ同じ値を持つ特徴が破棄され、その結果 119 個の使用可能な特徴が得られます。 すべての特徴は、各特徴の値を [0, 1] に当てはめる最小-最大正規化によって決定されます。 PubChem 部分構造フィンガープリントは、バイナリ値 (0/1) の順序付きリストであり、環構造などの特定の部分構造の存在を表します53。 この場合、リガンドごとに、バイナリでエンコードされたリストの長さは 881 です。

図 3 は、AVG と BEST のすべてのドッキング シナリオにわたる各アルゴリズムのランクをそれぞれ示しています。 一般に一部のアルゴリズムは他のアルゴリズムよりも優れたパフォーマンスを発揮しますが、相対的なパフォーマンスはさまざまであることがわかります。 さらに、すべてのタンパク質とリガンドのドッキング インスタンスにおいて、残りのアルゴリズムを常に上回る究極のアルゴリズムは存在しません。 この見解は、アルゴリズムの選択が、選択されたアルゴリズムによって効果的に解決できるインスタンスと適切なアルゴリズムを自動的に照合することによって、これらすべてのアルゴリズムを打ち負かす可能性が高いことを示唆しています。

ドッキング アルゴリズムのランク。 (A) AVG パフォーマンスに基づく、すべてのインスタンスにわたるドッキング アルゴリズムのランク。 (B) BEST パフォーマンスに基づく、すべてのインスタンスにわたるドッキング アルゴリズムのランク。

表 2 は、ALORS 以外の各スタンドアロン アルゴリズムのランキングを示しています。 これらすべてのアルゴリズムが ALORS の候補アルゴリズムとして収容されます。 2 つの個別のパフォーマンス評価が提供されます。 最初のアルゴリズムは、使用されるすべてのアルゴリズムが確率的であることを考慮して、アルゴリズムの平均パフォーマンスに焦点を当てます。 2 番目のケースは、各ドッキング インスタンスでのすべての実行の中から最適なドッキング ソリューションに関係します。 どちらのシナリオでも、ALORS はすべてのスタンドアロン アルゴリズムよりも優れていますが、AVG ケースのパフォーマンスの差は BEST ケースよりも大幅です。

全体として、ALORS はすべてのドッキング インスタンスにわたって最高かつ最も堅牢なパフォーマンスを一貫して提供します。 堅牢性の側面は標準偏差値から検証できます。 結果を詳しく見て、AVG パフォーマンスを参照すると、A6 が最良のスタンドアロン アルゴリズムであることがわかりました。これは、AS とは異なり、ドッキング インスタンスごとに 1 つのドッキング アルゴリズムを選択する従来のすべてのドッキング インスタンスの唯一のアルゴリズムとして使用されていることを意味します。 。 A6 の平均ランクは 7.90 ですが、ALORS の平均ランクは 6.00 になります。 A6 の次に A7 が続き、平均ランクは 7.91 です。 さらに、AutoDock に組み込まれているデフォルトのアルゴリズム設定である A2 は、現在のテスト シナリオでは 3 番目に優れたスタンドアロン アプローチであることがわかります。 最高のドッキング結果を提供するという点では、AVG の場合とは異なり、A8 は、構成アルゴリズムの中で ALORS の平均ランク 6.75 に次ぎ、最高の平均ランク 6.80 を提供します。 A1 は A8 に非常に近いパフォーマンスを提供し、平均ランクは 6.82 です。 A1 の次に最も近いパフォーマーは A9 で、平均ランクは 7.09 です。 A2 のデフォルト構成は、これらのスタンドアロン方式の中で 5 番目に位置します。

図 4 は、上のグラフを参照して、AVG と BEST の両方の平均ランク変化を視覚化しています。 すべてのアルゴリズム間の相対的なパフォーマンス傾向がある程度維持されていることは注目に値します。 残りのグラフは、AVG と BEST でのソートされたドッキング方法を個別に示しています。 グラフを視覚的に分析するだけで、密接にランク付けされたメソッドをグループ内で検出できます。 たとえば、A5、A19、A20、A25、A26、および A27 は、明らかにすべてのアルゴリズムの中で最悪のパフォーマンスを示します。

ドッキング アルゴリズムの平均ランク。 テストされたすべてのドッキング方法の平均ランク。 (A) AVG と BEST の両方での相対比較、(B) AVG での並べ替えられた比較、(C) BEST での並べ替えられた比較。

図 5 は、階層的クラスタリングの観点から、すべての構成アルゴリズム間の類似点を示しています。

ドッキング アルゴリズムのクラスタリング。 AVG ケースの SVD (k = 5) によって抽出された潜在的な特徴に基づく構成要素のドッキング アルゴリズムの階層的クラスタリング。

クラスターの最下位レベルでは、次のアルゴリズム グループがよく似ています: {A8, A9}、{A10, A21}、{A2, A7}、{A11, A12}、{A5, A19}、{ A26、A27}、{A22、A23}、{A14、A17}、{A15、A16}。 表 ~ \ref{algorithm-configurations} を参照すると、{A14, A17} ペアを除いて、グループ化されたすべてのアルゴリズムは、母集団サイズと突然変異率に関して同じ構成になっています。 アルゴリズム レベル、つまりウィンドウ サイズで異なる構成を利用するために使用される 3 番目のバリエーションは、これらのアルゴリズムの動作に劇的な変化を引き起こしません。

アルゴリズムの類似性のこの側面に関して、類似したアルゴリズムから 1 つのアルゴリズムのみを維持することにより、同等のパフォーマンスを提供する可能性のあるサブポートフォリオは、{A1、A2、A3、A4、A5、A6、A8、A10、A11、A13、A14、A15 になります。 、A18、A20、A22、A24、A25、A26、A28}、28 のオプションのうち 19 のアルゴリズムが含まれます。 階層クラスターの 1 つ上のレベルに進み、大規模なアルゴリズム クラスターを参照することで、ポートフォリオをさらに削減できます。 この場合、ポートフォリオの例は {A1、A3、A6、A13、A14、A18、A20、A24、A28} となります。

図 6A は、PLDP インスタンス機能の重要性を視覚化しています。 重要度の側面は、ALORS でランダム フォレスト (RF) 予測モデルを構築する際に調査されるジニ重要度の値によって決定されます。 これら 119 個の特徴のうち、4 個ははるかに高いジニ重要度を取得しているため、残りと比較して非常に重要なものになります。 対応する機能は次のとおりです。

NumRotatableBonds

バラバンJ

カッパ1

カッパ2

ジニ機能の重要性。 ブルースのものは、ジニ値に関して他のものよりもはるかに重要です。 (A) すべてのドッキング インスタンス フィーチャのジニ重要度値、(B) \(F_{md,top9}\) フィーチャのジニ重要度値、(C) \(F_{md, top4 + sf,top54}\) 特徴量、(D) \(F_{md,top9 + sf,top54}\) 特徴量のジニ重要度値、(E) \(F_{sf, top54}\) の機能。

AS の実行には、特性 \(F_{md}\) や部分構造フィンガープリント \(F_{sf}\) などの分子記述子に加えて使用されます。 フィンガープリントはバイナリ形式の特徴であり、それぞれが高度に特異的な部分構造の存在を表します。 この点において、分子記述子の場合のように、個々の特徴から利益を得るのは比較的困難です。 表 3 は、さまざまな機能セットでの ALORS のパフォーマンスを報告します。 結果は、予想どおり \(F_{md}\) の方が \(F_{sf}\) よりも有益であることを示しています。 \(F_{md}\) に焦点を当てると、\(F_{md,top4}\) と \(F_{md,top9}\) という 2 つのサブセットがさらに評価されます。これらは本質的に、元の ALORS モデルから抽出されたジニ値。 前述したように、\(F_{md,top4}\) は重要な影響を与える主な機能を示しますが、\(F_{md,top9}\) には \(F_{md,top4}\) の機能以外に 5 つの追加機能があります。これらは、ジニ重要度の値が 0.15 からカットオフされていることを考慮して選択されます。 どちらのサブセットも、119 個の機能をすべて使用するのではなく、スタンドアロンのアルゴリズムよりも優れたパフォーマンスを発揮します。 ただし、より大きなサブセット \(F_{md,top9}\) の方が \(F_{md,top4}\) よりも良い結果が得られます。 図 6B は、AS モデルが \(F_{md,top9}\) で構築された場合の \(F_{md,top9}\) からの各特徴の寄与を視覚化しています。 \(F_{sf}\) に対しても同様のアプローチが適用され、54 個の特徴のサブセット \(F_{sf,top54}\) が得られます。 これに関連して、図 6E はこれらの各機能の重要性を示しています。 881 機能のうち 54 機能を使用すると、パフォーマンスがさらに向上しました。 完全な指紋機能セットがかなり大きいことを考慮して、追加の ALORS モデルは RF 用のより多くのトレスを使用して構築され、100 から 500 に増加します。ただし、デフォルトの ALORS 設定と比較して、平均ランク 6.39 5.62 の優れたパフォーマンスが達成されます。 、\(F_{sf}\),top54 を使用したシナリオよりもパフォーマンスは依然として悪いです。 特徴量の最終評価は \(F_{md}\) と \(F_{sf}\) の両方、特に前述のサブセット \(F_{md,top4 + sf,top54}\) と \(F_{sf}\) を利用して実行されます。 \(F_{md,top9 + sf,top54}\)。 これらの組み合わせにより、唯一の \(F_{md}\) と \(F_{sf}\) の両方の特徴サブセット ベースの結果が改善されました。 この結果は、部分構造のフィンガープリントには、分子記述子から直接得られるものではない追加の情報が含まれていることを示唆しています。 対応する特徴の重要度は、それぞれ \(F_{md,top4 + sf,top54}\) と \(F_{md,top9 + sf,top54}\) について図 6C と図 6D に示されています。

Gini の重要性を考慮して、上位 4、上位 9、および上位 40 の機能がインスタンス空間の分析用に選択されます。 2 次元空間でインスタンスを視覚化するには、主成分分析 (PCA) と t 分布確率的近傍埋め込み (t-SNE) を適用して、これらの特徴を 2 次元に削減します。 PCAとt-SNEによって実現されるインスタンス表現を図7Aに示します。 PCA コンポーネントと比較して、t-SNE はより分離されたインスタンス クラスターを提供します。 観察と分析により、9 つの特徴を選択することが最も識別力があることがわかります。 したがって、これらの 9 つの特徴を使用してインスタンスをクラスタリングするために、k-means アルゴリズム 54 が適用されます。 異なる k ∈ [2, 15] 値を試した後、すべてのインスタンス ポイントにわたる平均シルエット係数 55 として導出されるシルエット スコアに関して、最良の k は 2 として決定されます。

特徴 PCA、t-SNE、Kmeans による視覚化。 (A) 4、9、および 40 は、PCA および t-SNE を使用した視覚化を特徴とします。 (B) 2 次元 PCA および t-SNE 空間では、9 つ​​の特徴の Kmeans 分類結果が得られます。 (C) 2 次元 PCA および t-SNE 空間で、異なる特徴セットに対して SVD によって抽出された 5 つの潜在特徴の Kmeans 分類結果。

クラスタリングの最終結果を図7Bに示す。 スコアが示すように、上位 9 つの特徴を 2 つのクラスターに分割するのが最適です。 データの中央に明確な分割があることが観察されます。 t-SNE では点がより多様に広がっていることがわかりますが、その分割は比較的曖昧です。 PCA では、個別のグループがより緊密にクラスタリングされますが、他の機能セットが 2 つのグループに分割されている場合、クラスタリングがより明確になります。 また、t-SNE では、左上隅の -10 から 40 PC2 の部分が集中しており、他の部分は分散してまばらです。 図 7C は、5 つの潜在特徴が使用されている 2 番目の特徴セットの顕著な状況を示しています。 これら 2 つのクラスター内のデータ量は不均一に分散されており、一方のグループの数が他方のグループの数を大幅に上回っています。 その結果、特定のグループのパターンを捉えることができます。

ポイントがグループ全体としてのみ考慮されている場合、シルエット スコアは状況を示すことができないことに注意してください。 スコアの評価を使用して 1 つのグループがどのようにパフォーマンスを発揮するかはわかりませんが、ポイントが実際に PCA または t-SNE のいずれかに均等に分散していることは観察できます。 これは、それらをグループとして考えるのが最善であることを意味します。 つまり、これらの特徴を考慮した場合、明確な分割やクラスター化されたパターンは存在しません。 図 8 に示すように、緑色で示されるタイプ 0 のグループ 0 は、一般により密接にクラスター化されています。 グループ 0 は、BalabanJ を除いてより高い中央値を示しています。 グループ 0 のデータの大部分はクラスター化されていますが、グループ 1 に比べて外れ値が多くなります。 驚くべきことに、kappa3 は、ほとんどのデータよりも 2 ~ 3 倍大きいいくつかの外れ値を含むデータが極端に集まっているという奇妙なパターンを示しています。

特徴の箱ひげ図。 タイプ 0 は、PCA および t-SNE を実行するときの同じグループ 0 を示し、タイプ 1 はグループ 1 を示します。2 つのクラスターで選択された 9 つの特徴の分布は、各グループで考えられるパターンを示すために与えられています。 グループ 0 はクラスター化されたグループを示しますが、グループ 1 と比較して外れ値が多くなります。

図 9A と B は、デフォルトのアルゴリズムと最適なアルゴリズムでドッキングされたインスタンスの立体構造と相互作用の違いを示しています。 より多くの水素結合が観察されるため、最適なパラメーター構成によって予測されたドッキング姿勢は、デフォルトのパラメーター構成のアルゴリズムによって予測された姿勢と比較して、受容体タンパク質とのより安定した結合をもたらす可能性があります。

リガンド ZINC000000000053 と ACE の相互作用プロット。 (A) デフォルトのパラメータ設定の下、(B) AutoDock4 の最適なパラメータ設定の下。

前述したように、オープンソースの Python ライブラリ RDKit51 によって提供される化学記述子を使用すると、ドッキング プロセスに関与する分子ごとに 208 個の特徴、分子記述子が生成されます。 それらの重要性について、最も重要なものから順に、上位 9 つの特徴は、(1) 回転可能な結合の数、(2) バラバンの J 指数、(3.4.5) カッパ 1、2 を含むカッパ分子形状指数、 (6) 薬物らしさ指数の定量的推定、(7) 電気トポロジカル状態指数、(8) Bertz 分子複雑性指数、(9) 軌道電気陰性度指数の部分均等化。 これらの機能は ALORS によって強調されていますが、ドッキング プロセスで理解できるかどうかに関して、QSAR 研究での応用を検討する必要があります。

回転可能な結合の数は、分子の柔軟性を反映することができます56。 以前の研究では、薬物は柔軟性が低いため、この分子記述子が薬物と他の小分子を区別するのに役立つことが示唆されています57,58。 本質的に、分子ドッキングは、制約されたドッキング空間の下で最適な位置と姿勢を探索するプロセスです。 回転可能な結合の数を変更すると、AutoDock によって返される潜在的なドッキング ポーズに直接影響します。 したがって、AutoDock Tools27 を使用してリガンドを前処理する場合は、結合の回転数を調整することが重要です。

Balaban の J インデックスは、分子を単一の数値で表す連結グラフとして扱うトポロジカルインデックスの 1 つです59。 J インデックスは分子内の距離の平均合計を使用するため、特に異性体の識別力が向上します。 結合または原子の数の違いに敏感です。 インデックスの計算は、分子の物理的および構造情報を保存しながら、計算効率が高くなります60、61。

カッパ分子形状インデックスは、分子の形状情報に焦点を当てたトポロジカル インデックスのもう 1 つのタイプです。 カッパ分子形状指数は、最も複雑な構造と潜在的に最も単純な構造の間の違いを定量化します62。 カッパ 1、2、および 3 は、原子または結合の数で測定した場合には区別できない異性体を区別できます63。 したがって、カッパ分子形状インデックスは、分子の全体的な接続性を測定するための信頼できる記述子です。

QED は薬物らしさの定量的評価の略であり、リピンスキーの 564 の法則に代わる洗練された代替手段として薬物選択における実践的なガイダンスを提供するために提案されました。 QED は、オクタノールと水の分配係数、水素結合のドナーとアクセプターの数、分子の極性表面積、回転可能な結合の数、芳香環の数、および分子の数を含む、分子の 8 つの物理的特性で構成される統合指標です。構造的なアラートの。 QED は、大規模な化合物データベースの仮想スクリーニングに適用され、有利な分子をフィルタリングし 65、de novo 医薬品設計のための深層学習モデルの構築とベンチマークを支援しています 66。 QED の強さは、与えられたジニの重要性にも反映されています。

EState_VSA 記述子は、EState (電気トポロジー状態) と VSA インデックスの両方を侵害します。 EState インデックスには、原子レベルおよび分子レベルのトポロジー情報が含まれています67。 分子の構造を強調するカッパ分子形状インデックスとは異なり、電気トポロジカル状態インデックスは、各原子の電気陰性度および重み付けされた電子効果を明らかにします。 これは、エーテルの 17O NMR シフトおよびさまざまなリガンドの結合親和性との強い相関関係によって検証されています 68,69。 VSA は原子のファン デル ワールス表面積の値であり、EState インデックスが計算されるかどうかを決定するために使用されます。 分子ドッキングに関しては、リガンドと受容体の間の静電相互作用は、AutoDock の半経験的な力場計算におけるエネルギー評価の重要な要素であり、これが 208 個の記述子のうち 8 位にランクされる理由を説明している可能性があります。

Bertz 指数は、分子グラフから定量的に導出された分子の複雑さを表すために定義されました 70。 これは、分子の 2 つのプロパティ、つまり折れ線グラフの線の数とヘテロ原子の数で構成されます。 不均一性と接続性の両方が 1 つのインデックスに統合されるため、分子から豊富な情報が抽出されます。 BertzCT は有機合成に特に役立ちます。 これを使用すると、合成製品の複雑さを監視できるため、実行前に意図した合成ルートを評価できます71。

PEOE_VSA は、軌道電気陰性度とファンデルワールス表面積の部分的な等化からなるもう 1 つのハイブリッド記述子です。 軌道電気陰性度の部分等化 (PEOE) は、化学合成設計における反応性を評価するために初めて提示されました 72。 PEOE は、分子全体にわたって反復的に原子軌道電気陰性度に基づいて部分電荷を取得します。 複雑な有機分子では、電子吸引および供与効果がある場合でも、原子の電気陰性度を正確に計算できます。 PEOE は最初に化合物の味をモデル化するためにテストされ、その後、麻酔活性の予測や HIV インテグラーゼの阻害を含む QSAR 研究に適用されました 73,74。 in vivo 環境をシミュレートするには、AutoDock で信頼できる結合エネルギーを得るためにリガンドに部分電荷を割り当てることを強くお勧めします。

このペーパーは、AutoDock 上でインスタンスごとに LGA バリアントを自動的に選択する、レコメンダー システム ベースのアルゴリズム選択システムとして ALORS を紹介し、さらに評価することを目的としています。 分子記述子や各タンパク質とリガンドのドッキングインスタンスに関連するフィンガープリントを含む特徴が、化合物の定量化に使用されています。 この調査では、固定アルゴリズム プールのすべての候補アルゴリズムと比較して、ALORS が最良の結果をもたらすことが示されました。 9 つの特徴がタンパク質とリガンドの相互作用の重要な決定要因として強調されており、ドッキングのパフォーマンスに重要な化学的特徴の探索を促すために分析されています。 この研究の結果は、創薬可能な化合物を探索する分子ドッキングタスクに最適にアプローチするために、適切なアルゴリズムセレクターと機能を利用することを強調しています。 ALORS は、CADD 研究でタンパク質とリガンドのドッキング タスクを実行するための好ましい選択肢となる可能性があります。 さらに、私たちの研究結果により、自動アルゴリズム選択の応用が急速に拡大しています。

ただし、我々の研究の限界の 1 つは、ドッキング データの生成に採用されたタンパク質が ACE だけであることです。 ALORS は ACE とのドッキングの場合にはうまく機能しますが、 それにもかかわらず、私たちのモデルが他のタンパク質に一般化できるかどうかはまだ決定されていません。 タンパク質とリガンドの相互作用の多様性を高めるには、より多くのタンパク質をモデルに組み込む必要があります。 したがって、さまざまな標的タンパク質とのドッキングシナリオを拡張すると、AS ツールとしての ALORS のパフォーマンスをより包括的に評価できる可能性があります。 同時に、経験的証拠に基づいて手作業で選択された分子の特性も同様に実行可能な選択肢です。 より具体的で関連性の高い手作業で選択された特徴を、アルゴリズムで選択された特徴と組み合わせて、より関連性と精度を高めることができます。

DOCK、Glide、CABSdock などの他のタンパク質とリガンドのドッキング プログラムも推奨されており、各ドッキング プラットフォームの基礎となるアルゴリズムは特定のドッキング状況に合わせて調整できます。 AutoDock は、改良された LGA 検索アルゴリズムと経験に基づいたバインディングフリーのスコアリング機能により、高分子への自動リガンドドッキングで良好なパフォーマンスを発揮しますが、幾何学的マッチングアルゴリズムを使用する Glide や DOCK などの徹底的な検索ベースのドッキング プログラムのパフォーマンスが優れているかどうかはまだわかりません。他の地域でも。 さらに、さまざまなドッキング シナリオで最適なドッキング プログラムを評価し、自動的に選択することに重点を置くことができます。

研究中に、タンパク質とリガンドの相互作用予測におけるニューラル ネットワーク (NN) の応用が普及していることに気づきました。 ニューラル ネットワークは、数値ベクトル、画像、テキスト、音声、さらには時系列などのパターンを認識するためのレイヤーとニューロンで構成され、分類や予測タスクに広く使用されています。 ニューラル ネットワークの枠組みの下では、グラフ ニューラル ネットワーク (GNN) は、ノードとエッジで構成されるグラフとしてデータを特徴付けることに依存しており、従来の回帰モデルや分類モデルと比較して画像内の非線形関係を捉えることに優れています75。 GNN は、リレーショナル情報を含むグラフ データに特に役立ちます。 分子は結合構造であるため、化学物質の自然な情報は不規則な分子グラフとして表すことができます。 分子から得られる画像ベースの特徴は、分子記述子から得られる従来の特徴よりも有望な結果をもたらします76。 その結果、タンパク質とリガンドの相互作用をより正確に予測するために、GNN の実装により多くの努力を注ぐことができます。

受容体 ACE は PDB DOI: 1O86 で見つけることができ、ドッキング リガンドは ZINC15 データベース: https://zinc15.docking.org/catalogs/dbfda/ にあります。

ヒトアンジオテンシン変換酵素

ラマルク遺伝的アルゴリズム

アルゴリズム推奨システム

創薬・創薬

コンピュータ支援創薬・創薬

構造活性関係

定量的構造活性関係

アルゴリズムの選択

タンパク質とリガンドのドッキング問題

フリーランチ定理は存在しない

遺伝的アルゴリズム

ローカル検索

協調フィルタリング

行列分解

特異値分解

ランダムフォレスト

食品医薬品局

分子データファイル

タンパク質データバンク

タンパク質データバンク、部分電荷 (Q)、および原子タイプ (T)

平均

主成分分析

T 分布型確率的近傍埋め込み

薬物らしさの定量的推定

軌道電気陰性度の部分的等化

ヒト免疫不全ウイルス

ニューラルネットワーク

グラフニューラルネットワーク

Everhardus、JA Drug Design: 医薬品化学 (Elsevier、2017)。

Google スカラー

Jeffrey, C.、Carl, R. & Parvesh, K. 進歩の代償: アルツハイマー病治療薬開発への資金提供と融資。 アルツハイマー型認知症トランス。 解像度クリン。 インター。 20、875 (2018)。

Google スカラー

レイモンド、J.-L. ケミカルスペースプロジェクト。 準拠化学。 解像度 48(3)、722–730 (2015)。

論文 CAS PubMed Google Scholar

Mullard, A. 2020 年の FDA 医薬品承認。 ナット。 Rev.DrugDiscov. 20(2)、85–91 (2021)。

論文 CAS PubMed Google Scholar

エドガー、L.-L.、ユルゲン、B.、ホセ、LM-F. 化学、生物学、生物医学のための情報学。 J.Chem. 情報モデル。 61(1)、26–35 (2020)。

Google スカラー

Wenbo, Y. & Alexander, DM コンピューター支援医薬品設計法。 『抗生物質』(ジャック、E 編)85–106(Springer、2017)。

Google スカラー

Stephani, JYM、Vijahakumar, G.、Sunhye, H.、Sun, C. 現代の創薬におけるコンピューター支援医薬品設計の役割。 アーチ。 薬局。 解像度 38(9)、1686–1701 (2015)。

記事 Google Scholar

Duch, W.、Swaminathan, K.、Meller, J. 合理的な医薬品設計と発見のための人工知能アプローチ。 カー。 薬局。 デス。 13(14)、1497–1508 (2007)。

論文 CAS PubMed Google Scholar

モハマド、HB et al. コンピューター支援医薬品設計: 成功と限界。 カー。 薬局。 デス。 22(5)、572–581 (2016)。

記事 Google Scholar

フェルナンド、DP-M.、エドガー、L.-L.、フアレス-メルカド、KE、ホセ、LM-F。 コンピューターによる薬剤設計手法 - 現在および将来の展望。 インシリコ創薬 2、19–44 (2019)。

Google スカラー

Rice、JR アルゴリズム選択問題。 上級計算します。 15、65–118 (1976)。

記事 Google Scholar

Pascal, K.、Holger, HH、Frank, N. & Heike, T. 自動アルゴリズムの選択: 調査と展望。 進化。 計算します。 27(1)、3–45 (2019)。

記事 Google Scholar

Wolpert, DH & Macready, WG 最適化のためのフリーランチ定理はありません。 IEEEトランス。 進化。 計算します。 1、67–82 (1997)。

記事 Google Scholar

David, SG、Garrett, MM & Arthur, JO 柔軟なリガンドの自動ドッキング: オートドックの応用。 J.Mol. 認識します。 9(1)、1–5 (1996)。

3.0.CO;2-6" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291099-1352%28199601%299%3A1%3C1%3A%3AAID-JMR241%3E3.0.CO%3B2-6" aria-label="Article reference 14" data-doi="10.1002/(SICI)1099-1352(199601)9:13.0.CO;2-6">記事 Google Scholar

ギャレット、MM 他。 ラマルク遺伝的アルゴリズムと経験的結合自由エネルギー関数を使用した自動ドッキング。 J.Comput. 化学。 19(14)、1639–1662 (1998)。

3.0.CO;2-B" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291096-987X%2819981115%2919%3A14%3C1639%3A%3AAID-JCC10%3E3.0.CO%3B2-B" aria-label="Article reference 15" data-doi="10.1002/(SICI)1096-987X(19981115)19:143.0.CO;2-B">記事 Google Scholar

Emile, A.、Emile, HLA & Jan, KL、組み合わせ最適化におけるローカル検索 (プリンストン大学出版局、2003)。

数学 Google Scholar

Mısır, M. & Sebag, M. ALORS: アルゴリズム推奨システム。 アーティフ。 知性。 244、291–314 (2017)。

記事 MathSciNet MATH Google Scholar

Meng, X.-Y.、Zhang, H.-X.、Mezei, M. & Cui, M. 分子ドッキング: 構造ベースの創薬のための強力なアプローチ。 カー。 計算します。 薬物援助の研究 7(2)、146–157 (2011)。

論文 CAS PubMed PubMed Central Google Scholar

Fischer, E. 酵素の作用に対する配置の影響。 約。 ドイツ人 Chem. Ges. 27(3)、2985-2993 (1894)。

記事 CAS Google Scholar

Koshland, DE Jr. 酵素作用における構造と機能の相関関係: 理論的および実験的ツールにより、酵素の構造と機能の間の相関関係が明らかになりました。 サイエンス 142(3599)、1533–1541 (1963)。

論文 ADS CAS PubMed Google Scholar

Cherayathumadom, MV、Xiaohui, J.、Tom, O. & Marvin, W. Ligandfit: タンパク質の活性部位へのリガンドの形状指向性迅速ドッキングのための新しい方法。 J.Mol. グループモデル。 21(4)、289–307 (2003)。

記事 Google Scholar

Fredrik, O.、Garrett, MM、Michel, FS、Arthur, JO & David, SG 複数のターゲット構造への自動ドッキング: 自動ドックにおけるタンパク質の移動性と構造的な水の不均一性の組み込み。 タンパク質の構造。 機能。 バイオインフ。 46(1)、34–40 (2002)。

記事 Google Scholar

Gareth, J.、Peter, W.、Robert, CG、Andrew, RL & Robin, T. 柔軟なドッキングのための遺伝的アルゴリズムの開発と検証。 J.Mol. バイオル。 267(3)、727–748 (1997)。

記事 Google Scholar

リチャード、AF 他。 Glide: 迅速かつ正確なドッキングとスコアリングのための新しいアプローチ。 1. ドッキング精度の方法と評価。 J.Med. 化学。 47(7)、1739–1749 (2004)。

記事 Google Scholar

Isabella, AG、Felipe, SP、Laurent, ED 構造ベースの仮想スクリーニングのための経験的スコアリング機能。 フロント。 薬理学。 9, 1089 (2018)。

記事 Google Scholar

Huang, S.-Y.、Grinter, SZ & Zou, X. タンパク質-リガンドドッキングのスコアリング関数とその評価方法: 最近の進歩と将来の方向性。 物理学。 化学。 化学。 物理学。 12(40)、12899–12908 (2010)。

論文 CAS PubMed Google Scholar

ギャレット、MM 他。 Autodock4 および autodocktools4: 選択的な受容体の柔軟性を備えた自動ドッキング。 J.Comput. 化学。 30(16)、2785–2791 (2009)。

記事 Google Scholar

Gromiha、MM、第 7 章 - タンパク質相互作用。 Protein Bioinformatics (Gromiha, MM 編) 247–302 (Academic Press、2010)。

Google Scholar の章

Elaine, CM、Brian, KS & Irwin, DK グリッドベースのエネルギー評価による自動ドッキング。 J.Comput. 化学。 13(4)、505–524 (1992)。

記事 Google Scholar

Alexander, T.、Lukas, G.、Tanja, T.、Marcel, W. & Eyke, H. メタ レベルでのアルゴリズムの選択。 マッハ。 学ぶ。 5、417 (2022)。

Google スカラー

リン、X、フランク、H.、ホルガー、HH、ケビン、L.-B. Satzilla-07: 衛星向けアルゴリズム ポートフォリオの設計と分析。 制約プログラミングの原則と実践に関する国際会議 712–727 (Springer、2007)。

Lars, K. 組み合わせ検索問題のアルゴリズム選択: 調査。 データ マイニングと制約プログラミング 149–190 (Springer、2016)。

Mario, AM、Michael, K.、Saman, KH 連続最適化領域におけるアルゴリズム選択問題。 インテリジェント データ分析における計算知能 75–89 (Springer、2013)。

Gomes、CP & Selman、B. アルゴリズム ポートフォリオ。 アーティフ。 知性。 126(1)、43–62 (2001)。

記事 MathSciNet MATH Google Scholar

Xu, L.、Hoos, HH & Leyton-Brown, K. Hydra: ポートフォリオベースの選択のためのアルゴリズムの自動構成。 第 24 回 AAAI 人工知能会議議事録 (AAAI) 210–216 (2010)。

Aldy, G.、Hoong, CL、および Mustafa, M. オンライン アルゴリズム選択のためのパラメーター構成の複数のポートフォリオを設計および比較します。 第 10 回学習およびインテリジェント最適化会議 (LION) の議事録、Vol. LNCS 91–106 の 10079 (イタリア、ナポリ、2016)。

Andrea, L.、Yuri, M.、Horst, S.、Vijay, AS アルゴリズム ポートフォリオの深層学習。 第 13 回人工知能会議議事録 (AAAI) 1280–1286 (2016)。

ベルンハルト、P.、ヒラン、B.、クリストフ、G.-C. あなたを学習できる人を教えてください、そして私はあなたが誰であるかを教えます: さまざまな学習アルゴリズムのランドマーク。 第 7 回機械学習国際会議議事録 (ICML) 743–750 (2000)。

Xiaoyuan, S. & Taghi, MK 協調フィルタリング技術の調査。 上級アーティフ。 知性。 2009年4月(2009年)

Google スカラー

Mustafa, M. 適応演算子選択に関するアルゴリズム選択: 遺伝的アルゴリズムに関するケーススタディ。 第 15 回学習およびインテリジェント最適化カンファレンス (LION)、LNCS 12931 (2021) にて。

Mustafa, M.、Aldy, G.、Pieter, V. チーム オリエンテーリング問題のアルゴリズム選択。 組み合わせ最適化における進化的計算に関する欧州会議 (EvoCOP) (EvoStar の一部)、Vol. LNCS 33–45 の 13222 (Springer、2022)。

Mustafa, M. アルゴリズム コンフィギュレーター全体でのアルゴリズムの選択: 多目的最適化のケース スタディ。 計算知能に関する IEEE シンポジウム シリーズ (SSCI) において。 IEEE (2022)。

Mustafa, M. クロスドメイン アルゴリズム選択: 選択ハイパーヒューリスティックにわたるアルゴリズム選択。 計算知能に関する IEEE シンポジウム シリーズ (SSCI) において。 IEEE (2022)。

Mustafa, M. 2D および 3D hp モデルでのタンパク質構造予測のための一般化された自動エネルギー関数選択。 IEEE Symposium Series on Computational Intelligence (SSCI) (2021) にて。

Mustafa, M. 2D hp モデルのタンパク質構造予測のための選択ベースのインスタンスごとのヒューリスティック生成。 計算知能に関する IEEE シンポジウム シリーズ (SSCI) において。 IEEE (2021)。

Gene, HG & Christian, R. 特異値分解と最小二乗解。 Numericsche Mathematik 14(5)、403–420 (1970)。

記事 MathSciNet Google Scholar

ブライマン、L. ランダムフォレスト。 マッハ。 学ぶ。 45(1)、5–32 (2001)。

記事 MATH Google Scholar

スターリング、T. & アーウィン、JJ 亜鉛 15 配位子の発見をすべての人に。 J.Chem. 情報モデル。 55(11)、2324–2337 (2015)。

論文 CAS PubMed PubMed Central Google Scholar

Ramanathan, N.、Sylva, LUS、Edward, DS & Acharya, KR ヒトアンジオテンシン変換酵素 - リシノプリル複合体の結晶構造。 Nature 421(6922)、551–554 (2003)。

記事 Google Scholar

ミズーリ州ノエルら。 オープンバベル: オープンな化学ツールボックス。 J.Cheminf. 3(1)、1–14 (2011)。

Google スカラー

グレッグ、L.ら。 Rdkit: ケモインフォマティクス、計算化学、予測モデリングのためのソフトウェア スイート。 グレッグ・ランドラム 2、47 (2013)。

Google スカラー

チュン・ウェイ・ヤップ。 Padel-descriptor: 分子記述子とフィンガープリントを計算するためのオープンソース ソフトウェア。 J.Comput. 化学。 32(7)、1466–1474 (2011)。

論文 PubMed Google Scholar

Sunghwan, K. 他 2021 年の Pubchem: 新しいデータ コンテンツと Web インターフェイスの改善。 核酸研究所 49(D1)、D1388–D1395 (2021)。

記事 Google Scholar

Anil、KJ、Narasimha、MM、Patrick、JF データ クラスタリング: レビュー。 ACM コンピューティング。 生き残る。 31(3)、264–323 (1999)。

記事 Google Scholar

Peter、JR Silhouettes: クラスター分析の解釈と検証をグラフィカルに支援します。 J.Comput. 応用数学。 20、53–65 (1987)。

記事 MATH Google Scholar

Khanna, V. & Ranganathan, S. ヒト代謝物、薬物、毒素間の物理化学的特性空間分布。 BMCバイオインフ。 10(15)、S10 (2009)。

記事 Google Scholar

チューダー、IO、アンドリュー、MD、サイモン、JT、ポール、DL リードと薬物の間に違いはありますか? 歴史的な視点。 J.Chem. 知らせる。 計算します。 科学。 41(5)、1308–1315 (2001)。

記事 Google Scholar

ダニエル、FV 他。 薬剤候補の経口バイオアベイラビリティに影響を与える分子特性。 J.Med. 化学。 45(12)、2615–2623 (2002)。

記事 Google Scholar

Alexandru、TB 高度に識別可能な距離ベースのトポロジー インデックス。 化学。 物理学。 レット。 89(5)、399–404 (1982)。

記事 MathSciNet Google Scholar

Roy, ​​K. 医薬品設計およびモデリング研究におけるトポロジカル記述子。 モル。 ダイバーシティ 8(4)、321–323 (2004)。

記事 ADS CAS Google Scholar

Zlatko, M. & Nenad, T. 構造と特性の関係に対するグラフ理論的アプローチ (Springer、1992)。

Google スカラー

Lowell, HH & Lemont, BK 構造特性モデリングにおける分子結合性カイ指数とカッパ形状指数。 Rev.Comput. 化学。 5、367–422 (1991)。

Google スカラー

Lemont, BK 分子グラフからの形状インデックス。 量的。 構造-アクティビティ関係。 4(3)、109–116 (1985)。

記事 Google Scholar

Bickerton, GR、Paolini, GV、Besnard, J.、Muresan, S.、Hopkins, AL 薬物の化学的美しさを定量化します。 ナット。 化学。 4(2)、90–98 (2012)。

論文 CAS PubMed PubMed Central Google Scholar

Artem, C. et al. Qsar モデリング: どこにいたの? どこに行くのですか?。 J.Med. 化学。 57(12)、4977–5010 (2014)。

記事 Google Scholar

ラファエル、G.-B. 他。 データ駆動型の分子の連続表現を使用した自動化学設計。 ACS セントラル サイエンス 4(2)、268–276 (2018)。

記事 Google Scholar

Lowell, HH、Brian, M. & Lemont, BK 電気トポロジカル状態: qsar の原子インデックス。 量的。 構造体。 アクティビティ関係。 10(1)、43–51 (1991)。

記事 Google Scholar

Lemont, BK & Lowell, HH 分子内の原子の電気トポロジー状態のインデックス。 薬局。 解像度 7(8)、801–807 (1990)。

記事 Google Scholar

de Carolina, G.、Lemont, BK & Lowell, HH 電気トポロジカル状態インデックスを使用した Qsar モデリング: コルチコステロイド。 J.Comput. モルを助けた。 デス。 12(6)、557–561 (1998)。

記事 Google Scholar

Steven, HB 分子の複雑さの最初の一般的な指標。 混雑する。 化学。 社会 103(12)、3599–3601 (1981)。

記事 Google Scholar

Steven、HB 収束、分子複雑性、および合成分析。 混雑する。 化学。 社会 104(21)、5801–5803 (1982)。

記事 Google Scholar

Gaseiger, J. & Marsili, M. 軌道電気陰性度の反復部分等化 - 原子電荷への迅速なアクセス。 テトラヘドロン 36(22)、3219–3228 (1980)。

記事 CAS Google Scholar

Sven, H.、Svante, W.、William, JD、Johann, G. & Michael, GH ハロゲン化エチル メチル エーテルの麻酔活性と毒性、PLS によってモデル化された多変量 QSAR。 量的。 構造体。 アクティビティ関係。 4(1)、1–11 (1985)。

記事 Google Scholar

Honbin, Y. & Abby, LP HIV-1 インテグラーゼ阻害の QSAR 研究。 バイオオーガニック医学。 化学。 10(12)、4169–4183 (2002)。

記事 Google Scholar

Zhou、J.ら。 グラフ ニューラル ネットワーク: 手法とアプリケーションのレビュー。 AI オープン 1、57–81 (2020)。

記事 Google Scholar

Dejun、J. et al. グラフ ニューラル ネットワークは創薬のためにより適切な分子表現を学習できるでしょうか? 記述子ベースのモデルとグラフベースのモデルの比較研究。 J.Cheminform. 13(1)、1–23 (2021)。

Google スカラー

リファレンスをダウンロードする

この研究は、デューク昆山大学学際的研究シード助成金によって支援されています。

中国昆山デューク昆山大学自然応用科学部

ティアンライ・チェン、シーウェン・シュー、フイユアン・チョウ、フロイド・A・ベックフォード、ムスタファ・ミシル

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

MM と FB がこの研究を考案し、設計しました。 データ生成はTCとHZが行いました。 MM、XS、TC、HZ はモデルと視覚化を実装しました。 著者全員が結果について議論し、最終原稿に平等に貢献しました。

フロイド・A・ベックフォードまたはムスタファ・ミシールへの通信。

著者らは競合する利害関係を宣言していません。

シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Chen、T.、Shu、X.、Zhou、H. 他。 タンパク質とリガンドのドッキングのためのアルゴリズムの選択: ACE に関する戦略と分析。 Sci Rep 13、8219 (2023)。 https://doi.org/10.1038/s41598-023-35132-5

引用をダウンロード

受信日: 2023 年 1 月 7 日

受理日: 2023 年 5 月 12 日

公開日: 2023 年 5 月 22 日

DOI: https://doi.org/10.1038/s41598-023-35132-5

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。