banner

ブログ

Nov 10, 2023

競合するリスクに関する統計モデルと機械学習: 予後モデルの開発と検証

BMC Medical Research Methodology volume 23、記事番号: 51 (2023) この記事を引用

1353 アクセス

9 オルトメトリック

メトリクスの詳細

健康研究では、いくつかの慢性疾患が競合リスク (CR) の影響を受けやすいです。 当初、統計モデル (SM) は、CR の存在下でのイベントの累積発生率を推定するために開発されました。 最近、臨床予測に機械学習 (ML) を適用することに関心が高まっているため、これらの技術は CR のモデルにも拡張されていますが、文献は限られています。 ここで、私たちの目的は、非複雑なデータ (小規模/中サンプル サイズ、低次元設定) 内の CR に対する ML と SM の潜在的な役割を調査することです。

遡及的に収集された四肢軟部肉腫 (eSTS) 患者 3,826 名と 9 つの予測因子を含むデータセットを使用して、識別とキャリブレーションの観点からモデルの予測パフォーマンスを評価します。 2 つの SM (原因別 Cox、ファイングレー) と 3 つの ML 技術が、単純な臨床設定で CR に対して比較されます。 ML モデルには、CR 用の独自の部分ロジスティック人工ニューラル ネットワーク (PLANNCR オリジナル)、アーキテクチャの面で新しい仕様を備えた PLANNCR (PLANNCR 拡張)、および CR 用のランダム サバイバル フォレスト (RSFCR) が含まれます。 臨床エンドポイントは、手術から病気の進行(対象事象)または死亡(競合事象)までの年数です。 対象となる時点は 2 年、5 年、10 年です。

元の eSTS データに基づいて、100 個のブートストラップされたトレーニング データセットが描画されます。 最終モデルのパフォーマンスは、ブライアー スコアと CR を含む曲線下面積 (AUC) を測定値として採用することにより、検証データ (除外サンプル) に基づいて評価されます。 ミスキャリブレーション(絶対精度誤差)も推定されます。 結果は、ML モデルが、ブライアー スコアと AUC の両方に関して、2 年、5 年、および 10 年で SM と同等のパフォーマンスに達することができることを示しています (95% 信頼区間が重複)。 ただし、SM はより適切に調整されることがよくあります。

全体として、ML 手法はかなりの実装時間 (データの前処理、ハイパーパラメータ調整、計算強度) を必要とするため実用的ではありませんが、回帰手法はモデル トレーニングの追加の作業負荷なしで適切に実行できます。 したがって、複雑ではない実生活の生存データの場合、これらの手法はモデルのパフォーマンスの探索ツールとして SM を補完的にのみ適用する必要があります。 モデルのキャリブレーションに対するさらなる注意が緊急に必要です。

査読レポート

生存分析 (イベント発生までの時間分析とも呼ばれます) は、研究対象の特定の集団の寿命を推定するために使用されます。 多くの場合、生存データは正しく検閲されます。 関心のあるイベントを経験する前のフォローアップの中断または時間制限(研究の終了)により、イベントまでの時間はすべての患者で観察されるわけではありません。 生存データの臨床応用では、競合リスク (CR) が頻繁に発生します [1、2、3、4]。 このタイプのデータでは、個人はいくつかの原因のうちの 1 つで失敗する可能性があります。 CR は、その発生により対象となるイベントの発生が妨げられるイベントです (たとえば、死亡により病気の再発の発生が妨げられる可能性があります) [5、6]。 健康研究では、生物学的にイベント間に少なくともある程度の依存性があることが示唆されているため、CR が独立している可能性は低いです。 がん、慢性心不全、認知症など、加齢や虚弱に起因するいくつかの慢性疾患では、研究集団は CR にかかりやすいです [7]。

正しく打ち切られた事象発生までの時間データの存在下で生存率を推定するための最も一般的なノンパラメトリック アプローチは、カプラン マイヤー法 (KM) [8] です。 ただし、CR が存在する場合、この方法では失敗の確率が過大評価され、患者の過剰治療につながる可能性があります [1、5、9]。 原因別 Cox モデル [10] やファイングレー部分分布ハザード回帰モデル [ 11]。 前者は、CR 設定用の標準比例ハザード Cox モデルの自然な拡張であり、原因別のハザードごとに Cox モデルが適用されます。 後者は、部分分布ハザード比を報告する経時的な累積発生率関数 (CIF) に対する共変量の影響を直接モデル化します [9]。

現在、臨床転帰の予測 (診断または予後) に機械学習 (ML) を適用することへの関心が高まっており [12、13]、医療分野における ML 技術と SM の付加価値に関する議論を引き起こしています。 批判は ML 予測モデルに起因します。 データ構造についての仮定は行われておらず、予測特徴間の相互作用を自然に組み込むことができるにもかかわらず、トレーニング データの過学習が発生する傾向があり、予測精度の広範な評価が欠如しています (つまり、検量線がない) [14, 15] ]。 一方、従来の回帰手法は使用が簡単で、オーバーフィットが難しいと考えられています。 そうは言っても、コックスモデルの時間の経過に伴う比例ハザードなどの特定の(通常は強力な)仮定を立てており、交互作用項を手動で事前に指定する必要があります。

ML 技術の中でも、医療分野では人工ニューラル ネットワークが一般的に選択されています。 この傾向は、電子医療記録における大規模かつ複雑な患者情報の収集と計算能力の向上に関連しています [16]。 長年にわたり、ニューラル ネットワークやその他の ML 技術が生存データ用に開発されてきました。 王ら。 2019年には、右打ち切りされたイベント発生までの時間データに対する従来型および最新のアプローチの包括的な調査を提供しています[17]。 著者らは、いくつかの ML 手法について説明し、ニューラル ネットワークが生存予測と疾患リスクの推定に適していることを示唆しています。

A common approach in the literature is the partial logistic artificial neural network (PLANN) of Biganzoli et al. (1998) [3.0.CO;2-D ." href="/articles/10.1186/s12874-023-01866-z#ref-CR18" id="ref-link-section-d54317150e784"> 18]。 実装の目的では、時間は、ロジスティック活性化およびエントロピー誤差関数を備えた縦方向に変換されたフィードフォワード ネットワークの入力特徴として追加される、重複しない離散的な時間間隔で指定されます。 出力層は、時間間隔ごとに平滑化された離散ハザードを推定します。 PLANN は Lisboa らによって拡張されました。 (2003) 自動関連性判定 (PLANN-ARD) を実行するベイジアン正則化フレームワークの下で。 最近、カンティダキスら。 2020年に、アーキテクチャの観点からPLANNの拡張、つまり新しいハイパーパラメータ、新しい活性化関数、および複数の入力機能としての時間間隔仕様を提案しました[20]。 生存ニューラル ネットワーク (SNN) に次いで、生存データの臨床予測のためのもう 1 つのよく知られた ML 手法は、ランダム生存フォレストです (RSF、Ishwaran et al. 2008) [21]。 RSF は、生存ツリーのコレクションを使用して、Breiman のランダム フォレスト手法を適応させています [22]。

ML アプローチは CR にも使用されていますが、文献は限られています。 PLANNCR アプローチは、Biganzoli らによって開発されました。 2006 年には、離散的な原因固有の危険性の共同モデリングについて研究されました [23]。 これは、隠れ層と出力層 (複数の出力ノード) にそれぞれ多項誤差関数とロジスティック - ソフトマックス活性化関数を備えた縦方向に変換されたネットワークの入力特徴として時間 (離散時間間隔) を使用することにより、PLANN を拡張します。 その後、リスボアら。 (2009) ベイズ正則化フレームワーク (PLANNCR-ARD) に基づいて PLANNCR を実装しました [24]。 イシュワランら。 2014 年に競合イベントの CIF を推定するために CR 用 RSF (RSFCR) を拡張しました [25]。

この作業では、小規模/中規模のサンプル サイズと限られた数の予測特徴 (低次元設定) を持つデータセットが分析されます。 これは、治癒目的で外科的に治療された高度四肢軟部肉腫(eSTS)患者3,826人の遡及的に収集されたコホートに関するものである。 9 つの予後因子を使用して、ML 技術と SM の CR を備えたいくつかの臨床予測モデルを開発および検証します。 研究の臨床エンドポイントは、死亡が競合するイベントである eSTS の手術と疾患進行 (局所再発または遠隔転移、対象イベント) の間の年数として定義されます。 対象となる時点は 2 年、5 年、および 10 年です (臨床的には 5 年間が重要です)。 分析は R プログラミング言語バージョン 4.1.2 [26] で実行されました。

この原稿の目的は次のように要約できます: (i) 競合する事象を伴う予後臨床予測モデルの開発と検証のための PLANNCR 法の拡張 (拡張 PLANNCR) の検討、(ii) ML 技術のモデル予測パフォーマンスの体系的な評価識別とキャリブレーションに関する (PLANNCR オリジナル、PLANNCR 拡張、RSFCR) および SM (原因固有の Cox、Fine-Gray)、(iii) 非複雑な eSTS データにおける CR の従来の回帰手法と対比した ML の潜在的な役割の調査(小規模/中規模のサンプルサイズ、低次元設定)、(iv) 予測方法の実用性。

論文は以下のように構成されている。 「方法」セクションでは、eSTS データが示されます。 以降のセクションでは、CR の基本概念、SM および ML 手法、モデルのトレーニング、予測パフォーマンスの評価方法について説明します。 「結果」セクションでは、2 つの測定値を使用して調整された PLANNCR 拡張について説明し、識別とキャリブレーションの観点からすべての方法の予測パフォーマンスを比較します。 原稿は、この研究の発見、限界、将来の展望についての「考察」で終わります。

このセクションはいくつかのサブセクションに分かれており、この作業に使用される方法論が読者に提示されます。 まず臨床データについて説明する。 次に、SM 技術と ML 技術について説明します。 CR には、原因固有の Cox モデル [10] とファイングレー部分分布ハザード回帰モデル [11] という 2 つのよく知られた統計モデルが採用されています。また、CR 向けの一般的な ML 手法の 2 つの拡張である RSFCR も採用されています。 [25]、および PLANNCR [23] は当初開発されたもの、またはいくつかの修正が加えられたものです。 その後、モデルがどのようにトレーニングされたか、および予測能力を評価するためにどのようなパフォーマンス測定が使用されたかが示されます。 技術的な詳細については、補足資料に記載されています。

四肢軟部肉腫 (eSTS) は、あらゆる年齢層の患者に影響を与える、さまざまなサイズと悪性度を持つさまざまな組織学的サブタイプを構成します。 治療プロトコルは施設や国によって異なる場合があります。 したがって、患者の臨床経過と予後において重要な違いが観察される可能性がある[27]。 長年にわたり、全生存期間と局所再発に関していくつかの予後予測モデルが開発されてきました[28、29、30]。

このプロジェクトでは、遡及的に収集された 3,826 人の eSTS 患者コホートが使用されました [29]。 データセットには、ライデン大学医療センター (オランダ、ライデン)、王立整形外科病院 (英国、バーミンガムおよびスタンモア)、オランダがん研究所 (オランダ、アムステルダム)、マウント サイナイ病院 (カナダ、トロント) の擬似匿名化された患者が含まれていました。ノルウェー ラジウム病院 (ノルウェー、オスロ)、オーフス大学病院 (デンマーク、オーフス)、スコーネ大学病院 (スウェーデン、ルンド)、グラーツ医科大学 (オーストリア、グラーツ)、ロイヤル マースデン病院 (英国、ロンドン)、ダニエル デン ホード (ロッテルダム) 、オランダ)、ラドボウド大学医療センター(ナイメーヘン、オランダ)、フローニンゲン大学医療センター(フローニンゲン、オランダ)、ハウケランド大学病院(ベルゲン、ノルウェー)、ヘリオス クリニクム ベルリン ブッフ(ドイツ、ベルリン)、MedUni Vienna(ウィーン、オーストリア)、ウィーン総合病院(ウィーン、オーストリア)。 さらに、EORTC 62931 ランダム化対照試験からの eSTS 患者も含まれていました [31]。 センターからのデータは、2000 年 1 月から 2014 年 12 月の間に収集されました。EORTC 試験の患者は、1995 年 2 月から 2003 年 12 月の間に募集されました。

患者は、組織学的診断に基づいて各病院の肉腫登録から選択されました。 最初に治癒目的なく治療を受けた患者、ベースラインで局所再発または遠隔転移を示した患者、カポジ肉腫または横紋筋肉腫(小児型)を患っていた患者、腹部、胸部、頭頸部に腫瘍が存在した患者、または術前補助療法として単独で跛行灌流を行った患者。コレクションから除外されます。

データセットには 9 つの予後因子が含まれていました。 7 つは断定的なものでした。 性別(女性または男性)、切除断端(陰性の場合は \(R_{0}\)、切除断端のインク表面に腫瘍細胞があり陽性の場合は \(R_{1-2}\))、補助化学療法(なし)またははい)、腫瘍グレード(II または III)、埋没筋膜に関連した腫瘍の深さ(表面または深部)、放射線療法(いいえ、ネオアジュバントまたはアジュバント)、組織学的サブタイプ(粘液線維肉腫、滑膜肉腫、悪性線維性組織球腫 / 未分化多形肉腫 / (多形性)特に特定されていない軟部組織肉腫、平滑筋肉腫、脂肪肉腫、またはその他)。 2 つは継続的でした。 ベースライン時の年齢(年)および病理学的検査で測定された最大直径による腫瘍サイズ(センチメートル)。

逆カプランマイヤー法により推定された追跡生存期間の中央値は5.98年です(25%四分位:3.94年、75%四分位:8.80年、範囲:0.01~16.85年)[8]。 対象となるエンドポイントは、競合イベントとして死亡を伴う、手術と eSTS の疾患進行 (局所再発または遠隔転移) の間の年数として定義されます。 追跡終了時に生存/検閲された患者は1,773名(46.34%)、疾患進行が認められたのは1,554名(40.62%)、局所再発/遠隔転移なく死亡した患者は499名(13.04%)であった。

データセットには、9 つ​​の変数全体で 3.70% の欠損データが含まれており、完全なケースは 2514 件 (65.71%) でした。 より具体的には、すべての変数に欠損値 (0.97 ~ 11%) がありました。 腫瘍深さについて 11.00% (421/3826)、組織学的サブタイプについて 8.21% (314/3826)、外科断端について 7.40% (283/3826)、補助化学療法について 4.36% (167/3826)、腫瘍サイズについて 4.05% (降順で、性別 3.53% (135/3826)、放射線療法 2.61% (100/3826)、腫瘍悪性度 1.99% (76/3826)、年齢 0.97% (37/3826) 、 それぞれ。

ほぼ完全な記録からの観察値が破棄されることを避けるために、単純な代入が使用されました。 missForest アルゴリズムは、欠損値を再構築するために適用されました。これは、欠損データに対する最も網羅的で正確なランダム フォレスト アルゴリズムです [32]。 これは、データ構造に関する事前の仮定を行わないノンパラメトリック代入手法です。 1000 個のツリー (モデルの安定性のため) を持つランダム フォレストが、情報が欠落している変数ごとに構築され、考えられるすべての変数の組み合わせを応答としてテストしました。 表 1 は、最終的なデータセットの患者人口統計を示しています (元のデータセットの人口統計は、追加ファイル 1 の表 S1 に示されています)。

通常、生存データの場合、数種類のイベントが発生した場合、各 CR の進行を説明するモデルが必要になります。 観察可能なデータは、障害時間 T、障害原因 D (\(D \in 1, \cdots , k\), \(k \ge 1\); ここでは k = 2)、および共変量によって表されます。ベクトル \(\mathbf {Z}\)。 通常、関心のあるイベントは 1 種類 (つまり、局所再発または遠隔転移としての疾患の進行) ですが、他のイベントによってその発生が妨げられる可能性があります (ここでは、競合するイベントは死亡です)。

パターらに続く。 (2007) [1] によると、CR をモデル化する際の基本的な概念は、CR が存在する場合に特定の原因による故障の危険性を示す原因固有のハザード関数です。

次に、累積原因別ハザードは次のように指定できます。

そして生存関数 (時間 t において何らかの原因で故障していない確率) は次のように書くことができます。

原因 k の累積発生率関数 (CIF) は \(I_{k}(t) = Prob(T \le t, D = k)\) として定義され、時刻 t より前に原因 k から失敗する確率です。 これは、次の式を通じて原因固有の危険に関連付けることができます。

これは、原因 k から故障する累積確率が 1 に到達できないという事実に基づいて、部分分布関数とも呼ばれ、したがって、適切な確率分布ではありません。

原因固有のハザードに関する回帰は、CR に対する一般的な Cox 比例ハザード モデルの拡張です [10、33]。 共変量ベクトル \(\mathbf {Z}\) を持つ被験者の原因 k の原因固有のハザードは次のようにモデル化されます。

ここで、 \(\lambda _{k, 0}(t)\) は原因固有のハザードであり、ベクトル \(\varvec{\beta }_{k}\) は原因 k に対する共変量の影響を表します。 k 以外の別の州に移動した患者は、移行時に検閲されます。

1999 年に、Fine と Gray は、CIF に直接回帰できる部分分布ハザード モデルを導入しました [11]。

原因固有の Cox モデルの場合、リスクセット (リスクのある患者の数) は、別の原因の失敗が存在する各時点で減少します。 一方、ファインとグレイのモデルでは、別の原因で失敗した個人がリスクセットに残ります。 次に、部分分布ハザードは比例ハザードを仮定してモデル化されます。

標準の Cox モデルと同様に、部分尤度アプローチを使用してパラメーターを推定します。

競合リスクに対するランダム生存フォレスト (RSFCR) [25] は、Ishwaran らによって提案された右打ち切りデータを備えた CR 用の RSF フレームワーク [21、22] の拡張です。 これは、競合するイベントの CIF を推定するための完全なノンパラメトリック アンサンブル ツリー アプローチです (CIF と原因固有のハザード関数は式 (4) に示すように関連しています)。 RSFCR は、基礎となるデータについて事前の仮定を行うことなく、非線形効果と相互作用を直接モデル化して、正確な予測を実行できます。

RSFCR のアルゴリズムは、再帰的バイナリ分割に基づいており、(a) 学習データから B 個のブートストラップ サンプルを抽出する、および (b) 候補変数のサブセットをランダムに選択することにより、ブートストラップ サンプルごとに単一の CR ツリーを成長させるという 2 つの方法でランダム性を注入します。各ノード (ツリーの領域) で。 CR 分割ルールは最大化され、選択した変数を使用して各親ノードを子ノードに分割します。 著者らは、イベント固有の分割ルール、または k 個のイベントにわたるイベント固有の分割ルールの組み合わせの 2 つの分割ルールを提案しています。 ここでは、疾患の進行が大きな関心事であるため、イベント固有の分割ルールが適用されました (加重ログランク分割、技術的な詳細は [25] を参照)。 次に、ターミナル ノード (各ツリーの端) が少なくとも 1 つの一意のケースを持つ必要があるという制約の下で、各ツリーがフル サイズまで成長します。 ターミナルノードでは、Kaplan-Meier [8] と Aalen-Johansen [34] の方法論を使用して、それぞれ無イベント生存関数と原因固有の CIF を推定します。 最後に、アンサンブル推定値は、B 個の成長したツリーに対する各推定量を平均して計算されます。 技術的な詳細については、追加ファイル 2 に記載されています。

In 2006, Biganzoli et al. extended the partial logistic artificial neural network to competing risks (PLANNCR) for the joint modelling of discrete cause-specific hazards [3.0.CO;2-D ." href="/articles/10.1186/s12874-023-01866-z#ref-CR18" id="ref-link-section-d54317150e2646"> 18、23]。 PLANNCR は、各層のノード (またはニューロン) と呼ばれるユニットのグループで構成されるフィードフォワード ネットワークです。 これには、信号を取得し、アクティベーション (変換とも呼ばれる) 関数の適用後に信号を単一の隠れ層に渡す入力層があります。 活性化関数は、入力フィーチャから隠れ層に伝達される非線形性の程度を調整します。 異なる層の人工ニューロン間の接続はエッジと呼ばれ、それぞれに重みがあります。 重みは、各接続の強度を増減するトレーニングを通じて調整されます [35]。 信号は出力層に向けて送信され、別の活性化関数を使用して離散条件付きイベント確率 (複数の出力ノード、それぞれがイベントごと) の平滑化された推定を提供します。

実装の目的のため、生存時間は一連の \(l = 1, \cdots , L\) の互いに素な間隔 \(A_{l} = (\tau _{l-1}, \tau _{l) に離散化されます。 }]\)、\(0=\tau _{0}<\tau _{1}<\cdots <\tau _{L}\) は、事前に定義された一連の時点 (通常は年) です。 \(l^{th}\) 間隔では、観測時刻は単一点 \(\tau _{l}\) にグループ化されます。データは、時間変数 (間隔) が追加される縦断形式に変換する必要があります予後特徴の隣にある入力特徴の一部として、被験者はトレーニング データで観察された間隔の数だけ、およびテスト データではすべての時間間隔で繰り返されます。PLANNCR は、非線形、非比例、および非線形をモデル化できます。原因特有の危険に対する予後因子間の相加効果. ここで, 一般性を失うことなく, 各被験者は手術後の年数を示す1から11までの時間間隔で繰り返された. 最後の間隔には10年を超える生存期間が含まれていた(その後の間隔は興味はありません)。

CR モデルでは、応答ベクトルには \(R + 1\) 変数があり、\(r = 1, \cdots ,R\) が対象となる可能性のある原因 (ここでは \(R = 2\)) です。 \(\mathbf {z}_{k} = (\tau _{l}, \mathbf {x}_{k}\)) を 2 つの成分、共変量ベクトル \(\mathbf {x}_) で定義するとします。 {k}\) (\(k = 1, 2, \cdots , p\)) と時間間隔 \(\tau _{l}\)。 個別の原因固有のハザードの共同依存性は次のようにモデル化されます。

ここで、 \(h = 1, \cdots , H\) は隠れ層のノード、 \(\varvec{\beta }\) は入力隠れ層 (\(\beta _{01}, \) の推定重みのベクトルです。 cdots , \beta _{0H}, \beta _{1}, \cdots , \beta _{H}\))、非表示出力層 (\(\beta _{0}, \beta _{1}^) {a}、\cdots 、\beta _{R}^{a}\))、および \(\alpha _{h}\) 隠れ層のシグモイド (ロジスティック) 活性化関数 \(\alpha _{h }(\mathbf {z}_{k}, \varvec{\beta }_{h}) = \frac{\exp (\beta _{0h} + \beta _{h}^T \mathbf {z} _{k})}{1 + \exp (\beta _{0h} + \beta _{h}^T\mathbf {z}_{k})}\)。

出力層の活性化関数は、離散的な原因固有のハザードを提供するソフトマックスです。

\(l = 1, \cdots , L\) 区間と \(r = 1, \cdots ,R\) の原因について。 PLANNCR には CR ごとに異なる出力ノード (合計 1 + R 出力ノード) があるため、多項尤度に基づく多重分類のための標準ニューラル ネットワークの拡張です。 この文書の残りの部分では、これを PLANNCR オリジナル [23] と呼びます。

PLANNCR の仕様に対する同様の拡張が、Kantidakis et al. で提供されています。 (計画拡張、2020 年) [20]。 より具体的には、拡張 PLANNCR は、隠れ層の 2 つの新しい活性化関数を調査するように調整されています: (1) 修正線形単位 (ReLU) 共通の活性化関数 \(\alpha _{h}(\mathbf {z}_{k} , \varvec{\beta }_{h}) = \max (0, \beta _{0h} + \beta _{h}^T \mathbf {z}_{k})\)、または (2)双曲線正接 (tanh)、\(\alpha _{h}(\mathbf {z}_{k}, \varvec{\beta }_{h}) = \frac{1 - \exp (-2(\ beta _{0h} + \beta _{h}^T \mathbf {z}_{k}))}{1 + \exp (-2(\beta _{0h} + \beta _{h}^T \mathbf {z}_{k}))}\)。 ニューラル ネットワークには毎回、隠れ層のこれらの活性化関数のいずれか、またはシグモイド (ロジスティック) 活性化関数 (PLANNCR オリジナルと同様) が適用されます。 出力層の活性化関数は、平滑化された離散ハザード推定を提供するために必ずソフトマックスであることに注意してください。 新しいハイパーパラメータは、最先端の R ライブラリ [36] で指定されています。 Kantidakis らとは対照的に。 (2020) では、入力フィーチャの数が増大しないように、L 個の重複しない間隔が (L 個の個別の変数ではなく) 1 回の変数で指定されます。 さらに、2 つの隠れ層を持つネットワークは、過剰適合の危険性 (小規模から中程度のサンプル サイズ、少数の予測子) のため、ここではテストされません。 オリジナルの PLANNCR と拡張された PLANNCR の技術的な詳細については、追加ファイル 2 に記載されています。

図 1 は、モデルのトレーニングがどのように実行されたかを示しています。 元の eSTS データに基づいて、それぞれ 3,826 人の患者からなる 100 個のブートストラップ トレーニング データセットが抽出されました (置換によるサンプリング、元のデータの \(\おおよそ\) 63.2%)。 これらのデータセットは、グリッド検索を使用して ML モデルのハイパーパラメータを調整するために、ランダムに 2 つの相補的な部分に分割されました (\(\frac{3}{4}\) でモデルをトレーニングし、\(\frac{1}{4}\)パフォーマンスをテストするには、すべてのメソッドで同じ部品を使用します)。 最終モデルのパフォーマンスは、取り残されたサンプル (袋外、データの \(\およそ\) 36.8%) である検証データに基づいて評価されました。 Out-of-bag エラー推定値は、N 分割交差検証とほぼ同じです [37]。 標準的な回帰アプローチでは、9 つ​​の共変量を使用して、完全なトレーニング データセット (3826 人の患者で構成) ごとにモデルが構築されました。 それらの予測パフォーマンスは、それぞれの検証データセットで評価されました。 複雑な関数形式の依存関係 (非線形、非加算、時間依存の効果) は調査されませんでした。 すべての分析は R プログラミング言語バージョン 4.1.2 [26] で実行されました。 実装に使用されるパッケージと ML 技術の調整パラメーターは、追加ファイル 2 で提供されます。

100 回繰り返されたモデル トレーニング アプローチの図。 ML 手法の場合、ハイパーパラメーターはトレーニング データセットに合わせて調整されました。 すべてのモデルの最終パフォーマンスは検証データセット (除外されたサンプル) で評価されました。

メソッドの予測パフォーマンスは、各検証データセットの識別とキャリブレーションの観点から評価されました。 曲線下面積 (AUC) および CR を含む Brier スコアが使用されました。 校正ミス(絶対精度誤差)も推定されました。 これらの評価尺度は、モデルに依存しないため採用されました。つまり、予測パフォーマンスを評価するために任意のモデルに適用できます。 赤池情報量基準 (AIC) やベイズ情報量基準 (BIC) などの他の尺度は、ここで適用されるさまざまな SM および ML 手法の比較のために (簡単に) 計算できないため、選択されませんでした。

Blancheらに続いて。 [38] では、CR を使用した動的バージョンのメジャーを提示します ([39] も参照)。 \(\pi _{i}(\cdot ,\cdot )\) を、すべてのランドマークに対する被験者 i 固有の予測プロセス (\(i = 1, 2, \cdots , n\) の独立した同一分布の被験者) とします。時間 s (予測が行われた時間) と予測期間 t。 一般性を失わずに、時刻 s で危険にさらされていないすべての被験者 i に対して \(\pi _{i} (s, t) = 0\) を設定し、イベント \(D = 1\) の予測に焦点を当てます。 )(メインイベントは調査済み)。 予測期間 t のランドマーク時間 s における動的 AUC は、次のように定義できます。

ここで \(\Delta _{i} (s, t)\) = \(\mathbbm {1}_{s

CR を含む動的 AUC は識別の尺度です。 通常は 0.5 ~ 1 の範囲になります (値が大きいほど良い)。 良好な予測精度は、通常、対象事象を経験していない被験者と比較して、対象事象を経験した被験者の事象の予測リスクがより高いモデルによって提供されます。

CR を使用したより完全な予測精度の尺度は Brier スコアです。 動的に予想されるブリエ スコアは次のように記述できます。

This expression can be expanded based on Graaf et al. 1999 [3.0.CO;2-5 ." href="/articles/10.1186/s12874-023-01866-z#ref-CR41" id="ref-link-section-d54317150e5094">41] 次の形式をとる

ここで \(H(s) = \{ \mathbf {X}, Y(s), T>s \}\) \(\pi (s, t)\) の予測を計算するために使用される時刻 s の情報。 (12) の最初の項は、キャリブレーションを測定します。予測が \(\mathbb{E} [\Delta (s, t) | H(s)]\)、つまり \ のイベントの「真の」潜在リスクにどれだけ近いかを測定します。 ((s, s+t]\) が与えられた H(s)。さらに、第 2 項は H(s) の識別能力に依存します。したがって、ブライアー スコアは校正と識別の両方の尺度です。通常、その範囲は次のとおりです。 0 ~ 0.25 (値が低いほど予測誤差が小さいことを意味します)。

打ち切りデータが存在する場合、区間 \((s, s+t]\) 内で打ち切られたすべての被験者について指標 \(\Delta _{i}(s, t)\) は不明です (計算できません)。 , CR の動的な AUC と Brier スコアの両方の推定には、打ち切り重み付けの逆確率 (IPCW) 手法を適用する必要があります。詳細については、[38] を参照してください。ここでは、ランドマーク時間は \(s = 0\) に設定されました。すべての予後因子は時間固定であるため、すべての分析で(ベースライン)。

最後に、各検証データセットの誤校正に基づいて、メソッドの予測能力が評価されました (図 1 を参照)。 モデルのキャリブレーションとは、観察された結果と予測された結果の間の一致を指します。この場合、原因 \(D = k\) の時刻 \(t = t_{0}\) における観察された結果と予測された累積発生事象確率の間の一致を指します [42, 43] ]。 SM モデルと ML モデルごとに、予測された累積発生イベント確率が検証データセットで推定され、データは予測されたイベント確率の分位数に基づいて同じサイズの \(m = 4\) グループに分割されます。 計算上の問題を回避するために、(たとえば) 十分位数の代わりに分位数が選択されました。 次に、観測された累積発生確率がグループごとに計算されます。 ミスキャリブレーションは、時間軸 \(t = t_{0}\) における特定の原因 \(D = k\) による故障の累積確率の観測値と予測値の差の平均二乗誤差 (MSE) として定義されます。

\(I_{k}^{(m)}(t_{0})\) と \(\hat{I_{k}}^{(m)}(t_{0})\) の観測値と予測値それぞれグループ m の累積事象確率。

このセクションでは、eSTS データの結果が表示されます。 次のモデルは、予測パフォーマンスの観点から比較されます: (1) 原因固有の Cox、(2) Fine-Gray、(3) オリジナルの PLANNCR、(4) 拡張された PLANNCR、(5) RSFCR。 各モデルは 100 個の検証データセットで評価されます (図 1 を参照)。 メソッド間の比較に関する詳細な結果は、追加ファイル 3 に記載されています。

PLANNCR オリジナルおよび PLANNCR 拡張用に選択されたハイパーパラメータは、追加ファイル 3 のセクション 1 に提供されています。最も効果的な組み合わせは、5 年間の Brier スコア / AUC に基づいて個別に報告されます (5 年間の期間が主な臨床的関心事でした)。

PLANN オリジナルでは、両方のパフォーマンス測定で 2 つのハイパーパラメータ (サイズと減衰) に同じ値が選択されました。 一方、5 次元空間に拡張された PLANNCR では、別のハイパーパラメーター (ノードサイズ、ドロップアウト率、学習率、運動量、弱いクラスの重み) が選択されました。 技術的な詳細は追加ファイル 2 にあります。隠れ層 (「sigmoid」、「relu」、「tanh」) に対してテストされた 3 つの活性化関数のうち、「sigmoid」は両方の Brier のトレーニング データで最高のパフォーマンスを提供しました。スコアとAUC。 弱いクラスの重み付け 1 が選択されました (病気の進行または死亡に対する調整はありません)。

調整された PLANNCR 拡張のパフォーマンスが、疾患の進行 (対象となるイベント) に関して比較されました。 結果を表 2 に示します。5 年時点でのブライアー スコアを使用して調整された PLANNCR 拡張は、2 年、5 年、または 10 年でのブライアー スコアおよび誤校正の点でより優れたパフォーマンスを示しました。 ただし、5 年で AUC を使用して調整された PLANNCR 拡張は、5 年と 10 年の AUC に関してより優れたパフォーマンスを示しました。 Brier スコアは識別とキャリブレーションの両方を考慮したより完全な尺度であるため、これらの結果は予想されました。 以下に示す残りの結果については、5 年時点の Brier スコアに最適な組み合わせが PLANNCR 拡張用に選択されました。

このセクションでは、さまざまな予測パフォーマンス尺度について 100 個の検証データセットで 5 つの方法を比較します: (1) Brier スコア、(ii) AUC、(iii) 疾患進行の 2 年、5 年、および 10 年後の誤校正 (局所再発または遠隔転移)。 対象のイベント (病気の進行) と競合するイベント (死亡) の最適なハイパーパラメーターと追加のプロットは、追加ファイル 3 のセクション 1 と 2 に含まれています。

図 2 は、疾患の進行に関するすべての方法について、手術後 2 年、5 年、および 10 年後の Brier スコア (値が低いほど優れている) と AUC (値が高いほど優れている) を示しています。

原因固有の Cox モデル、ファイン グレイ モデル、PLANNCR オリジナル、PLANNCR 拡張 (5 年で Brier スコアで調整され、隠れ層の「シグモイド」活性化関数を含む)、および関心のあるイベントに対する RSFCR の予測パフォーマンス: 疾患100 個の検証データセットに基づく進行 ± 95% パーセンタイル信頼区間。 左パネル: Brier スコア、右パネル: 手術後 2 年、5 年、および 10 年後の AUC

時間依存のブライアー スコアでは、原因別 Cox モデルが一般に最高のパフォーマンスを示し、2 年目ではファイン グレー モデルと RSFCR、5 年と 10 年目では PLANNCR 拡張モデルとファイン グレーが続きました。 PLANNCR オリジナルは、これらの時点でのパフォーマンスが若干最悪でした。 out-of-bag データを使用した 100 個の検証データセットのパーセンタイル法に基づく 95% 信頼区間 (CI) が重複しました。 拡張された PLANNCR は 2 年で、RSFCR は 10 年でわずかに大きい 95% CI でした。 2 年、5 年、および 10 年後の AUC に関しては、原因固有の Cox モデルと拡張 PLANNCR が最高のパフォーマンスを示し (互いに非常に近い)、次にファイン グレー モデル、RSFCR、および PLANNCR オリジナルがパフォーマンスの降順で続きました。 95% 信頼区間は、PLANNCR オリジナルの区間を除いて、どの方法でも非常に類似していました。PLANNCR の区間は常に幅が広​​かったです。 これは、その識別能力 (AUC) が検証データセット内で一貫していない (変動している) ことを意味します。

追加ファイル 3 の図 S1 は、5 年の AUC で調整された PLANNCR 拡張を使用した同じプロットを示しています。 予測能力は、ブライアースコアに関しては減少しましたが、5 年および 10 年の AUC に関してはわずかに増加しました (表 2 も参照)。 追加ファイル 3 の図 S3 および S5 は、死亡 (競合イベント) に関するすべてのモデルの予後能力 (Brier スコア、AUC) を示しています。 SM(原因特異的コックスおよびファイングレイ)のブライアースコアが最も低く、次に RSFCR が続きました。 PLANNCR モデルは、2 年時点で他のモデルよりもパフォーマンスが悪く、CI が大きくなっていました。 オリジナルの PLANNCR では引き続き 5 年と 10 年の CI が大きくなりましたが、拡張された PLANNCR では 5 年と 10 年の CI が狭くなりました (より安定したパフォーマンス)。 AUC では、原因固有の Cox モデルと拡張 PLANNCR が最も高い値を示し、次に Fine-Gray モデルと RSFCR が続きました。 PLANNCR オリジナルの最低パフォーマンスと最大の 95% CI。

5 つのモデルは、2 年、5 年、および 10 年後の誤校正 (「予測性能評価」セクションの定義) に関して調査されました。 結果を箱ひげ図で図 3 に示します。 SM (原因特異的 Cox モデル、ファイングレー) は、疾患進行 (原因 1) について 2 年間の誤校正誤差が最も低かった。 SM とその後の PLANNCR の元の校正ミスは 5 年で最も低くなりました (SM と PLANNCR は 10 年で延長されました)。 拡張された PLANNCR では、2 年で誤校正誤差が最も高く、5 年で 2 番目に高く、10 年で最も低くなりました (この時点での原因固有の Cox モデルの次に)。 RSFCR は、対象事象の累積発生率について 5 年と 10 年で最悪の校正を行いました。

原因固有の Cox モデル、ファイングレイ モデル、PLANNCR オリジナル、PLANNCR 拡張 (5 年時点でブライアー スコアで調整)、および対象事象の 2 年、5 年、および 10 年後の RSFCR の校正ミス: 100 件の検証に基づく疾患の進行データセット。 ミスキャリブレーションは、観測された累積発生事象確率と予測された累積発生事象確率の間の平均二乗誤差 (MSE) として計算されました (4 つのグループの場合)

5 年間の AUC で調整された PLANNCR 拡張の誤校正プロットは、追加ファイル 3 (図 S2) で入手できます。 拡張された PLANNCR は、図 3 と比較してあまり適切に校正されていません。補足図ではモデルが識別のみ (5 年の AUC) に対して調整されていたのに対し、図 3 では識別と校正の両方を考慮して調整されていたため、この結果は予想されました。 (5 歳時のブライアスコア)。 図 S4 と S6 は、競合するイベント (死亡) に対する 5 つの方法すべての誤った校正誤差を示しています。 原因固有の Cox モデルとファイングレー モデルの誤校正誤差が最も低かった。 RSFCR は、2 年目と 5 年目の死亡に関して同様の誤校正誤差を示し、10 年目ではわずかに悪い誤差を示しています。 2 つのニューラル ネットワークには、どの時点でも最も高い誤校正誤差がありました (他の 3 つのモデルとは異なります)。 競合するイベントに対する PLANNCR のより高い誤調整の暫定的な説明は、(特定の時点での) 予測死亡確率のより厳密な正規化によって生じ、その結果、そこでの予測の広がりが小さくなるということです。 キャリブレーションを改善する解決策は、競合するイベントに合わせて PLANNCR のパフォーマンス (例: 5 年での Brier スコア) を調整することです。 ただし、ここでは疾患の進行が大きな関心事であるため、PLANNCR のオリジナルと拡張は両方とも疾患の進行に合わせて調整されました。

私たちの知る限り、これは軟部肉腫の CR に対する SM 技術と ML 技術を比較した最初の研究です。 遡及的に収集された合計 3,826 人の患者が、9 つの予後因子 (小/中サンプルサイズ、低次元設定) に基づいて高悪性度 eSTS で分析されました。 SM (原因固有の Cox、ファイングレー) と RSFCR はイベントに正確な時間を使用しましたが、ニューラル ネットワーク (オリジナルの PLANNCR、拡張された PLANNCR) では、正確な時点が L 個の個別の時間に変換される長い形式へのデータの準備が必要でした。間隔(年)。 5 つの方法は、手術日以降の病気の進行 (対象となる事象) と死亡 (競合する事象) の累積発生率を予測しました。

その結果、ML モデルは、2 年、5 年、および 10 年後の疾患進行および死亡における Brier スコアおよび AUC の点で SM と同様のパフォーマンスを示すことが示されました (95% 信頼区間が重なっています)。 通常、拡張された PLANNCR の予測能力は、特に AUC に関しては RSFCR およびオリジナルの PLANNCR よりも優れていました。 これは、拡張された PLANNCR には、患者の低リスク群と高リスク群をより適切に識別する機能があったことを意味します。 それにもかかわらず、SM は 3 つの ML 手法よりも適切に校正されることがよくありました。 PLANNCR のオリジナルと拡張の誤った調整は、競合するイベントではより顕著でした。 これらの発見は、同様の単純な設定(患者 250 人または 1000 人、5 つの予後因子)における骨肉腫データの SNN(PLANN オリジナルおよび拡張)の予測パフォーマンスと Cox モデルを比較した私たちのグループのシミュレーション研究と一致しています [44]。 したがって、ML 手法では、モデルのキャリブレーション (絶対的な予測精度) にさらに注意を払うことが緊急に必要です。

この作業では、ML モデルをトレーニングするために、eSTS データから 100 回の置換 (ブートストラップ) を伴うサンプリングを行いました。 次に、除外されたサンプルを使用してすべてのモデルのパフォーマンスを内部検証し、経験的な 95% CI を取得しました (図 1 を参照)。 これは、モデル開発/検証のための患者数の減少を回避できるため、サンプルサイズが限られている場合に有利なアプローチとなります。 ただし、この手順は複数回繰り返されるため、計算コストが高くつき、コストがかかります。 すべてのモデルのパフォーマンスは、2 つの時間依存性測定値、つまりそれぞれ 2 年、5 年、および 10 年時点の Brier スコア (識別およびキャリブレーション) と AUC (識別) で評価されました。 我々は、ハレルの一致指数をCR設定[45、46]に適応させることよりも、時間依存性のAUCを選択した。これは、後者がt年予測リスクの評価には適切な尺度ではないためである[45、46]。 [47])。

ML 技術との比較には、CR の 2 つの回帰モデルが適用されました。 原因別のハザード回帰 Cox と Fine-Grey。 原因特異的 Cox モデルは病因論的な問題に対処するのに適している可能性がありますが、Fine-Gray は患者の臨床予後を推定するのに適しています。これがここでの目的でした [3、5、48]。 それにもかかわらず、両方の SM はより包括的なアプローチに採用され、同様の結果が得られ、キャリブレーションでは ML モデルを上回りました。 非線形効果や非相加効果などの複雑な関数の依存関係は調査されていません。これは、SM が効果の相加性と比例性を仮定しているにもかかわらず、単純な設定 (中小規模のサンプル サイズと限られた数の予測変数) でいかに効果的であるかを示しています。時間の経過とともに起こる危険。 一方、ML 手法は非常に柔軟である可能性があります (アプリオリなモデリング仮定がない) が、通常は、開発された臨床予測モデルのわずかな過剰適合を保証するために (非常に) 大規模なデータセットが必要です [49、50]。

最近、CR の生存分析用に他の ML 駆動モデルが提案されており、その予後能力が原因特異的 Cox、Fine-Gray、RSFCR などの典型的なベンチマークと比較されました。 2017 年に、Alaa と van der Schaar [51] は、複数の競合する有害事象の患者のリスクを共同で評価するためのノンパラメトリック ベイジアン モデルを提案しました。 患者の原因別生存時間は、深いマルチタスク ガウス プロセスを使用して共変量の関数としてモデル化されます。 Bellot と van der Schaar [52] は、2018 年に CR 用のツリーベースのベイジアン混合モデルを開発しました。 彼らは、多変量ランダム生存フォレストを通じて階層的なベイジアン混合モデルを構築し、原因ごとの変数の重要性を評価しました。 最近、ディープ ニューラル ネットワーク (複数の隠れ層) が Nagpal らによって採用されました。 ディープサバイバルマシンと呼ばれる[53]。 これは、入力特徴の共通の深い非線形表現を共同で学習するためのパラメトリック手法です。 このネットワークは、各 CR のイベント分布を個別に推定します。 このプロジェクトでは、この単純な設定での過剰適合の過度の危険を避けるために、浅いニューラル ネットワーク (1 つの隠れ層) のみを指定したことに注意してください。

実用性に焦点を当てると、検討した 3 つの ML 技術と比較して、2 つの SM には利点があります。 後者は、データの前処理やパラメータの調整にかなりの実装時間を必要とし、実行にはより多くの計算負荷がかかります (ここでは時間の観点から)。 同時に、PLANNCR のモデルの最適化は、堅牢な数値手法と巧みな使用を必要とするデリケートなタスクです。そうしないと、ネットワークが誤差関数で次善の最小値に収束する可能性があります [35]。 3 つの ML 手法のうち、PLANNCR 拡張では、調整パラメーターの数が多かったため (PLANNCR オリジナルと RSFCR では 2 つに対して 5 つ)、トレーニングにより多くの時間と労力が必要でした。 反対に、原因固有の Cox モデルと Fine-Gray モデルでは、ハイパーパラメーターの調整が不要で、高速な実装が可能です。

現在、最新の技術を適用して予測モデルを作成することへの関心が高まっているため、医療の一部の状況では ML の採用が過剰に宣伝されています。 したがって、より幅広い聴衆による批判的な評価、モデリングの手順と結果の再現性を可能にし、研究の無駄を避けるために、人工知能を活用した予測モデルを完全かつ透過的に報告する必要があります [14、15、54]。 一般に、従来の回帰アプローチは、特に複雑でない医療現場(低〜中サンプルサイズ、少数の予測変数)では、最先端の ML モデルと比較して、より正確な予測生存確率と予後パフォーマンスを提供する可能性があります。 。 この場合、ML アルゴリズムの適用は、収集されたデータの探索を目的としてのみ行う必要があります。

将来的には、原因固有の比例ハザード Cox モデルの予測能力を、時間依存変数に対してオリジナル/拡張された PLANNCR と比較することが役立つ可能性があります。 1 つ目の方法では、標準ソフトウェアに時間依存の共変量を含めることができ、2 つ目の方法では、患者ごとに必須のデータを長い形式に変換するため、時間依存の共変量を自然に組み込むことができます。 さらに、Fine-Gray と RSFCR は、一連のランドマーク時点 \(t_{LM}\) でランドマーク データセットを作成することで、CR の時間依存共変量を含む動的予測を提供するように拡張できます [55]。 最後になりましたが、解釈に関して SM テクニックと ML テクニックを比較することは興味深いでしょう。 全体として、SM は原因固有のハザード比を介してより直接的な解釈を提供しますが、PLANNCR は時間と共変量に伴う原因固有のハザード関数の形状を提供し、RSFCR は変数の重要度を提供します。 すべての方法を直接比較するには、共通の指標についてさらなる研究が必要です。

この記事では、小規模/中規模のサンプル サイズと限定された eSTS データ内の CR を使用した生存分析のための予後モデルを構築するための、SM (原因別 Cox モデル、ファイングレー) に対する ML 代替案 (PLANNCR オリジナル、PLANNCR 拡張、RSFCR) について説明しました。予測子の数 (簡単な設定)。 識別とキャリブレーションの観点から方法を比較しました。 ML モデルは、手術後 2 年、5 年、または 10 年で適切な予測パフォーマンス尺度の点で同等のパフォーマンスに達しました (95% 信頼区間が重複) が、一般に従来の回帰モデルの方がより適切に校正されていました。 したがって、キャリブレーションにはさらに注意が必要です。 最新の ML 主導の手法は、かなりの実装時間 (データの前処理、ハイパーパラメーターの調整、計算強度) を必要とするため、あまり実用的ではありませんが、回帰モデルは使用が簡単で、モデル トレーニングの追加の作業負荷を必要とせずに良好なパフォーマンスを発揮します。 批判的な評価、再現性を可能にし、研究の無駄を避けるためには、すべての手法の全体的、完全かつ透明性のある報告が必要です。 私たちの意見では、このような複雑ではない現実のデータの場合、ML 技術はモデルのパフォーマンスの探索ツールとして SM を補完するものとしてのみ使用されるべきです。

この研究プロジェクトに使用される臨床データは非公開です。 この分析を実行するために開発された R コードは、次の GitHub リポジトリ https://github.com/GKantidakis/SM-vs-ML-for-CRs で提供されます。 読者は、濾胞性細胞リンパ腫 (データ「濾胞」) に関する公的に入手可能な R データにおけるこの分析の包括的な例である、R コードを含む zip ファイルも見つけることができます。 「フォリック」データ (n = 541、p = 4) の分析プロットは、非複雑なデータ内の同じ方法論を示しており、eSTS データの結果を裏付けています。

曲線下の面積

信頼区間

累積発生率関数

競合するリスク

四肢軟部肉腫

打ち消し重み付けの逆確率

カプランマイヤー

機械学習

平均二乗誤差

部分ロジスティック人工ニューラルネットワーク

部分ロジスティック人工ニューラル ネットワーク - 自動関連性判定

競合リスクに対する部分ロジスティック人工ニューラルネットワーク

競合リスクに対する部分ロジスティック人工ニューラル ネットワーク - 関連性の自動判定

整流リニアユニット

ランダムサバイバルフォレスト

競合するリスクに対するランダムな生存フォレスト

統計モデル

サバイバルニューラルネットワーク

パターH、フィオッコM、ゲスクスRB。 生物統計学のチュートリアル: 競合リスクと複数状態モデル。 統計医学。 2007;26(11):2389–430。 https://doi.org/10.1002/SIM.2712。

論文 CAS PubMed Google Scholar

Varadhan R、Weiss CO、Segal JB、Wu AW、Scharfstein D、Boyd C. 競合リスク存在下での健康転帰の評価: 統計的手法と臨床応用のレビュー。 メッドケア。 2010;48(6 SUPPL.):96–105。 https://doi.org/10.1097/MLR.0b013e3181d99107。

記事 Google Scholar

ゲスカスRB。 競合リスクと中間状態を含むデータ分析。第 1 版。 ボカラトン:チャップマンとホール/CRC。 2015年。

Zhang Z、Cortese G、Combescure C、Marshall R、Lim M 他黒色腫研究データを使用した競合リスクを伴う生存回帰モデルのモデル検証の概要。 アントランス医学博士。 2018;6(16):325. https://doi.org/10.21037/atm.2018.07.38。

記事 PubMed PubMed Central Google Scholar

オースティンPC、リーDS、ファインJP。 競合するリスクの存在下での生存データの分析の紹介。 循環。 2016;133(6):601–9。 https://doi.org/10.1161/CIRCULATIONAHA.115.017719。

記事 PubMed PubMed Central Google Scholar

オースティンPC、ファインJP。 ランダム化比較試験における競合リスクの説明: 改善のためのレビューと推奨事項。 統計医学。 2017;36(8):1203–9。 https://doi.org/10.1002/sim.7215。

記事 PubMed PubMed Central Google Scholar

Koller MT、Raatz H、Steyerberg W、Wolbers M. 競合するリスクと臨床コミュニティ: 無関連か無知か? 統計医学。 2012;31(11–12):1089–97。 https://doi.org/10.1002/sim.4384。

論文 PubMed Google Scholar

Kaplan EL、Meier P. 不完全な観測からのノンパラメトリック推定。 J Am Stat Assoc. 1958;53(282):457–81。 https://doi.org/10.2307/2281868。

記事 Google Scholar

Zhang Z. 競合するリスクが存在する場合の生存分析。 アントランス医学博士。 2016;5(3). https://doi.org/10.21037/atm.2016.08.62。

コックス DR. 回帰モデルと生命表。 JR Stat Soc Ser B (メソドール)。 1972;34(2):187–220。http://www.jstor.org/stable/2985181。

ファイン JP、グレー RJ。 競合するリスクの部分分布の比例ハザード モデル。 J Am Stat Assoc. 1999;94(446):496–509。 https://doi.org/10.1080/01621459.1999.10474144。

記事 Google Scholar

クールー K、エグザルコス TP、エグザルコス KP、カラムージス MV、フォティアディス DI。 がんの予後と予測における機械学習の応用。 Comput Struct Biotechnol J. 2015;13:8–17。 https://doi.org/10.1016/j.csbj.2014.11.005。

論文 CAS PubMed Google Scholar

サイディ・ギボンズ JAM、サイディ・ギボンズ CJ。 医療における機械学習: 実践的な入門。 BMC Med Res Methodol。 2019;19(1):1–18。 https://doi.org/10.1186/s12874-019-0681-4。

記事 Google Scholar

コリンズGS、ライツマJB、アルトマンDG、ムーンズKGM。 個人の予後または診断のための多変数予測モデルの透明性のあるレポート (TRIPOD): TRIPOD ステートメント。 BMC医学。 2015;13(1)。 http://www.biomedcentral.com/1741-7015/13/1。 https://doi.org/10.1186/s12916-014-0241-z。

コリンズGS、コリンズKGM。 人工知能予測モデルのレポート。 ランセット。 2019;393(10181):1577–9。 https://doi.org/10.1016/S0140-6736(19)30037-6。

論文 PubMed Google Scholar

Shahid N、Ruppon T、Berta W. 医療組織の意思決定における人工ニューラル ネットワークの応用: スコーピング レビュー。 PLoS ONE。 2019;14(2):e0212356。 https://doi.org/10.1371/journal.pone.0212356。

論文 CAS PubMed PubMed Central Google Scholar

王P、李Y、レディCK。 生存分析のための機械学習: 調査。 ACM コンピューティング調査 2019;51(6):1–36。 https://doi.org/10.1145/3214306。

記事 Google Scholar

Biganzoli E, Boracchi P, Mariani L, Marubini E. Feed forward neural networks for the analysis of censored survival data: a partial logistic regression approach. Stat Med. 1998;17(10):1169–86. 3.0.CO;2-D">https://doi.org/10.1002/(SICI)1097-0258(19980530)17:10<1169::AID-SIM796>3.0.CO;2-D。

Lisboa PJG、Wong H、Harris P、Swindell R. 乳がん手術後の予後への応用による打ち切りデータのモデル化のためのベイジアン ニューラル ネットワーク アプローチ。 アーティフ・インテル・メッド。 2003;28(1):1–25。 https://doi.org/10.1016/S0933-3657(03)00033-2。

論文 CAS PubMed Google Scholar

Kantidakis G、Putter H、Lancia C、de Boer J、Braat AE、Fiocco M. 肝移植後の生存予測モデル - Cox モデルと機械学習技術の比較。 BMC Med Res Methodol。 2020;20(1):1–14。 https://doi.org/10.1186/s12874-020-01153-1。

記事 Google Scholar

イシュワラン H、コガルル UB、ブラックストーン EH、ラウアー MS。 ランダムサバイバルフォレスト。 アン・アプリケーション統計 2008;2(3):841–60。 https://doi.org/10.1214/08-AOAS169。

記事 Google Scholar

ブライマン L. ランダム フォレスト。 マッハラーニング。 2001;45(1):5–32。 https://doi.org/10.1023/A:1010933404324。

記事 Google Scholar

Biganzoli E、Boracchi P、Ambrogi F、Marubini E. 個別の原因固有の危険を共同モデリングするための人工ニューラル ネットワーク。 アーティフ・インテル・メッド。 2006;37(2):119–30。 https://doi.org/10.1016/j.artmed.2006.01.004。

論文 PubMed Google Scholar

リスボア PJG、エッチェルズ TA、ジャーマン IH、アーセン CTC、アウン MSH、エレウテリ A、他自動関連性判定により正規化された競合リスクのための部分ロジスティック人工ニューラル ネットワーク。 IEEE トランスニューラル ネットワーク。 2009;20(9):1403–16。 https://doi.org/10.1109/TNN.2009.2023654。

論文 PubMed Google Scholar

イシュワラン H、ゲルズ TA、コガルル UB、ムーア RD、ガンジ SJ、ラウ BM。 競合するリスクに対するランダムな生存フォレスト。 生物統計学。 2014;15(4):757–73。 https://doi.org/10.1093/biostatistics/kxu010。

記事 PubMed PubMed Central Google Scholar

チームRC。 R: 統計コンピューティングのための言語と環境。 R 統計コンピューティング財団。 2014。http://www.r-project.org/。

ルーテン=ブッデ AJ、ファン・プラーグ VM、ファン・デ・サンデ MAJ、フィオッコ M、アストン W、ボーネンカンプ H 他高悪性度の四肢軟部肉腫患者に対する動的予測モデルの外部検証と適応。 Jサージオンコル。 2021;123(4):1050–6。 https://doi.org/10.1002/jso.26337。

論文 PubMed Google Scholar

マリアーニ L、ミセリ R、カッタン MW、ブレナン MF、コレッキア M、フィオーレ M 他 3 段階システムを使用した四肢軟部肉腫患者の生存予測のためのノモグラムの検証と適応。 癌。 2005;103(2):402–408。 https://pubmed.ncbi.nlm.nih.gov/15578681/。 https://doi.org/10.1002/CNCR.20778。

ファン・プラーグ VM、ルーテン・ブッデ AJ、ジェイズ LM、ライティネン M、ポロック R、アストン W 他高悪性度の四肢軟部肉腫の治療決定のための予測モデル: 個別化肉腫ケア (PERSARC)。 ユーロ J キャンサー。 2017;83:313–23。 https://doi.org/10.1016/j.ejca.2017.06.032。

論文 PubMed Google Scholar

Callegaro D、Miceli R、Bonvalot S、Ferguson P、Strauss DC、Levy A、他。 原発性四肢軟部肉腫患者における周術期の化学療法と放射線療法の影響:主要な組織学的サブタイプと主要な参照センターにわたる遡及的分析。 ユーロ J キャンサー。 2018;105:19–27。 https://doi.org/10.1016/j.ejca.2018.09.028。

論文 PubMed Google Scholar

Woll PJ、Reichardt P、Le Cesne A、Bonvalot S、Azzarelli A、Hoekstra HJ、他。 切除された軟部肉腫に対するドキソルビシン、イホスファミド、およびレノグラスチムによる補助化学療法 (EORTC 62931): 多施設共同ランダム化対照試験。 ランセット・オンコル。 2012;13(10):1045–54。 https://doi.org/10.1016/S1470-2045(12)70346-7。

論文 CAS PubMed Google Scholar

Stekhoven DJ、Bühlmann P. Missforest - 混合型データのノンパラメトリック欠損値補完。 バイオインフォマティクス。 2012;28(1):112–8。 https://doi.org/10.1093/bioinformatics/btr597。

論文 CAS PubMed Google Scholar

ホルト JD. マッチドペア実験を特に参照した競合リスク分析。 バイオメトリカ。 1978;65(1):159–65。 https://doi.org/10.1093/BIOMET/65.1.159。

記事 Google Scholar

Aalen OO、Johansen S. 打ち切り観測に基づく非均一マルコフ連鎖の経験的遷移行列。 スキャンJ統計 1978;5(3):141–150。 https://www.jstor.org/stable/4615704。

ビショップCM。 パターン認識と機械学習。 ニューヨーク:スプリンガー。 2006年。

チョレット F. ケラス。 R 統計コンピューティング財団。 2015。https://github.com/keras-team/keras。

Hastie T、Tibshirani R、Friedman J. 統計学習の要素: データ マイニング、推論、予測。 第2版統計学のシュプリンガー シリーズ。 スプリンガー; 2009 年。https://doi.org/10.1007/978-0-387-84858-7。

Blanche P、Proust-Lima C、Loubère L、Berr C、Dartigues JF、Jacqmin-Gadda H. 打ち切りリスクと競合リスクが存在する場合の、縦方向のマーカーとイベント発生までの時間に関する関節モデルの動的予測精度の定量化と比較。 生体認証。 2015;71(1):102–13。 https://doi.org/10.1111/biom.12232。

論文 PubMed Google Scholar

Schoop R、Beyersmann J、Schumacher M、Binder H. 競合するリスクが存在する場合のイベント発生までの時間モデルの予測精度の定量化。 Biom J. 2011;53(1):88–112。 https://doi.org/10.1002/bimj.201000073。

論文 PubMed Google Scholar

Blanche P、Dartigues JF、Jacqmin-Gadda H. 競合するリスクを伴う打ち切りイベント時間の受信機動作特性曲線の下の時間依存領域の推定と比較。 統計医学。 2013;32(30):5381–97。 https://doi.org/10.1002/sim.5958。

論文 PubMed Google Scholar

Graf E, Schmoor C, Sauerbrei W, Schumacher M. Assessment and comparison of prognostic classification schemes for survival data. Stat Med. 1999;18(17-18):2529–2545. http://www.ncbi.nlm.nih.gov/pubmed/10474158. 3.0.CO;2-5">https://doi.org/10.1002/(SICI)1097-0258(19990915/30)18:17/18<2529::AID-SIM274>3.0.CO;2-5.

Steyerberg EW、Vickers AJ、Cook NR、Gerds T、Gonen M、Obuchowski N、他。 予測モデルのパフォーマンスの評価: いくつかの従来型および新規の測定のためのフレームワーク。 疫学。 2010;21(1):128–138。 https://pubmed.ncbi.nlm.nih.gov/20010215/。 https://doi.org/10.1097/EDE.0b013e3181c30fb2。

ゲルズTA、アンデルセンPK、カッタンMW。 競合するリスクが存在する場合のリスク予測モデルの校正プロット。 統計医学。 2014;33(18):3191–203。 https://doi.org/10.1002/sim.6152。

論文 PubMed Google Scholar

Kantidakis G、Biganzoli E、Putter H、Fiocco M。臨床試験データのサバイバル ニューラル ネットワークの予測パフォーマンスを Cox モデルと比較するためのシミュレーション研究。 計算数学法 2021;2021:1–15。 https://doi.org/10.1155/2021/2160322。

記事 Google Scholar

ウォルバース M、コーラー MT、ウィッテマン JCM、シュタイアーバーグ EW。 競合するリスク手法を使用した予後モデルと冠状動脈リスク予測への応用。 疫学。 2009;20(4):555–61。 https://doi.org/10.1097/EDE.0b013e3181a39056。

論文 PubMed Google Scholar

ウォルバース M、ブランシュ P、コーラー MT、ウィッテマン JCM、ゲルズ TA。 競合するリスクを伴う予後モデルの一致。 生物統計学。 2014;15(3):526–39。 https://doi.org/10.1093/biostatistics/kxt059。

記事 PubMed PubMed Central Google Scholar

ブランシュ P、カッタン MW、ゲルズ TA。 c-index は、t 年予測リスクの評価には適切ではありません。 生物統計学。 2019;20(2):347–57。 https://doi.org/10.1093/biostatistics/kxy006。

論文 PubMed Google Scholar

Tullio A、Magli A、Moretti E、Valent F. 生存分析において競合するリスクバイアスに注意を払う必要がある理由: 前立腺がんに対する放射線療法の毒性プロファイルに関する第 II 相試験。 プラクト・オンコル・ラジオザー議員。 2019;24(6):511–519。 https://doi.org/10.1016/j.rpor.2019.08.001。

ファン・デル・プローグT、オースティンPC、シュタイアーバーグEW。 最新のモデリング技術はデータを大量に必要とします: 二分的なエンドポイントを予測するためのシミュレーション研究。 BMC Med Res Methodol。 2014;14(1):1–13。 https://doi.org/10.1186/1471-2288-14-137。

記事 Google Scholar

ライリー RD、アンソール J、スネル KIE、ハレル FE、マーティン GP、ライツマ JB 他臨床予測モデルの開発に必要なサンプルサイズを計算します。 BMJ。 2020;368(月):1–12。 https://doi.org/10.1136/bmj.m441。

記事 Google Scholar

Alaa AM、Van Der Schaar M. 競合するリスクを伴う生存分析のためのディープ マルチタスク ガウス プロセス。 高度なニューラルインフラプロセスシステム。 2017;2326–2334。 http://medianetlab.ee.ucla.edu/papers/Alaa-Deep-Competing-Risk.pdf。

Bellot A、van der Schaar M. 競合リスクに対するツリーベースのベイジアン混合モデル。 Int Conf Artif Intell Stat PMLR 2018. 2018;910–918。 http://proceedings.mlr.press/v84/bellot18a/bellot18a.pdf。

Nagpal C、Li X、Dubrawski A. ディープ サバイバル マシン: 競合リスクのある打ち切りデータに対する完全パラメトリック サバイバル回帰および表現学習。 IEEE J Biomed Health Inf. 2021;25(8):3163–75。 https://doi.org/10.1109/JBHI.2021.3052441。

記事 Google Scholar

Dhiman P、Ma J、Navarro CA、Speich B、Bullock G、Damen JA、他。 腫瘍学における機械学習手法に基づく予後臨床予測モデルのレポートは改善する必要があります。 J クリン エピデミオール。 2021;138:60–72。 https://doi.org/10.1016/j.jclinepi.2021.06.024。

記事 PubMed PubMed Central Google Scholar

Nicolaie MA、van Houwelingen JC、de Witte TM、Putter H. 競合するリスクのランドマークによる動的予測。 州医師会。 2013;32(12):2031–47。 https://doi.org/10.1002/sim.5665。

論文 CAS PubMed Google Scholar

リファレンスをダウンロードする

この出版物は、ベルギーのフランドルがん協会である Kom Op Tegen Kanker (がんに立ち向かえ) からの寄付によって支えられました。 著者らは、この論文で使用したデータを提供してくださったパーソナライズド SARcoma Care (PERSARC) 研究グループのメンバーに感謝したいと思います。

イブティサム・アセム、ウィル・アストン、ハン・ボーネンカンプ、イングリッド・ME・デサール、ピーター・C・ファーガソン、マルタ・フィオッコ、ハンス・ゲルダーブロム、アンソニー・M・グリフィン、ダーク・J・グリュンハーゲン、リック・L・ハース、アンドリュー・J・ヘイズ、リー・M・ジェイズ、ジョニー・ケラー、ミンナ・Kライティネン、アンドレアス・ライスナー、カチャ・マレッティ=コングスタッド、ロブ・ポロック、アンジャ・ルーテン=ブッデ、マイルズ・スミス、マリア・A・スモーレ、エミリー・スタイリング、ジョアンナ・スカルンデラ、ペル=ウルフ・タン、ジョス・A・ファン・デル・ハーゲ、ロバート・J・ヴァン・ギンケル、ウィナン・J・ヴァンハウデ、ヴェロニク・ファン・プラーク、ミシェル・ファン・デ・サンデ、キース・ヴァーホーフ、マデリン・ウィレッガー、レイナード・ウィンドハーガー、ジェイ・S・ワンダー、オルガ・ザイコバ。

EORTC 本部のフェローとしての Georgios Kantidakis の研究は、EORTC 軟部組織および骨肉腫グループおよびライデン大学医療センター (LUMC) 腫瘍内科からの助成金によって支援されました。 資金源は、研究の計画、データの収集、分析、解釈や原稿の作成には何の役割も果たしていませんでした。

数学研究所 (MI) ライデン大学、Niels Bohrweg 1、2333 CA、ライデン、オランダ

ゲオルギオス・カンティダキス & マルタ・フィオッコ

生物医学データ科学部、医療統計セクション、ライデン大学医療センター (LUMC)、Albinusdreef 2、2333 ZA、ライデン、オランダ

ジョージ・カンティダキス、ヘイン・パター、マーサ・フィオッコ

統計局、欧州がん研究治療機関 (EORTC) 本部、Ave E. Mounier 83/11、1200、ブリュッセル、ベルギー

ゲオルギオス・カンティダキス & サスキア・リティエ

トライアルおよびデータセンター、プリンセスマキシマ小児腫瘍センター (PMC)、Heidelberglaan 25、3584 CS、ユトレヒト、オランダ

マーサ・ボウ

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

MF はデータを調査するための提案書を書きました。 GK と MF が研究を考案し、設計しました。 GK が統計分析を実施しました。 GK、HP、SL、MFが結果を解釈した。 GK が原稿を作成し、HP、SL、MF がそれを批判的に修正しました。 すべての著者が最終版を読んで承認しました。

ゲオルギオス・カンティダキスへの通信。

臨床データは医療記録から収集され、擬似匿名化されていたため、この研究の倫理的承認はライデン大学医療センター整形外科部門の治験審査委員会によって放棄された。 元の研究では、すべての参加者が書面によるインフォームドコンセントを提供しました。 研究はヘルシンキ宣言に従って実施されました。

適用できない。

著者らは競合する利害関係を宣言していません。

シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

追加ファイル1.

追加ファイル2。

追加ファイル3.

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。 データのクレジットラインに別途記載がない限り、クリエイティブ コモンズ パブリック ドメインの献身的権利放棄 (http://creativecommons.org/publicdomain/zero/1.0/) は、この記事で利用可能なデータに適用されます。

転載と許可

Kantidakis, G.、Putter, H.、Litière, S. 他競合するリスクに関する統計モデルと機械学習: 予後モデルの開発と検証。 BMC Med Res Methodol 23、51 (2023)。 https://doi.org/10.1186/s12874-023-01866-z

引用をダウンロード

受信日: 2022 年 9 月 15 日

受理日: 2023 年 2 月 13 日

公開日: 2023 年 2 月 24 日

DOI: https://doi.org/10.1186/s12874-023-01866-z

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

共有