banner
ニュース センター
高級感のある外観

基本的なビジョントランスフォーマーにより、心電図の診断パフォーマンスが向上します

Mar 09, 2023

npj デジタルメディスン 第 6 巻、記事番号: 108 (2023) この記事を引用

メトリクスの詳細

心電図 (ECG) は、広く普及している診断手段です。 ECG 解析に適用される畳み込みニューラル ネットワーク (CNN) には大きなサンプル サイズが必要であり、生物医学的問題に対する転移学習アプローチでは、自然画像に対して事前トレーニングが行われると最適なパフォーマンスが得られない可能性があります。 マスクされた画像モデリングを活用して、心電図波形解析用のビジョンベースのトランスフォーマー モデル HeartBEiT を作成しました。 このモデルを 850 万の ECG で事前トレーニングし、異なるトレーニング サンプル サイズと独立した検証データセットを使用して、肥大型心筋症、低左室駆出率、ST 上昇心筋梗塞の診断に関して標準 CNN アーキテクチャとパフォーマンスを比較しました。 HeartBEiT は、他のモデルと比較して、より少ないサンプルサイズで大幅に高いパフォーマンスを発揮することがわかりました。 また、HeartBEiT は、標準的な CNN と比較して心電図の生物学的に関連する領域を強調表示することで、診断の説明可能性を向上させることもわかりました。 ドメイン固有の事前トレーニング済みトランスフォーマー モデルは、特にデータが非常に少ない状況では、自然画像でトレーニングされたモデルの分類パフォーマンスを超える可能性があります。 アーキテクチャとそのような事前トレーニングを組み合わせることで、モデル予測のより正確で詳細な説明が可能になります。

心電図 (ECG) は、心臓内の電気活動を体表面レベルで記録したものです。 ECG は、低コスト、非侵襲性、心臓病への幅広い適用性により、至る所で行われている検査であり、米国だけでもさまざまな医療現場で毎年 1 億件を超える ECG が実施されています1。 しかし、医師は病気を表すパターンを一貫して特定することができないため、特に確立された診断基準がない状態の場合や、そのようなパターンが人間の解釈には微妙すぎたり混沌としたりする場合には、ECG の範囲は限られています。

深層学習は、いくつかの診断および予後ユースケースの ECG データに適用されています 2、3、4、5、6。 この研究の大部分は、畳み込みニューラル ネットワーク (CNN)7 に基づいて構築されています。 他のニューラル ネットワークと同様、CNN は高分散構造 8 であり、過剰適合を防ぐために大量のデータを必要とします 9。 CNN は、受信データの次元に対応するために専用に構築される必要があり、ECG を 1D 波形と 2D 画像の両方として解釈するために使用されてきました10。

これに関連して、ECG を 2D 画像として解釈することには、小規模なデータセットでのモデリング タスクの開始点として機能する、広く利用可能な事前トレーニング済みモデルによる利点があります 11。 この手法は転移学習として説明されており、関連性のないより大きなデータセットでトレーニングされたモデルが、問題に関連するより小さなデータセットで微調整されます12。 転移学習は、患者コホートが限られていること、関心のある結果の希少性、および有用なラベルの生成に関連するコストによりデータセットのサイズが制限されているため、医療分野で特に役立ちます。 その結果、自然画像に基づいて教師付き方法で最初にトレーニングされた視覚モデル 13 が、医療現場で使用されるモデルの基礎となることがよくあります。 残念ながら、このような自然画像を使用した転移学習は普遍的な解決策ではなく、事前トレーニング データセットと微調整データセットに大きな違いがある場合、次善の結果が得られることが知られています14。

トランスフォーマーベースのニューラル ネットワークは、アテンション メカニズム 15 を利用して、トークン 16 として知られる入力データの離散単位間の関係を確立および定義します。 トランスフォーマーが可能にする大きな利点は、ラベルなしデータの大規模なコーパスから教師なし学習を行ってトークン間の関係を学習し、この情報を他の下流タスクに利用できることです16。 非構造化テキストをトークンに簡単に分解できるため、トランスフォーマーは自然言語処理 (NLP) タスクで大きな成功を収めてきました 17,18。 最近の研究では、そのようなモデルの機能がビジョンベースのタスクに拡張され、ビジョントランスフォーマーの出現につながりました16,19。

最初のビジョン トランスフォーマーは、膨大なラベル付きデータセットで事前トレーニングされ、その後、自然画像分類で CNN よりも優れたパフォーマンスを示すために、より小さなデータセットで微調整されました 20。 最近では、Image Transformers (BEiT) による双方向エンコーダー表現のアプローチにより、ラベルのない大規模なデータセットを事前トレーニングのトランスフォーマー ニューラル ネットワークに利用できるようになりました 21。 このアプローチは、入力画像の一部を個別のトークンまたはパッチに変換することで構成されます。 このようなトークンは文内の単語に類似していると考えられ、言語モデルとほぼ同じ方法でトランスフォーマーを事前トレーニングするために使用されます (図 1)。 変換器は、提供された入力のすべての特徴間のグローバルな依存関係 22 を考慮するため、このような事前トレーニングは ECG にとって特に有利である可能性があります。 S1Q3T3 などの特定の病理学的パターンは記録のさまざまな部分で発生し 23、連続した領域のみを考慮するモデルではそれらを完全に見逃してしまう可能性があります。

HeartBEiT モデルの事前トレーニング。 (1) 元の各 ECG は、16 × 16 ピクセルの 14 × 14 パッチ (2) に分割されます。 これらのパッチはトークン化されており、一部はマスクされています (3)。 Dall-E モデル (4) はトークナイザーとして機能し、画像を個別のトークン (5) に変換し、その後マスクされた画像モデリング プロセス (6) の一部となります。 これにより、HeartBEiT モデルのアテンション モジュール (7) の事前トレーニングが可能になり、多層パーセプトロン分類ヘッド (10) の追加時に、モデルを下流の微調整と推論 (8、9) に使用できます。

私たちは、多様な集団に属する数百万の ECG の大規模なコーパスで事前トレーニングされたビジョン トランスフォーマー モデルを作成します。 このモデルを利用して、利用可能なデータがほとんどないユースケースに特化したモデルを作成します。 次に、パフォーマンス マップと顕著性マップを、同様の制約が適用されるベースライン モデルと比較します。

トレーニングまたは微調整セットには MSHS からの合計 511,491 件の ECG、テストには MSHS からの 20,448 件のサンプル、外部検証には Morningside からの 1,480 件の ECG が含まれました。 低LVEF有病率はトレーニングセットで18%でした(表1)。

HeartBEiT は、トレーニング データのすべての部分で低 LVEF 分類で他の CNN モデルよりも優れたパフォーマンスを示しました (図 2、補足表 1)。 トレーニング データ (5114 サンプル) の 1% では、パフォーマンス (AUROC: 0.86、95% CI: 0.86 ~ 0.86) は ViT-B/16 モデル (AUROC: 0.67、95% CI 0.67 ~ 0.67) より 28.4% 優れていました。内部テストでは、EfficientNet-B4 より 5.2% (AUROC: 0.82、95% CI: 0.82 ~ 0.82)、ResNet-152 (AUROC: 0.84、95% CI: 0.84 ~ 0.84) より 2.4% 優れています (補足図 2)。 )。 これらの傾向は外部検証全体で維持され、HeartBEiT (AUROC: 0.87、95% CI: 0.87-0.87) が CNN を 4-18% 上回りました (補足図 3)。

a 内部テストのパフォーマンス (マウント サイナイの 4 つの施設)。 b 内部テストのパフォーマンスの違い。 c 外部検証パフォーマンス (午前中の患者)。 d 外部検証のパフォーマンスの違い。 (b) と (d) の赤い破線は、HeartBEiT のパフォーマンスを示します。

AUPRCを指標として使用すると、トレーニングデータの1%で、内部検査コホートの有病率18.5%に対して、HeartBEiTモデル(AUPRC: 0.59、95% CI: 0.59-0.59)がViT-B/16(AUPRC: 0.31、95% CI 0.31–0.31) は 90.3%、EfficientNet-B4 (AUPRC: 0.48、95% CI: 0.48–0.48) は 22.9%、ResNet-152 (AUPRC: 0.52、95% CI: 0.52–0.52) 13.5% 増加しました (補足表 2、補足図 4 ~ 6)。 外部検証コホートでは、HeartBEiT の AUPRC が 0.73 で最も高かった (95% CI: 0.73-0.73)。

トレーニング データ (511,491 サンプル) が 100% あると、すべてのモデルのパフォーマンスがより厳密に一致するようになりました。 内部テストでは、HeartBEiT、EfficientNet-B4、および ResNet-152 間にパフォーマンスの差はありませんでしたが、AUROC の外部検証では 1.1 ~ 4.5% の差が観察されました。 ただし、AUPRC の場合、HeartBEiT は内部および外部データセットで依然として 0 ~ 17.7% のパフォーマンス向上を示しました。

GRAD-CAM分析により、各リードのQRS群周辺の領域がHeartBEiTによるトレーニングデータの1%で強調表示されることが実証されました(補足図7a)。 トレーニングデータの100%が実装された場合、リードIのQRS複合体の周りで焦点がより顕著になりました(補足図7b)。

MSHS の 4 つの病院からの 78,831 個の ECG を使用して、HeartBEiT トランスフォーマーを微調整しました。 これらの病院からの 20,448 件の ECG に対して検査が実施され、外部検証にはモーニングサイドのホールドアウト患者セットからの 3,859 件の ECG が使用されました (表 1)。 トレーニングセットにおける HCM の有病率は 38% でした。

HeartBEiTは、トレーニングデータのすべての部分でHCMの診断において他のモデルを上回りました(図3、補足表1)。 トレーニング データの 1% では、AUROC 0.77 (95% CI: 0.77-0.77) での HeartBEiT モデルのパフォーマンスは、内部で ViT-B/16 のパフォーマンスを 26.2% 上回り、EfficientNet-B4 および ResNet-152 のパフォーマンスを 6.9% 上回りました。テスト(補足図2)。 HeartBEiT モデルによる外部検証でも同様の結果が見られ、AUROC は 0.74 (95% CI: 0.74 ~ 0.74) で、ViT-B/16 (0.61、95% CI 0.61 ~ 0.61) を 21.3% 上回っていました。EfficientNet-B4 (0.69、95% CI: 0.68-0.70) は 7.2% 増加し、ResNet-152 (0.68、95% CI: 0.68-0.69) は 8.8% 増加しました (補足図 3)。

a 内部テストのパフォーマンス (マウント サイナイの 4 つの施設)。 b 内部テストのパフォーマンスの違い。 c 外部検証パフォーマンス (午前中の患者)。 d 外部検証のパフォーマンスの違い。 (b) と (d) の赤い破線は、HeartBEiT のパフォーマンスを示します。

パフォーマンスの違いは、使用中のトレーニング データの 1% で AUPRC の方がはるかに大きくなりました (補足表 2、補足図 8)。 トレーニング データの 1% を使用した場合、内部テスト コホートにおける結果の有病率 38.8% に対して、HeartBEiT モデル (AUPRC: 0.67、95%、CI: 0.67 ~ 0.67) は ViT-B/16 のパフォーマンス (AUPRC: 0.49、95%、CI: 0.67 ~ 0.67) を上回りました。 95% CI 0.49–0.49) は 36.7%、EfficientNet-B4 (AUPRC: 0.63、95% CI: 0.63–0.63) は 6.3%、ResNet-152 (AUPRC: 0.64、95% CI: 0.64–0.64) は 4.7% 増加しました。 %(補足図5)。 外部検証では、HeartBEiT は AUPRC 0.64 (95% CI: 0.64–0.64) で最高のパフォーマンスを示し続けました (補足図 6)。

HeartBEiT のパフォーマンス上の利点は、トレーニング データの量が増加するにつれて徐々に減少しました。 トレーニング データの 100% と比較した場合、パフォーマンスの差は、AUROC の内部テストで最大 2.5%、外部検証で 3.9%、AUPRC の場合、内部テストと外部検証でそれぞれ最大 4.2% と 7.1% でした。

GRAD-CAM分析により、データの1%で、リードI、V2、およびV5のQRS複合体とV6のSTセグメントが、HeartBEiTによるHCMを予測するための重要な領域として示されることが明らかになりました(補足図9a)。 対照的に、トレーニング データの 100% では、HeartBEiT によって特定された主要領域が V5 の初めにより集中するようになりました (補足図 9b)。

PTB-XL データセットには、18,869 人の患者からの合計 21,799 個の ECG が含まれています。17,449 個の ECG は微調整に使用され、4,352 個の ECG はモデルのテストに使用されました。 STEMI の有病率は、トレーニング セットで約 5.7%、テスト セットで 5.4% でした (表 1)。

HeartBEiT の AUROC パフォーマンスの利点は、トレーニングに使用されるトレーニング データの一部が小さいほど大きいことがわかりました (図 4、補足表 1)。 内部テストでは、HeartBEiT の AUROC は 0.88 (95% CI: 0.88 ~ 0.89) で、トレーニング データの 1% で他のモデルと比較して 4.8 ~ 10% のパフォーマンス向上がありました (補足図 2)。 利用可能なすべてのトレーニング データ (17,449 サンプル) が使用された場合、この利点は、ViT-B/16、EfficientNet-B4、および ResNet-152 と比較して、それぞれ約 20.3%、1.1%、および 2.2% に変化しました。

a 内部テストのパフォーマンス。 b 内部テストのパフォーマンスの違い。 (b) の赤い破線は、HeartBEiT のパフォーマンスを示します。

AUPRC のこのパフォーマンス上の利点はさらに大きくなり、HeartBEiT (AUPRC: 0.56、95% CI 0.56 ~ 0.66) が ViT-B/16 (0.27、95% CI 0.26 ~ 37) を 107.4% 上回っており、ResNet-152 (0.47、 95% CI 0.46–0.47) は 19.1% 増加し、EfficientNet-B4 (0.40、95% CI 0.40–0.41) はトレーニング データの 1% 部分で 40.0% 増加しました (補足表 2、補足図 5、補足図 10)。 )。 ただし、トレーニング データが 100% の場合、HeartBEiT のパフォーマンス (AUPRC: 0.67、95% CI 0.66 ~ 0.67) は、EfficientNet-B4 のパフォーマンス (AUPRC: 0.68、95% CI: 0.67 ~ 0.68) よりも有意に低くなりました。

STEMI 検出の場合、ViT-B/16 ビジョン トランスフォーマーは、学習率などの他のハイパーパラメーターを一定に保ちながらトレーニング データの 10% 以上を使用すると、トレーニングの不安定性を示しました。 この不安定性はこの結果でのみ見られ、報告されたパフォーマンスは、トレーニング方法がエラーになる前に達成された最良の指標に対応しています。

HeartBEiT の GRAD-CAM 分析によると、トレーニング データの 1% で、各リードの ST セグメントが重要な領域として強調表示されました (図 5)。 トレーニングデータの100%では、HeartBEiTで示されるこれらの領域は、リードV3およびV4のSTセグメントの周囲に局在化しました(補足図11)。

ViT-B/16。 b EfficientNet-B4。 c ResNet-152。 dハートビート。 HeartBEiT は ST セグメントに局在します。 他のモデルは、重要な特徴を強調する点がより拡散しており、臨床的にはあまり有用ではない可能性があります。

ECG 対 ECG セットのペアごとの平均 Wasserstein 距離は 2.14 でした。 比較すると、この値は、ImageNet 対 ImageNet セットでは 45.48、ECG 対 ImageNet セットでは 128.44 でした (補足図 12)。

40 年間にわたって収集された 210 万人の患者からの 850 万件の ECG を使用して、マスク画像モデリングを活用して、関心のある結果に関する下流トレーニングの普遍的な開始点として機能する ECG データのビジョンベース トランスフォーマー (HeartBEiT) モデルを作成しました。 。 私たちは、マウント サイナイ医療システム内の 4 つの病院から得られたデータを使用して、2 つの結果に対してこのモデルを微調整し、別の病院からのデータに基づいて派生モデルを外部検証しました。 また、公開されている PTB-XL データベースのデータを使用して、STEMI 検出用にこのモデルを微調整し、その後、ホールドアウトされた患者セットに対して派生モデルをテストしました。 それぞれのケースで、私たちのモデルは、すべて同じトレーニング条件に従う 2 つの CNN および別のビジョン トランスフォーマーと比較されました。 最後に、入力サンプルの顕著性マップを作成することで、これらのモデルの臨床的有用性の追加の側面を評価しました。

ニューラル ネットワークのパフォーマンスは、利用可能なデータの量に大きく影響される可能性があり 24、過剰適合によりデータ領域が小さくなる可能性があります 25。 ただし、厳選されたラベル付きデータは希少なリソースです。 これは、患者に対する検査の実施、関心のある病状の検出、臨床転帰に関するデータの収集に多大な労力と費用がかかる医療現場に特に当てはまります。 データの取得とラベル付けにかかる経済的コストに加えて、時間もさらに大きなデータセットの取得を妨げる要因となる可能性があります。 最近の新型コロナウイルス感染症(COVID-19)のパンデミックなど、公衆衛生上の緊急の懸念が生じている間は、有用なモデルの開発に利用できるデータがほとんどない可能性があります。 このような状況では、他のアプローチに必要なデータの一部を操作できるモデルは、より迅速で適切な診断とトリアージに役立つ可能性があります。

すべての結果、データセット、およびパフォーマンス指標にわたって、HeartBEiT は、1 桁少ない (100% 対 10%) トレーニング データで同等のパフォーマンスを達成しました。」 さらに、トレーニング データの 1% のみを使用した非常に低データの領域では、HeartBEiT のパフォーマンスは向上しました。このパフォーマンスは、10 倍のデータを使用する他のモデルと同等でした。このパフォーマンスは、微調整されたモデルだけでなく、事前トレーニングされたモデルでも、地理的に離れた患者集団。

特に重要なのは、AUPRC でのパフォーマンスの差の上昇です。これは、クラスの不均衡が大きいデータセットのパフォーマンスを示すより良い指標であり、AUROC を単独で考慮することはあまり有用ではない可能性があります。 イベント発生率が比較的低いため、医療データセットにはこのようなクラスの不均衡が生じる傾向があります。 たとえば、結果の有病率が 5.6% の STEMI の検出では、1% のトレーニング データ領域で、HeartBEiT は CNN の AUPRC をそれぞれ 19.1% と 40% 上回り、ImageNet ビジョン トランスフォーマーのパフォーマンスを 2 倍にしました。 これらの結果は、自然画像での事前トレーニングがヘルスケア関連モデルの作成にとって常に最適なソリューションであるとは限らないことも示しています。この事実は、自然画像と ECG の間の平均ワッサーシュタイン距離の差の大きさによってさらに証明されています。

この研究で説明されている説明可能性フレームワークでトランスフォーマーを使用することの新たな臨床上の利点は、顕著性マッピングの粒度です。 同様のパフォーマンス レベルであっても、示されている CNN は重要な領域を結合する傾向があるため、予測の最も強力な決定要因がわかりにくくなります。 比較すると、変圧器の顕著性マップは、これらの決定要因に焦点を当てる傾向があります。 このような詳細な説明可能性は、臨床医が深層学習モデルを採用するのに役立つだけでなく、ECG に診断ガイドラインがない病態を理解するのにも役立つ可能性があります。 これらの要因は、病因パターンが十分に確立されている STEMI 検出でよく実証されており、微調整にデータの 1% を使用した場合でも ST セグメントが一貫して強調表示されます (図 5)。 LVEF 測定の場合、医師を支援できる明確な診断ガイドラインは存在しません。 この場合、顕著性マップは、心室筋構造の大部分の脱分極の正味ベクトルを示し、疾患状態の根底にあるメカニズムに焦点を当てるトランスフォーマーの能力を示す QRS 群に焦点を当てる傾向があります。

私たちの仕事は、一定の制限を考慮して検討する必要があります。 トランスフォーマーは、事前トレーニングに非常に多くの計算を要する傾向があります。 したがって、86 M パラメータの変圧器モデルのサイズと、利用できる入力データのサイズが制限されました。 ただし、この研究は HeartBEiT モデルの実行可能性と利点の証拠として役立つと考えており、将来の作業では、実際の展開に先立ってより良いパフォーマンスを可能にするためにこのモデルをスケールアップすることに取り組む予定です。

結論として、事前トレーニングされたトランスフォーマー モデルにより、データが厳しく制限されている状況でも、堅牢な深層学習ベースの ECG 分類が可能になります。 より具体的で、品質が高く、詳細な顕著性マップは、臨床医がモデル予測を受け入れるのに役立ちます。

私たちは、マウント サイナイ ヘルス システム (MSHS) 内の 5 つの病院から得られるすべての利用可能な ECG データを利用して、モデルを事前トレーニングしました。 これらの病院 (マウント サイナイ病院、モーニングサイド、ウェスト、ベス イスラエル、ブルックリン) は、ニューヨーク市の人口統計上の多様性を反映した多数の患者を受け入れています。 ECG データは、1980 年から 2021 年までの GE MUSE システムから取得され、210 万人の患者に対する合計約 850 万件の離散 ECG 記録が収集されました。 ECG データは、生の波形と、患者 ID、時間、場所、症状に関連付けられたメタデータの両方を含む構造化 XML ファイルとして取得されました。

モデルの結果固有の微調整のために、利用可能な心エコー図レポートから左心室駆出率 (LVEF) の値に対するグランド トゥルース ラベルを収集しました。 モデル化タスクは、駆出率の低下を伴う心不全を定義する LVEF ≤ 40% に対する患者の分類でした 26。 また、肥大型心筋症の診断を示すラベルも収集しました。肥大型心筋症は、心室の厚さが病的に増加し、その結果、心機能が失われ、致死性不整脈が起こりやすくなる遺伝性疾患です。 これらのラベルは、病状の閉塞性に関する修飾語の介在の有無にかかわらず、「HCM」/「肥大型心筋症」に関する非構造化心エコー図レポートを解析するために自然言語処理を使用して生成されました。

最後に、外部検証を追加するために、公開されている PTB-XL データセットを利用しました。 このデータセットには、1989 年 10 月から 1996 年 6 月までの 18,869 人の患者からの 21,799 件の ECG が含まれています。これらのデータには 2 人の心臓専門医によって注釈が付けられており、ECG が正常な記録を示しているのか、それとも急性虚血を示唆する変化を示しているのかなど、真実の診断ラベルが含まれています。 このデータベースからの ECG 記録は、ST 上昇心筋梗塞 (STEMI) を検出するためのモデルを微調整するために使用されました。 STEMI は心臓組織への血液供給の急性喪失によって引き起こされ、収縮機能の喪失から死に至るまでのさまざまな合併症を引き起こす可能性があります。

この研究で使用された ECG には、それぞれ 12 個のリードのうちの 1 つから記録された波形データが含まれており、各リードは心臓の電気活動についての異なる視点を表しています。 どちらのデータセットにも、500 Hz のレートでサンプリングされたリードあたり 5 秒または 10 秒の波形データ (合計 2500 または 5000 サンプル) を含む ECG が含まれています。 MSHS データセットには、III 誘導、aVF、aVL、または aVR に関するデータは含まれていません。 ただし、これらのリードは、他のリードを表すベクトルの線形変換から再作成できるため、導出されます。 サンプルとデータセット全体で均一性を維持するために、すべての ECG は 2500 サンプルに切り捨てられました。

バターワース バンドパス フィルター (0.5 Hz ~ 40 Hz) を適用した後、生の波形データにメディアン フィルターを適用することで、ECG 記録内のノイズを補正しました。 このようにして得られた処理された波形データは、リードの順序を維持するように編成され、各画像に合計 8 つのリード (I、II、および V1 ~ V6) が含まれるように画像にプロットされました。 圧縮アーティファクトを防ぐために、画像は 1000 × 1000 ピクセルの解像度で .png (Portable Network Graphics) 形式で保存されました。 さらに、ImageNet でトレーニングされた CNN との互換性を維持するために、出力画像は 3 つのカラー チャネルで保存されました。

トークンは、意味論に基づいてグループ化され分析される、事前に定義された個別のシーケンスとして定義できます。 言語モデリングのコンテキストでは、トークンは単にテキストの本文を構成する単語である可能性があります。 データをこのような個別のシーケンスに分離し、それらに一意の数値識別子を割り当てるプロセスは、トークン化と呼ばれます27。

言語モデルの事前トレーニングに一般的に使用される方法は、マスク言語モデリング (MLM)28 と呼ばれます。この方法では、モデルに入力されるトークンの数の設定された割合がマスクまたは隠蔽され、これらのマスクされたトークンを予測させることでモデルが事前トレーニングされます。トークン。 データの収集とラベル付けは高価なプロセスである可能性があり、医療データセットの場合、そのようなコストはさらに高くなります。 MLM の大きな利点は、大量のラベルなしデータを使用してモデルを事前トレーニングできることです。

BEiT アプローチは、MLM をマスク イメージ モデリング (MIM) に拡張します。MIM では、2D 入力画像が生のピクセルを含むパッチに分離され、入力画像のトークン化された表現に変換されます (図 1)。 このトークン化は、各パッチを単一の数値トークンに近似する、個別にトレーニングされた画像トークナイザーを使用して実行されます。 ECG 画像の変換には、元の BEiT 実装と同じ公開されている画像トークナイザー (Dall-E) を使用しました。

隠れ層サイズ 768、アテンション ヘッド 12 個、合計約 86M パラメータを持つ 12 層トランスフォーマー モデルをインスタンス化しました。 このモデルとその下流派生モデルは、この文書内では「HeartBEiT」と呼ばれます。

このモデルの下流の問題固有のパフォーマンスを、同等のサイズの ImageNet ベースのビジョン トランスフォーマー (ViT-B/16: 86 M パラメーター)、および ECG に適用される深層学習に一般的な CNN ベースのアプローチと比較しました。 これらには、利用可能な最大の事前トレーニング済み ResNet モデル (ResNet-152: 60 M パラメーター) と、パラメーターが少ないにもかかわらず、画像分類で優れたパフォーマンスを示すことが知られている、計算コストがより安価なアーキテクチャ (EfficientNet-B4: 19 M パラメーター) が含まれます。 すべてのベースラインは、1.2 M のラベル付きトレーニング画像を含む ImageNet1K データセットで教師ありの方法で事前トレーニングされました。

入力画像は 224 × 224 ピクセルにサイズ変更されましたが、それ以外の前処理は行われませんでした。 自然画像とは対照的に、ECG 波形は形態と順序を維持する必要があります。 ECG の特定のセグメント内にのみ存在する情報がランダムに失われること。

入力画像は、それぞれ 16 ピクセルの正方形のパッチに分割され、入力画像あたり合計 196 のパッチになります (図 5)。 入力パッチの 40% は、ニューラル ネットワークへの入力用にマスクされました。 学習率 5e-4 の AdamW オプティマイザーを使用しました。 HeartBEiT モデルは、4 つの NVIDIA A100-40G GPU で構成されるノード上で事前トレーニングされました。 エポックあたり約 6 時間で、300 エポックのモデルの事前トレーニングには約 2.5 か月かかりました。 300 番目のエポックで保存されたモデル パラメーターは、すべての場合において下流の微調整に使用されました (補足図 1)。

事前トレーニングされたモデルは微調整タスクを受けて、ECG ベースの分類でのパフォーマンスを実証および比較しました。 私たちは 40% 未満の LVEF の検出と HCM の診断に 4 つの病院からのデータを使用しました。 いずれの場合も、微調整モデルのパフォーマンスは、モーニングサイド病院からのデータに基づいて外部的に検証されました。 PTB-XL データベースのデータは、STEMI 検出用の他のモデルと同様に、事前トレーニング済みの HeartBEiT モデルを微調整するために使用されました。

データは、トレーニング データセット、内部テスト データセット、および該当する場合は外部検証データセットに分割されました。 トレーニング データを 1%、10%、25%、50%、または 100% に削減し、得られたモデルを一般的なテスト データに対してテストすることで、極度のデータ不足の状態をモデル化しました。 すべてのケースで、一定のランダム シードを使用したグループ シャッフル分割を採用して、トレーニング データとテスト データの両方に患者が存在しないこと、および実行全体で同じ患者がいずれかのデータセットの一部であることを確認しました。

各モデルの分類長を 2 ニューロンのサイズに設定し、CrossEntropy 損失を利用しました。 30 エポックにわたる 3e-4 から 1e-3 までの OneCycle 学習率スケジュールに関する Adam オプティマイザーを微調整に利用し、報告されたパフォーマンス メトリクスは、これらのエポック全体で達成された最高のパフォーマンスに対応しています。 しきい値に依存しない受信者動作特性曲線下面積 (AUROC) および精度再現率曲線下面積 (AUPRC) メトリクスを使用して、モデルのパフォーマンスを計算および比較しました。 曲線下の面積の 95% 信頼区間は、ブートストラップの 500 回の反復を通じて生成されました。

Wasserstein 距離 29 は、ある分布を別の分布に変換するのに必要なコストの指標です。 2 つの離散画像が与えられた場合、それらの間のワッサーシュタイン距離の大きさは、それらがどれだけ似ているかに正比例します。 事前トレーニング データと微調整データの間のワッサースタイン距離が大きいと、転移学習で次善の結果が得られる可能性があります。

ImageNet と ECG データセットの両方から、それぞれ 1000 枚の画像をランダムにサンプリングしました。 各コホート内のすべてのサンプルは 224 × 224 ピクセルにサイズ変更され、同じコホートの他のすべてのサンプルおよび他のコホートとペアリングされ、合計 3 つの組み合わせ (ECG vs ECG、ECG vs ImageNet、ImageNet vs ImageNet) が作成されました。 このような各操作により、合計 106 個のペアが生成されました。 ワッサースタイン距離は、結果として得られた画像のペアごとに計算され、コホートの組み合わせ全体で平均されました。

モデルの説明可能性は、Gradient-weighted Class Activation Mapping (GradCAM) ライブラリ 30 を使用して生成されました。 生成された属性は、入力のどの部分が予測に最も貢献したかを示すために、元の入力画像にオーバーレイとしてプロットされました。

すべての分析は、pandas、numpy、Python Image Library (PIL)、SciPy、scikit-learn、torchvision、timm、および PyTorch ライブラリを使用して実行されました。 プロットは、matplotlib および seaborn ライブラリを使用して実行されました。 すべてのコードは、Python プログラミング言語の 3.8.x バージョン用に、またそのバージョン内で書かれています。

研究デザインの詳細については、この記事にリンクされている Nature Research レポートの概要をご覧ください。

この研究で利用されたマウント・サイナイのデータは、患者のプライバシー上の懸念のため、一般には公開されていません。 PTB-XL データセットは、https://doi.org/10.13026/kfzx-aw45 からダウンロードできるように公開されています。 HeartBEiT モデルは、IRB が承認した Mount Sinai Intellectual Partners との契約に基づいて、他の研究者に公開される場合があります。

モデル作成コードはデータセット固有のものではなく、https://github.com/akhillvaid/HeartBEiT から入手できます。

Drazen, E.、Mann, N.、Borun, R.、Laks, M.、Bersen, A. 米国におけるコンピュータ支援心電図検査の調査。 J. 心電図。 21、S98–S104 (1988)。

論文 PubMed Google Scholar

Vaid、A. et al. 維持血液透析中の患者における心電図データを使用した左心室機能の自動判定。 クリン。 混雑する。 社会ネフロル。 17、1017–1025 (2022)。

論文 PubMed Google Scholar

Vaid、A. et al. 深層学習アルゴリズムを使用して、心電図から右心室機能不全と左心室機能不全を同時に特定します。 心臓血管。 イメージング 15、395–410 (2022)。

Google スカラー

Vaid、A. et al. 深層学習を心電図に適用して左心弁機能不全を特定する多施設の後ろ向きコホート研究。 共通。 医学。 3、24 (2023)。

記事 PubMed PubMed Central Google Scholar

Mincholé, A.、Camps, J.、Lyon, A.、Rodríguez, B. 心電図における機械学習。 J. 心電図。 57、S61–S64 (2019)。

記事 Google Scholar

アジズ、S.、アーメド、S.、アルイーニ、M.-S. 心拍分類のための ECG ベースの機械学習アルゴリズム。 科学。 議員第 11 号、18738 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

Hon, S.、Zhou, Y.、Shang, J.、Xiao, C. & Sun, J. 心電図データのディープラーニング手法の機会と課題: 系統的レビュー。 コンピュータバイオル。 医学。 122、103801 (2020)。

記事 Google Scholar

Geman, S.、Bienenstock, E.、Doursat, R. ニューラル ネットワークとバイアス/分散のジレンマ。 ニューラルコンピューティング。 4、1–58 (1992)。

記事 Google Scholar

アルズバイディ、L.ら。 深層学習のレビュー: 概念、CNN アーキテクチャ、課題、アプリケーション、将来の方向性。 J. ビッグデータ 8、53 (2021)。

記事 PubMed PubMed Central Google Scholar

Gu、J.ら。 畳み込みニューラル ネットワークの最近の進歩。 パターン認識。 77、354–377 (2018)。

記事 Google Scholar

Weimann、K. & Conrad、ECG 分類のための TOF 転移学習。 科学。 議員 11、5251 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

Weiss, K.、Khoshgoftaar, TM、Wang, D. 転移学習の調査。 J. ビッグデータ 3、9 (2016)。

記事 Google Scholar

デン、J.ら。 2009 年、コンピューター ビジョンとパターン認識に関する IEEE カンファレンス。 248–255 (いいえ)。

Gavrilov, AD、Jordache, A.、Vasdani, M. & Deng, J. 畳み込みニューラル ネットワークにおけるモデルの過学習と過小学習の防止。 内部。 J.Softw. 科学。 計算します。 知性。 (IJSSCI) 10, 19–28 (2018).

記事 Google Scholar

Vaswani、A. et al. 必要なのは注意力だけです。 神経情報処理システムの進歩 Vol. 30 (Guyon, I. 他編) (Curran Associates, Inc、2017)。 https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf。

カーン、S.ら。 ビジョン内のトランスフォーマー: 調査。 ACM コンピューティング サーベイ (CSUR) 54、1–41 (2022)。

ウルフ、T.ら。 自然言語処理における経験的手法に関する 2020 年カンファレンスの議事録: システムのデモンストレーション。 38~45。

Kalyan, KS、Rajasekharan, A. & Sangeetha, S. Ammus: 自然言語処理におけるトランスフォーマーベースの事前訓練済みモデルの調査。 https://arxiv.org/abs/2108.05542 (2021) でプレプリント。

Liu、Z.ら。 コンピューター ビジョンに関する IEEE/CVF 国際会議の議事録。 10012 ~ 10022。

Dosovitskiy、A. et al. 画像は 16x16 ワードの価値があります: 大規模な画像認識のためのトランスフォーマー。 プレプリントは https://arxiv.org/abs/2010.11929 (2020) にあります。

Bao, H.、Dong, L. & Wei, F. Beit: 画像変換器の Bert 事前トレーニング。 https://arxiv.org/abs/2106.08254 (2021) でプレプリント。

Raghu, M.、Unterthiner, T.、Kornblith, S.、Zhang, C. & Dosovitskiy, A. ビジョン トランスフォーマーは畳み込みニューラル ネットワークのように見えますか? 上級神経情報プロセス。 システム。 34、12116–12128 (2021)。

Google スカラー

Shahani, L. 肺塞栓症の早期診断につながる S1Q3T3 パターン。 BMJ 事件担当者 2012 https://doi.org/10.1136/bcr-2012-006569 (2012)。

Raudys、SJ & Jain、AK 統計的パターン認識における小さいサンプル サイズの影響: 実務者への推奨事項。 IEEEトランス。 パターンアナル。 マッハ。 知性。 13、252–264 (1991)。

記事 Google Scholar

Srivastava, N.、Hinton, G.、Krizhevsky, A.、Sutskever, I. & Salakhutdinov, R. Dropout: ニューラル ネットワークの過学習を防ぐ簡単な方法。 J.マッハ。 学ぶ。 解像度 15、1929 ~ 1958 年 (2014)。

Google スカラー

ボズクルト、B.ら。 心不全の普遍的定義と分類:米国心不全学会、欧州心臓病学会心不全協会、日本心不全学会、および心不全の世界的定義執筆委員会の報告書。 J.カード。 失敗。 27、387–413 (2021)。

記事 Google Scholar

Webster, JJ & Kit, C. COLING 1992 volume 4 にて: 計算言語学に関する第 14 回国際会議。

Ghazvininejad, M.、Levy, O.、Liu, Y. & Zettlemoyer, L. マスク予測: 条件付きマスク言語モデルの並列デコード。 2019 年自然言語処理における経験的手法に関する会議および第 9 回自然言語処理国際共同会議 (EMNLP-IJCNLP) 6112–6121 の議事録。 https://arxiv.org/abs/1904.09324 (計算言語学協会、香港、中国、2019)。

Rubner, Y.、Tomasi, C. & Guibas, LJ 画像検索の指標としてのアース ムーバーの距離。 内部。 J. コンピュータ視覚。 40、99–121 (2000)。

記事 Google Scholar

セルバラジュ、RR et al. コンピューター ビジョンに関する IEEE 国際会議の議事録。 618–626。

リファレンスをダウンロードする

この研究は、R01HL155915 およびインフラストラクチャに関する臨床および翻訳賞 UL1TR004419 の資金提供を受けました。 著者らは、この研究の基礎となるインフラストラクチャを実現してくれたマウント・サイナイのハイパフォーマンス・コンピューティング・グループの Wei Guo、Lili Gai、および Eugene Fluder に感謝したいと思います。

米国ニューヨーク州マウントサイナイのアイカーン医科大学チャールズ・ブロンフマン個別化医療研究所

アキル・ヴァイド、ジョイ・ジャン、アレクサンダー・チャーニー & ギリッシュ・N・ナドカルニ

米国ニューヨーク州マウントサイナイのアイカーン医科大学、マウントサイナイ臨床インテリジェンスセンター

アキル・ヴァイド、ジョイ・ジャン、ギリッシュ・N・ナドカルニ

米国ニューヨーク州マウントサイナイのアイカーン医科大学遺伝学およびゲノム科学科

アキル・ヴァイド, アレクサンダー・チャーニー, ベンジャミン・グリックスバーグ & ギリッシュ・N・ナドカルニ

米国ニューヨーク州マウントサイナイのハッソ・プラットナーデジタルヘルス研究所

アキル・ヴァイド、ベンジャミン・グリックスバーグ、ギリッシュ・N・ナドカルニ

米国ニューヨーク州マウントサイナイのアイカーン医科大学医学部

アシュウィン・サワント

米国ニューヨーク州マウント・サイナイのアイカーン医科大学、マウント・サイナイ・ハート

スタマティオス・レラキス、エドガー・アルグリアン、ジョシュア・ランパート、ジャガット・ナルーラ

米国ニューヨーク州マウントサイナイのアイカーン医科大学心臓病科

スタマティオス・レラキス、エドガー・アルグリアン、ジョシュア・ランパート、ジャガット・ナルーラ

医学部、NYU Langone Health、ニューヨーク州、ニューヨーク州、米国

ユリ・アフジャ

米国ニューヨーク州マウントサイナイのアイカーン医科大学精神医学ゲノミクスのパメラ・スクラー部門

アレクサンダー・チャーニー

米国ニューヨーク州マウントサイナイのアイカーン医科大学精神科

アレクサンダー・チャーニー

テルアビブ大学生物医工学部、テルアビブ、6997801、イスラエル

ハイット・グリーンスパン

米国ニューヨーク州マウントサイナイのアイカーン医科大学医学部腎臓内科

ギリッシュ・N・ナドカルニ

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

この研究は AV によって計画されました。 コードは AV によって書かれました。 基礎となるデータは AV によって収集、分析、視覚化されました。 原稿の初稿は AV と JJ によって書かれました。 GNN がプロジェクトを監督しました。 AV と GNN はデータにアクセスし、検証しました。 すべての著者がフィードバックを提供し、出版のための最終草案を承認しました。

アキル・ヴァイドへの通信。

Nadkarni 博士は、AstraZeneca、BioVie、GLG Consulting、Pensieve Health、Reata、Renalytix、Siemens Healthineers、および Variant Bio とのコンサルタント契約を報告しています。 Goldfinch Bio と Renalytix からの研究資金。 AstraZeneca、BioVie、Lexicon、第一三共、Meanrini Health、Reata からの謝金。 Renalytix との特許またはロイヤルティ。 科学共同創設者として Pensieve Health と Renalytix の株式とストックオプションを所有しています。 Verici Dx の株式を所有。 Renalytix の科学委員会メンバーおよびアドバイザーとして金銭的報酬を受け取っています。 Neurona Health の諮問委員会の委員を務めています。 また、Pensieve Health と Renalytix の顧問またはリーダーシップの役割を果たしています。 他のすべての著者は、この論文の内容に関して開示すべき関係はないと報告しています。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Vaid, A.、Jiang, J.、Sawant, A. 他基本的なビジョン トランスフォーマーにより、心電図の診断パフォーマンスが向上します。 npj 数字。 医学。 6、108(2023)。 https://doi.org/10.1038/s41746-023-00840-9

引用をダウンロード

受信日: 2023 年 1 月 13 日

受理日: 2023 年 5 月 5 日

公開日: 2023 年 6 月 6 日

DOI: https://doi.org/10.1038/s41746-023-00840-9

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供