機械学習アルゴリズムを用いた、脳梗塞患者における予後予測に関する、医療情報データベースの比較検討

2022年1月13日

■ 学会名:
第26回 日本薬剤疫学会学術総会

■ 発表者:
三浦 伸也¹

1. シミック株式会社 企画推進本部 HEOR・RWE部

■ 研究概要:
OBJECTIVES:
公的医療保険をベースとした、医療情報データベースは、これまで「健康保険」のデータの利活用が活発に行われてきたが、「国民健康保険」、「後期高齢者医療制度」のデータについても、民間企業において、利用が可能となってきている。本研究の目的は、DeSCヘルスケア株式会社が提供する複数の公的医療保険(健康保険(以下、健保)、国民健康保険(以下、国保)、後期高齢者医療制度(以下、後期高齢))の匿名化されたレセプトデータおよび健診データを用い、脳梗塞発症後の予後予測モデルを構築することにより、医療保険の種類によるデータベースの比較検討を行うことである。

METHODS:
本研究では、DeSCヘルスケア株式会社(https://desc-hc.co.jp/company)が提供する医療情報データベース(データ期間:2015年4月〜2020年11月)を用い、脳梗塞(ICD-10:I63)の確定診断がある症例を対象とした。脳梗塞の初回診断をindex date とし、診断後1年以内の「再入院」、診断後の「死亡」(国保、後期高齢のみ)をアウトカムとし、特徴量は、性別、年齢、リハビリに関する診療行為、処方薬、併存疾患、入院及び健診の有無を設定した。予測モデルの分析には、SUSMED株式会社が提供するAI(Awesome Intelligence)システムを用い、アルゴリズムはロジスティック回帰モデル、決定木モデル、xgboost、不均衡調整xgboostを使用した。特徴量選択として、初回の分析にて重要度が「0」となった特徴量を除外し、死亡においては、影響度が高い癌患者を対象集団から除外した。

RESULTS:
研究対象となった、再入院に関する脳梗塞発症患者は健保5,279名、国保15,165名、後期高齢25,934名であり、再入院はそれぞれ、153名、443名、668名であった。死亡に関する、脳梗塞発症患者は国保6,267名、後期高齢9,784名であり、死亡はそれぞれ、200名、1,887名であった。機械学習による正解率とAUCを表1に示す。

【表1:再入院】

機械学習アルゴリズム 再入院

【表1:死亡】
機械学習アルゴリズム 死亡

「再入院」に影響する特徴量は、ロジスティック回帰モデルにおいて、「脳梗塞診断時の入院」、「性別」、「健診の有無」が各データベースにおいて上位に認められたが、その他の特徴量に一貫した傾向は認められなかった。「死亡」アウトカムとした初回の分析では、「再入院」と同じ集団を対象にしたが、「死亡」に影響する特徴量の上位が、「癌」に関連する変数で占められた。そのため、「癌」以外の死亡に影響する因子を検討するため、癌の診断名、治療薬を有する症例を、対象集団から除外した。「死亡」に影響する特徴量に関して、「性別」、「J69:固形物及び液状物による肺臓炎」、「R13:えん<嚥>下障害」「F50:摂食障害」、「L89:じょく<褥>瘡性潰瘍及び圧迫領域」等が、「国保」、「後期高齢」の2つのデータベースで共通して認められた。「後期高齢」のみに認められた特徴量は「年齢」、「リウマチ関連の治療薬」、「健診の有無」である。

CONCLUSION:
複数の公的医療保険データベースを用い、機械学習アルゴリズムから、脳梗塞診断後の「再入院」及び「死亡」の予測モデルの構築を検討した。予測モデルのAUCは各データベースで0.7以上を示し、データベース間で大きな差は認められなかった。モデル間の比較では、ロジスティック回帰とxgboost、不均衡調整xgboostが高いAUCを示した。「再入院」に影響する特徴量は、「脳梗塞診断時の入院」、「性別」、「健診の有無」以外は、データベース間で一貫した傾向は認められなかった。一方、「死亡」においては、嚥下、摂食、褥瘡等、患者の状態を示す因子が共通していた。これらのことから、
予測モデル構築において、データベース間で予測精度に大きな違いは認められないが、アウトカムに影響する特徴量は、各データベースにより異なり、それぞれの集団の特性をよく理解したうえで、特徴量選択を行うことが必要である。

【キーワード】
機械学習、国民健康保険、後期高齢者医療制度