臨床診断支援AIの歴史から症状チェッカーの今後を展望する―エキスパートシステムから大規模言語モデルまで
Ubie Discovery で機械学習エンジニアをしている @hagino3000 です。医療用AIの歴史および動向をキャッチアップするために調査した内容をまとめました。特に画像を入力として診断支援を行なうAIと比較して、自然言語で表現された自覚症状などを入力とするものを構築する上での課題に焦点をあてています。
Keywords: コンピューター支援診断システム(Computer Aided Diagnosis: CAD), Medical Diagnostic Systems, 症状チェッカー(Symptom Checker), 機械学習(ML), 自然言語処理(NLP)
背景
現在、医療用AIが最も成功を収めている領域は画像診断です。X線・内視鏡・皮膚腫瘍と様々な画像に適用されており、その診断性能が専門医を越えたとの報告もあります ([1], [2])。2018年にはAIが糖尿病網膜症の画像診断を行なうプログラム機器 IDx-DR が米国の規制機関であるFDAに販売を許可されました [1]。IDx-DR は臨床医が画像や結果を解釈することなくスクリーニング判定を行う機器で、診断支援ではなく診断そのものを行ないます。これらの発展は2012年に畳み込みニューラルネットワーク(CNN)を用いたモデルAlexNetが画像認識の分野で成功し、予測精度の飛躍的向上をもたらしたのがきっかけです。
一方で自然言語で表現された自覚症状や病歴を入力とする内科的診断の分野はまだまだ発展途上とされます。特定の疾患の有無について判定を行なうものから、診療科を限定せず幅広い範囲の疾患を予測対象とするシステムまであり、後者は症状チェッカーと呼ばれる形態のサービスが普及しています。
症状チェッカーは最初にユーザーが自覚症状を入力し、続いて対話エージェントによる症状聴取フェーズを経て結果が表示されるものが一般的です。臨床医向けのサービスは Isabel、生活者向けのアプリケーションは Ada などが有名です。しかし2020年に欧米5カ国で利用可能な12の生活者向け症状チェッカーを対象にした調査 [3] では、予測された上位5つの疾患に正解が含まれたケースは51%と高くはなく[2]、アプリケーションによって性能に大きな差があることもわかりました。
mymediktorの画面
筆者の腹痛に関する症状を入力していった画面
ここで一つの疑問が生じます、画像診断AIと内科的診断AIの性能の違いはどこから来ているのか、後者は何かしらの予測精度を上げづらい要因が存在するのかという点です。本稿の残りは臨床診断支援システム研究の歴史からヒントを探りつつ、症状チェッカーの今後を展望していきます。
AIによる診断の可能性を示したMYCIN
初期の診断支援AIで有名なのが1970年代初頭に開発された MYCIN [4]です。MYCIN は細菌感染の専門家が作成した500から600のルールから成る知識ベースに基づいて動作するエキスパートシステムです。細菌感染が疑われる患者に関する情報を医師と対話して集め、診断と治療方の提案を行ないます。医師はMYCINの診断結果について根拠が知りたければ質問ができ「連鎖球菌の可能性を排除したのは何故?」などと今で言えば ChatGPT のプロンプトのように対話ができました。以下にMYCINと医師のやりとりを引用します。可能性のある細菌4種(トップが大腸菌)と処方すべき抗菌薬と投与量が出力されているのがわかります。
[患者のバックグラウンドについて質問]
1) Patient’sname: (first-last)
** Fred Brauna [←医師の入力]
2) Sex:
** M
3) Age:
** 55
(中略)
[患者の症状などについて質問]
24) Is Fred Brauna burnpatient?
** N
25) Is Fred Brauna compromised host (e.g. alcoholic, sickle-cell-disease, immunosuppressed)?
** N
(中略)
[MYCINの診断結果]
INFECTION-1 is BACTEREMIA
<ITEM-l> E.COLI [ORGANISM-I]
<ITEM-2> KLEBSIELLA [ORGANISM-I]
<ITEM-3> ENTEROBACTER [ORGANISM-I]
<ITEM-4> KLEBSIELLA-PNEUMONIAE [ORGANISM-I]
[REC-t] My preferred therapy recommendations as follows:
In order to cover for items <1 2 3 4>:
Give: GENTAMICIN (One drug covers 4 possible identities.)
Dose: 119 mg (6.0 ml) q8h IV for 10 days [calculated on basis 1.7 mg/kg]
Comments: Modify dose in renal failure.
MYCINの診断結果に対して医師が説明を求めたときのやりとりは次の通りで、判断の根拠が明示されています。
[医師の質問入力]
** WHY DID YOU RULE OUT STREPTOCOCCUS AS A POSSIBILITY FORORGANISM-l?
[MYCINの回答]
RULE033 could have been used to determin that the identity of ORGANISM-1 is
streptococcus. However, clause 2 of RULE033 ["the morphology of the
organismis coccus"] was already known to be false for ORGANISM-I, so the rule was never tried.
(中略)
[診断に適用されたルールの参照]
RULE 156
IF:
1) The site of the cultureis blood, and
2) The gramstain of the organism is gramneg, and
3) The morphology of the organism is rod, and
4) The portal of entry of the organism is urine, and
5) The patient has not had a genito-urinary manipulative procedure, and
6) Cystitis is not a problemfor which the patient has been treated
THEN:
There is suggestive evidence (.6) that the identity of the organism is e.coli
性能評価試験の結果、MYCINの提案する処置は75%の症例についてほとんどの専門家の同意を得ました。75%は目指すべき性能よりも随分低いと研究者は最初考えましたが、MYCINと感染症の教員の回答を盲検化して専門家に評価させたところ感染症の教員の回答でもせいぜい70〜80%しか専門家の同意を得られないとわかります。しかも10%の症例については専門家の意見が分かれたため、評価可能な性能上限は90%と考えるとなかなか良い性能ではないでしょうか。
MYCINは実際に利用されることはありませんでしたが、多くの研究成果を残しています。第2次AIブームで多くのエキスパートシステムが作られましたが、人間が手動で作成したルールを元に動作するエキスパートシステムはルール作成コストが非常に高いことなどを理由にその後下火になります。
データからの知識獲得と臨床診断AIに求められる要件
1979年にテーブルデータから決定木を生成する有名なアルゴリズムID3が発表されます。この頃から専門家が作成した知識ベースの代りに、データから自動で獲得した知識を元に推論を行なうアプローチが盛んになります。専門家や専門文献から知識を抽出するのが困難なのに対して、既に専門家が問題を解決した記録があれば容易に知識が獲得できるという訳です。決定木、ニューラルネット、k近傍法、ナイーブベイズなど様々な機械学習アルゴリズムが臨床診断タスクに応用されます。ルールベースから統計的機械学習へ、演繹から帰納による推論へトレンドが移り変わったのです。
エキスパートシステムでは明快に得られた判断の根拠が見えづらくなったのもあり、この時点で機械学習によるシステムが広く医師に受け入れられることはありませんでした [5]。しかしそれにより臨床診断タスクに関わる機械学習システムが満たすべき要件が整理されます [6]。
- 医師の分類精度をベースラインとしてそれを上まわること
- 学習データの欠損値やノイズにロバストであること
- 診断の元になった知識にアクセスできること
- 生成された知識や判断の根拠を医師に説明でき、医師の理解の助けとなること
- 信頼できる診断を得るための検査回数を減らすアルゴリズムであること
これらの要件は20年以上経った今でも変わらないでしょう。日本ではAIを用いた診断・治療支援を行うプログラムを利用して診療を行う場合についても、診断・治療等を行う主体は医師であり最終決定の責任を負うとされました [7]。また米国をはじめとして過剰な検査による医療費の増大が問題になっており [8]、医療リソースをどれだけ節約できるか(トリアージ)の観点でもAIが評価されます。
データセット構築の課題
次は機械学習で必要となるラベル付きデータセットについてです。
研究で利用されたデータ
2013年から2016年の間に発表された医療用AIの研究論文を対象にしたレビュー [9] によると、入力データの種類で突出して多かったのは画像です。それに続くのがゲノミクスデータでした。画像データは医療現場で大量に取得されており、比較的標準的な方法で処理できるのに対して電子カルテに記載される非構造化テキストデータの扱いの難しさが指摘されています。
希少疾患の分野に機械学習を適用した研究を対象にしたレビュー [10] でも入力データの上位は画像、オミックス(ゲノムを含む)、デモグラフィック情報、検査値データと計算機プログラムで扱いやすいものが上位を占めました。問診結果や文献といったテキストを扱う研究はごくわずかで、医療記録の非構造化データが標準化されていないことが機械学習の適用の障壁になっていると説明されています。またそれらのテキストデータを活用するためには疾患・症状の標準語彙である臨床医学オントロジーが重要な役割を果たすとあります。検査値や画像といった生データと比較して診断名などの自然言語で記述された医療データは全て人間の主観を通して生成されたものであるため、100%は信用できないもの、という扱いづらさもあります。
希少疾患の領域に機械学習を適用した論文の入力データタイプごとの出版数 [10] より
非構造化テキストと臨床医学オントロジー
電子カルテに記載される診療録テキストの内容は次の通りです。
- 患者の基本情報
- 年齢、性別
- 既往歴、家族歴、飲酒・喫煙歴、アレルギー、服薬歴など
- 現在の症状
- 最も訴えたい症状 (主訴)
- 受診に至った経緯の時系列 (現病歴)
- 身体所見
- 検査結果
- 診断
- 治療方針
内科診断の教科書 [11] から一つ引用すると
79歳 女性
現病歴: 2日前、夜間に台所に立ち上がった際に胸痛を自覚した。それ以降、動くたびに胸痛を感じていたため、座ってゆっくり過ごしていた。本日、病院受診しようと歩いたときに呼吸困難が出現し、タクシーで救急外来を受診した。
既往歴: 十数年前から高血圧症。十数年前から脂質異常症。脳梗塞を3年前に発症したが、後遺症はなし。
身体所見: 身長163cm、体重69.5kg、体温35.7℃、脈拍67回/分(整)、血圧96/61mmHg、呼吸数16回/分、SpO2 85%(室内気)。眼瞼結膜に貧血所見は認めない。肺野では呼吸音清明、Ⅱ音分裂、Ⅲ音を聴取する。下腿浮腫は軽度。
内服薬: ニフェジピン、アスピリン、バルサルタン、フェノフィブラート、ビソプロロール、ゾルピデム。
これらが非構造化テキストなのは、疾患や症状名が計算機で扱えるコードになっていないからです。非構造化テキストを計算機で扱える状態に変換するのは自然言語処理(NLP)で、診療録を扱うには医療テキストに特化した言語処理ツールが必要になります。同時に固有表現を抽出した後のマッピング先の整備も必要になります。
オントロジーはある分野における概念や用語、それらの関係性を定義しその情報を構造化して表現する方法です。臨床医学オントロジーにより症状・疾患・人体構造の階層関係を利用した、より知的なテキスト処理が可能になります [12]。例えば「発作」は「神経系の機能異常」の一部であること、「浮腫」と「むくみ」は同一の症状、「皮膚硬化症」と「強皮症」は同一の疾患であるといった知識が利用できます。よく利用されるものはWHOが提供している国際的な疾病分類体系であるICD-10や国際医療用語集であるSNOMED-CT [13]、希少疾患の分野ではHPOがあります [24]。
診療録のテキストは冒頭に挙げた「自然言語で表現された自覚症状などを入力として診断を行なうAI」の学習データに相当するものですが、取り扱いのために自然言語処理と臨床医学オントロジーの発展が不可欠の様です。
データプライバシー
プライバシーの観点でも画像と診療録テキストには大きな違いがあります。内視鏡やX線の個々の画像は相当稀な疾患でもなければ個人を特定できないのに対して、現病歴などの一連のテキストは個人が特定しやすいデータです。どちらも日本の現行法において要配慮個人情報となり医療機関の外で学習データとして利用するには本人の同意か匿名加工が必要になります。しかし比較すると元々匿名性の高い画像の方が匿名加工は容易と言えます [14]。
プライバシーの問題を回避しつつデータセットを構築する方法として臨床ビネット(Clinical Vignettes)があります。臨床ビネットは架空の患者像を想定して病歴を作り込む手法です。症状チェッカーのレビュー研究 [3] では評価のため60の臨床ビネットを作成したとありますが、専門家による相互レビューを行なっており作成コストが非常に高いのがわかります。
リアルワールドデータ(RWD)とデータの信頼性
レセプトデータ(診療報酬明細書)は医療機関が患者に対して行った医療行為と病名が含まれており、JMDC Claims Databaseなど大規模なデータセットが構築されています。病名はICD-10コード化されており、素人目には利用しやすく見えます。ただしデータ上の病名は保険料請求のための病名であり実際の臨床診断と一致していない問題があります [15]。レセプトデータに限らず、RWDを利用する前にデータセットの信頼性を評価する必要があるのです。
データセットの信頼性を評価するのがバリデーション研究(Validation Study)です。しかし病名の信頼性を評価するにはゴールドスタンダードに相当するデータが必要になりますが、獲得が難しくレセプトデータのバリデーション研究に関する報告書 [16] を読むと実施自体が困難なのもわかります。
最も信頼できるカルテそのものについては電子カルテの普及により電子化されたものの、医療機関単位で診療録を管理するという紙時代のスタイルを踏襲したまま医療機関のIT化が進んだためデータセット化が進んでいません。診療録の外部保存は認められたものの、流通は考慮されてこなかったのです [17]。しかしこの状態は医療情報の活用の妨げになっているため [3]、電子カルテの標準化や医療情報プラットフォームの構築が政府主導で進められています [18]。
近年の問診AIアルゴリズム研究
初期の診断AI、MYCINでみたようにユーザーとやりとりをして情報を集めた後に診断を行なうシステムの近年の研究を調べました。
医師の診断推論プロセス
医師の診断推論のプロセスは直観的思考(System 1)と分析的思考(System 2)の2つが相補的・協働的に作動するという二重プロセスモデルで説明されます。直観的思考はそれまでの経験に基づく直観的なひらめきによる診断、分析的思考は網羅的で論理的な診断プロセスです [19] 。System 2で用いられる形式はフローチャート、決定木、ベイズの定理、チェックリストなどで計算機プログラムと相性が良いのもあり、問診AIはSystem 2に近い動作をするものが多い様です。また見逃すべきでない疾患の見落としが防げるSystem 2の特徴は医師の診断をサポートするという位置付けにもマッチしています。
対話エージェント
ユーザーと対話をして主訴・現病歴に関する情報を集める機能はタスク指向型対話システム(task-oriented dialogue system)として研究されています。Wei ら [20] は症状の有無についての質問を含む対話の状態をマルコフ決定過程(MDP)で定式化し、次にどの症状について問いあわせるかの意思決定方策をDQN(Deep Q-Network)で学習しました。Linら [21] はこれを発展させ、対話管理に医学知識を組みこみ医学知識に基づく質問選定を統合しています。
症状質問選定に医学知識を統合したLinら [21] の対話管理構成図
対話であらゆる症状の有無について情報を集めれば診断の正確性は高まります。しかしそれは無駄が多く、問いあわせの過程でユーザーが我慢できなくなるリスクも同時に高まります。Weijie [22]らはこの問題に取りくみ、高い診断精度を維持したまま質問数を減らす工夫を提案しています。具体的にはActor-Critic強化学習で対話エージェントを学習し、次に質問する症状の決定に「観測された症状と未観測の症状の間の条件付き確率」をVAE (Variational Autoencoder) で生成して利用しています。
Weijieら [22] の対話エージェントの概観
ランキング学習による病気予測
症状の有無や既往歴などの情報を入力として可能性のある疾患を列挙するのはランキング学習として定式化されます。ランキング学習は確定疾患と同様の臨床的特徴を示す疾患を列挙する医師の鑑別診断プロセスを補助する上で有効とされます [25] 。ランキング学習で最もシンプルなのはPointwise法です。Pointwise法では疾患ごとにスコアリングを行ないスコア上位からn件を列挙します。宮地ら [25] は経験のある医師の思考プロセスを参考にしてListwise法を採用したシステムを開発しました。Listwise法を採用するためにデータセットの正解ラベルとして確定診断と複数の鑑別診断の双方を付与しています。
PubCaseFinderは入力された複数の症状を元に可能性の高い順に希少・遺伝性疾患をランキング提示するシステムです [23]。これは複数の臨床医療オントロジーに基づいた症状の集合と疾患の間のセマンティックな類似度計算により実現されています [24]。なお難病(希少・遺伝性疾患)は数にして6,000以上ありますが、それぞれの患者の数が少ないため一人の医療従事者が十分な診断経験を積むことができません。そのため診断支援システムによるサポートが有効な手だてになると考えられています。
データセット
2021年に開催された問診システムの開発コンペ [4] のデータセットをみると問診セッション数が2,374、症状の種類が118、疾患の種類が12しかなく非常に小さいのがわかります。症状の集合と確定した診断がペアになっている大規模なデータセットは見つかりませんでした。代わりに臨床医学オントロジーの症状と疾患のリレーションを元に人工的なデータセットを生成している例 [22] や症例報告論文などの文献をテキストマイニングしてデータセットを構築して評価・学習に利用している例があります ([24], [25])。先に調べた通り、信頼できる大規模なRWDが存在しないため、今後もこの状況は続くでしょう。
大規模言語モデルによる生成
この記事を書いている間に「ChatGPTによる診断性能がTop-3 Accuracy 87%で、既存の症状チェッカーの51%を上まわった」とのレポート [26] が公開されたので無視するわけにもいかなくなりました。おそらく2023年は様々なサービスが登場してくることが想像できますが一つ紹介するとGlass AIは教育用という位置付けで、症例を自然言語テキストで入力すると理由付きで鑑別疾患リストと臨床計画を出力することができます。
大規模言語モデル(LLM)を利用したアプローチによりチャットボット形式の医療診断AIの性能にブレイクスルーが起きるのか、目が離せない状況がしばらく続きそうです。
まとめと今後の展望
医療診断を行なうAIを1970年代からふりかえりました。医療用AIのトレンドは人間の専門家が作成した知識ベースを元に推論を行なうエキスパートシステムから機械学習へと移り変わりました。エキスパートシステムに備わっていた予測の説明性が機械学習では欠如するなど、新たな課題は生まれましたがゴールドスタンダードが多く手に入る画像診断AIの性能はCNNの成功と共に大きく向上しました。
一方で自然言語で表現された症例を入力とするAIは標準化されたデータセットの不在およびNLPの発展と医学知識ベース(オントロジー)の整備を待つ必要があったため、画像診断AIと比較して性能向上は遅れています。電子カルテの標準化など医療機関を横断した取り組みは存在するものの、信頼できるリアルワールドのゴールドスタンダードが大量に手に入ることはしばらく無さそうです。しかし2023年、LLMによるブレイクスルーの気配が非常に高まっています。なにより医学分野は診療ガイドラインや教科書・研究論文といった疾患の機序の説明を含む自然言語テキストリソースが豊富に存在します。これら専門家に記述された知識を元にした推論が可能になれば説明性の問題は解決され、より正確な診断が可能になると予想できます。
個人的には知識ベースと推論エンジンが分離していたエキスパートシステムのアーキテクチャはMLシステムの運用面では理があると感じました。例えばNLPで医学文献を元に知識ベースを構築し、知識ベースを利用する推論エンジンは疎結合なコンポーネントとして別に存在すると開発体験が良さそうです。また論理推論やルールベースのシステムで見られた手法(記号学習)と帰納推論を組み合わせた手法に注目していきたいです。
採用情報
一緒にやっていきましょう。
参考文献
[1] Haenssle, H. A., et al. “Man against Machine: Diagnostic Performance of a Deep Learning Convolutional Neural Network for Dermoscopic Melanoma Recognition in Comparison to 58 Dermatologists.” Annals of Oncology, vol. 29, no. 8, Aug. 2018, pp. 1836–42. www.annalsofoncology.org, https://doi.org/10.1093/annonc/mdy166.
[2] B, Ehteshami Bejnordi, et al. “Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer.” JAMA, vol. 318, no. 22, Dec. 2017, pp. 2199–210, https://doi.org/10.1001/jama.2017.14585.
[3] Ceney, Adam, et al. “Accuracy of Online Symptom Checkers and the Potential Impact on Service Utilisation.” MedRxiv, July 2020, https://doi.org/10.1101/2020.07.07.20147975.
[4] Buchanan, Bruce G., and Edward H. Shortliffe. Rule Based Expert Systems: The Mycin Experiments of the Stanford Heuristic Programming Project (The Addison-Wesley Series in Artificial Intelligence). June 1984, https://people.dbmi.columbia.edu/~ehs7001/Buchanan-Shortliffe-1984/MYCIN Book.htm.
[5] Kononenko, Igor. “INDUCTIVE AND BAYESIAN LEARNING IN MEDICAL DIAGNOSIS.” Applied Artificial Intelligence, vol. 7, no. 4, Oct. 1993, pp. 317–37, https://doi.org/10.1080/08839519308949993.
[6] Kononenko, Igor. “Machine Learning for Medical Diagnosis: History, State of the Art and Perspective.” Artificial Intelligence in Medicine, vol. 23, no. 1, Aug. 2001, pp. 89–109, https://doi.org/10.1016/s0933-3657(01)00077-x.
[7] 人工知能(AI)を用いた診断,治療等の支援を行うプログラムの利用と医師法第17条の規定との関係について(医政医発 1219 第 1 号), Dec. 2018, https://www.mhlw.go.jp/content/10601000/000468150.pdf
[8] Topol, E. J., 中村祐輔, & 柴田裕之. (2020). ディープメディスン : AIで思いやりのある医療を! NTT出版.
[9] Jiang, Fei, et al. “Artificial Intelligence in Healthcare: Past, Present and Future.” Stroke and Vascular Neurology, vol. 2, no. 4, Dec. 2017, pp. 230–43, https://doi.org/10.1136/svn-2017-000101.
[10] Schaefer, Julia, et al. “The Use of Machine Learning in Rare Diseases: A Scoping Review.” Orphanet Journal of Rare Diseases, vol. 15, no. 1, June 2020, pp. 1–10, https://doi.org/10.1186/s13023-020-01424-6.
[11] 福井 次矢, and 奈良 信雄. “内科診断学 第3版” 医学書院, 2015
[12] 古崎晃司, et al. "臨床医学オントロジーの構築とその基本思想." 人工知能学会第二種研究会資料 2008.SWO-019 (2008): 09.
[13] 藤田伸輔, and 今井健. "SNOMED-CT と ICD-11 に見る医学・医療分野の Ready to Use Ontology (< 特集> オントロジーの進化と普及 (後編))." 人工知能 25.4 (2010): 501-508.
[14] 上田智. "画像医療システムにおける匿名化への取り組みについて." 日本放射線技術学会雑誌 75.9 (2019): 1109-1111.
[15] 後藤匡啓, and 長谷川耕平. "僕らはまだ、臨床研究論文の本当の読み方を知らない。 : 論文をどう読んでどう考えるか" 羊土社, 2021
[16] 岩上将夫, et al. "⌈ 日本における傷病名を中心とするレセプト情報から得られる指標のバリデーションに関するタスクフォース⌋ 報告書." 薬剤疫学 23.2 (2018): 95-123.
[17] 診療録等の保存を行う場所について (医政発第0329003号・保発第0329001号, 厚生労働省医政局長・保険局長通知), 2002, https://www.mhlw.go.jp/web/t_doc?dataId=00ta6739&dataType=1
[18] 厚生労働省 - データヘルス改革推進本部 https://www.mhlw.go.jp/stf/shingi/other-jyouhouseisaku_408412.html
[19] 志水太郎. "診断戦略: 診断力向上のためのアートとサイエンス." 医学書院, 2014.
[20] Wei, Zhongyu, et al. "Task-oriented dialogue system for automatic diagnosis." Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2018.
[21] Xu, Lin, et al. "End-to-end knowledge-routed relational dialogue system for automatic diagnosis." Proceedings of the AAAI conference on artificial intelligence
. Vol. 33. No. 01. 2019.
[22] He, Weijie, and Ting Chen. "Scalable Online Disease Diagnosis via Multi-Model-Fused Actor-Critic Reinforcement Learning." Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2022.
[23] Fujiwara, T., Yamamoto, Y., Kim, J. D., Buske, O., & Takagi, T. (2018). PubCaseFinder: A case-report-based, phenotype-driven differential-diagnosis system for rare diseases. The American Journal of Human Genetics, 103(3), 389-399.
[24] 藤原豊史, and 仁宮洸太. "オントロジーを用いた希少・遺伝性疾患診断支援." 人工知能 35.4 (2020): 480-486.
[25] Miyachi, Yasuhiko, Osamu Ishii, and Keijiro Torigoe. "Design, implementation, and evaluation of the computer-aided clinical decision support system based on learning-to-rank: collaboration between physicians and machine learning in the differential diagnosis process." BMC Medical Informatics and Decision Making 23.1 (2023): 26.
[26] ChatGPT-Assisted Diagnosis: Is the Future Suddenly Here? - STAT. https://www.statnews.com/2023/02/13/chatgpt-assisted-diagnosis/. Accessed 14 Mar. 2023.
-
FDA permits marketing of artificial intelligence-based device to detect certain diabetes-related eye problems https://www.fda.gov/news-events/press-announcements/fda-permits-marketing-artificial-intelligence-based-device-detect-certain-diabetes-related-eye ↩︎
-
Abstractに51%とあったのでその値を引用したが複数の症状チェッカーを横断した平均値なので、個別のアプリごとに見ると精度の高いものから低いものまであったという結果。どちらかと言えばユーザーは利用している症状チェッカーの精度が低いのか高いのかわからないのが問題であるという論調に読めた。 ↩︎
-
例えば本人の意思で医療に関する記録が引き出せなかったり、カルテの保存期間が5年なのでそれを過ぎたり医療機関が廃業すると破棄されてしまう。 ↩︎
-
ICLR 2021 Workshop: Machine Learning for Preventing and Combating PandemicsのTRACK2 Dialogue system for medical diagnosis https://mlpcp21.github.io/pages/challenge.html ↩︎
Discussion