第77回 午前 34

医療画像情報学

機械学習の多クラス分類モデルの評価指標でないのはどれか。

  1. F値
  2. 再現率
  3. 正解率
  4. 適合率
  5. 比例尺度

出典:厚生労働省公開PDF(令和7年版)


5.比例尺度


解説

✔ 多クラス分類モデルとは?

  • データを与えられた3つ以上のクラス(カテゴリ)のいずれかに分類するモデルです。
  • 例えば、脳のMRI画像から「正常」「脳梗塞」「脳腫瘍」のいずれかを判定する、といったタスクがこれにあたります。

✔ 分類モデルの主要な評価指標

これらの指標は、モデルの予測結果と実際の正解データを比較した混同行列(Confusion Matrix)を基に計算されます。

  • 正解率 (Accuracy):すべてのデータのうち、モデルが正しく分類できた割合。最も直感的ですが、各クラスのデータ数に不均衡があると、適切に性能を評価できない場合があります。
  • 適合率 (Precision):モデルが「クラスA」と予測したデータのうち、実際に「クラスA」であったものの割合。「予測の的確さ」を示します。
  • 再現率 (Recall):実際に「クラスA」であるデータのうち、モデルが「クラスA」と予測できたものの割合。「見逃しの少なさ」を示します。
  • F値 (F1-score) :適合率と再現率の調和平均。両者はトレードオフの関係にあることが多いため、このF値でバランスの取れた性能を評価します。

✔ 各選択肢について

1. F値

  • 正しい
  • 適合率と再現率のバランスを見る、分類モデルの重要な評価指標です。

2.再現率

  • 正しい
  • 実際の正例をどれだけ見逃さずに検出できたか。

3.正解率

  • 正しい
  • 全体に対する正解の割合

4.適合率

  • 正しい
  • モデルの予測のうち、どれだけが本当に正しかったか。

5.比例尺度

  • 誤り
  • 統計学で用いられる測定尺度の一種であり、機械学習モデルの性能評価指標ではありません。
  • 測定尺度には他に「名義尺度」「順序尺度」「間隔尺度」があり、比例尺度は身長や体重のように「0が絶対的な意味を持つ」量的データを指します。

出題者の“声”

この問題では、AI・機械学習の分野で頻出する「分類モデルの評価指標」と、それに無関係な用語を、明確に区別できるかを試したかったのじゃ。

正解率、適合率、再現率、F値。これらの言葉は、AIに関するニュースなどでもよく目にするじゃろう。しかし、それぞれの意味の違いを説明できなければ、真に理解したとは言えん。

そして、今回のひっかけは「比例尺度」じゃな。これも統計学では基本用語じゃが、“評価指標”という文脈には全く合わない。まさに「畑違い」の言葉じゃ。

多くの用語の中から、文脈に合った知識を的確に引き出す能力。これこそが、情報過多の現代において専門家として生き抜くために不可欠なスキルなんじゃ。

分野の違う用語を混ぜて知識の正確性を問うのは、国家試験の常套手段じゃ


臨床の“目”で読む

機械学習は、画像診断支援、病理診断、リスク予測モデル、自然言語処理(カルテ解析)機械学習(AI)を用いた画像診断支援システムなどが臨床導入される際、その性能を正しく理解することは極めて重要です。その「性能」を語る言葉が、まさに今回の評価指標です。

例えば、肺結節を検出するAIを考えると、

  • 再現率 (Recall) が高いモデル → 「見逃しが少ない」ことを意味します。偽陽性(がんでないものをがんと判定)が増える可能性はあっても、まずは疑わしい影をすべて拾い上げたいスクリーニング検査では、この指標が重視されます。
  • 適合率 (Precision) が高いモデル → 「AIが“陽性”と判定したときの、それが本当に陽性である確率が高い」ことを意味します。不要な精密検査や生検を避けるためには、この指標が重要になります。

再現率を上げれば適合率が下がり、適合率を上げれば再現率が下がるというトレードオフの関係を理解し、そのバランスを取ったF値で総合的に評価します。

私たち放射線技師がAIと協働する未来において、「このAIは正解率99%です」というメーカーの言葉を鵜呑みにするのではなく、「では、再現率と適合率はそれぞれ何%ですか?」と問いかけ、そのAIの長所と短所を理解できること。それが、AIを賢く「使いこなす」ための第一歩なのです。


キーワード

  • 多クラス分類モデル
  • 正解率(Accuracy)
  • 再現率(Recall)
  • 適合率(Precision)
  • F値(F1スコア)

コメント