ハンバーガーメニュー

AI評価指標とは丨プロダクトマネージャー用語集

最終更新日:

2025年5月8日

ライター:

PM Career編集部

プロダクト開発

AI評価指標とは丨プロダクトマネージャー用語集のサムネイル

この記事の監修者

佐々木真
PM Career事業責任者(Xアカウント @shin_sasaki19
株式会社リクルートにて「スタディサプリ」の初期メンバーとして事業開発・プロダクトマネージャー業を担当し全国展開を達成後、SmartHRのグループ会社としてToB向けSaaS「SmartMeeting」を立ち上げ2021年3月に退任。その後PMオンラインスクール「PM School」、プロダクト開発人材の転職サイト「PM Career」の事業を運営中。プロダクト開発の知見・人材の流動性を高め、日本のプロダクト作りをぶち上げるべく尽力中。個人としてもX(Twitter)アカウントのフォロワーは3万人超え、YouTubeやPodcastでもプロダクト開発のコンテンツを発信する日本で最も有名なプロダクト開発者の1人。

線の装飾画像

今すぐ転職をしたい人も、中長期的にしたい方も、PM Careerに無料会員登録をしておくことでキャリアに役立つ情報を定期的にキャッチアップすることが重要です。まだ登録されてない方はこちらからどうぞ。3分で完了します。

PM Careerに無料会員登録する

プロダクトマネージャー転職についての情報はこちらをご覧ください!

線の装飾画像

AI評価指標の定義

AI評価指標とは、モデルがタスクをどの程度うまく遂行しているかを 定量的に測るメジャー の総称です。分類・回帰・ランキング・生成・LLM能力・公平性・効率などタスク特性ごとに設計され、実務では「ビジネスゴール ↔ 評価指標 ↔ モデル改善」を結ぶ羅針盤となります。

AI評価指標の重要性/目的

効果

説明

代表 KPI

性能の客観比較

アルゴリズムやハードウェアを横断して優劣を定量化

BLEU・MMLU など最新ベンチで毎年 10〜60 pt 改善が観測(Home | Stanford HAI)

ビジネス価値の可視化

“指標=価値ドライバ” を定義して ROI を測定

CS一次解決率、クリック率 など

品質とリスク管理

ハルシネーション率や公平性指標で負の影響を早期検知

インシデント件数 ▼

ガバナンスと規制対応

NIST・EU AI Act に求められる性能/公平性証跡を提供

FNMR・Equalized Odds など(NIST Pages, ウィキペディア)

AI評価指標の主なカテゴリと代表指標

カテゴリ

主タスク

代表指標

要点

分類

2値/多クラス

Accuracy, Precision, Recall, F1, ROC-AUC

不均衡データでは F1 や ROC-AUC を優先(Google for Developers)

回帰

連続値予測

MAE, RMSE, R²

ビジネス損失に近い単位で選択

ランキング/検索

推薦・検索

NDCG, MAP, MRR

上位 N 件への重み付けが鍵

生成(テキスト)

翻訳・要約

BLEU, ROUGE, METEOR, BERTScore

人手評価との相関が課題(ウィキペディア)

生成(画像・映像)

生成・拡散

FID, CLIPScore, KID

低値ほどリアル/多様

LLM能力

多タスク

MMLU, GPQA, SWE-bench, GSM8K

年次ベンチで急伸(Home | Stanford HAI)

公平性

バイアス検証

Demographic Parity, Equalized Odds, Calibration

法規制で必須(ウィキペディア, ウィキペディア)

認証/バイオメトリクス

顔認証等

FNMR @ FMR, DET 曲線

NIST FRVT が事実上標準(NIST Pages)

効率

運用

推論レイテンシ, TCO, Energy/Token

“性能 ↔ コスト” 最適化に不可欠

AI評価指標の実務例:カスタマーサポートLLMボットの多面的評価

視点

指標

目標値

測定方法

生成品質

BLEU ≥ 0.35・BERTScore ≥ 0.9

人間回答との類似度

週次バッチ

ビジネス効用

一次解決率 ≥ 85 %

Zendesk チケット統計

リアルタイム

安全性

ハルシネーション率 ≤ 5 %

GPT-4 評定+RAG 一致率

デプロイ直後・月次

公平性

Equalized Odds Δ ≤ 2 %

性別・年齢別に計算

四半期

効率

P95 レイテンシ ≤ 1 s/req

APM監視

常時

ポイント

  • 指標は複数レイヤで管理(ユーザー体験/アルゴリズム/インフラ)。
  • ガバナンス報告には モデルカード + データシート で根拠を添付。
  • 指標間トレードオフ(例:品質↑でレイテンシ↑)をロードマップに明記。

⑤ 関連用語

プロダクトマネージャー用語集

⑥ 外部参考リソース

種類

出典

分類指標

Google ML Crash Course「Accuracy / Precision / Recall」(Google for Developers)

生成指標

Wikipedia「BLEU」(ウィキペディア)

ベンチマーク動向

Stanford HAI「AI Index 2025」(Home | Stanford HAI)

生体認証評価

NIST FRVT 指標ガイド(NIST Pages)

公平性指標

Wikipedia「Fairness (machine learning)」(ウィキペディア)

厳選されたプロダクト開発企業
一流プロダクト開発人材の出会い

チームをイメージした画像

関連する記事

  1. トップページ
  2. お役立ち情報
  3. プロダクト開発
  4. AI評価指標とは丨プロダクトマネージャー用語集