AI評価指標とは丨プロダクトマネージャー用語集
最終更新日:
2025年5月8日
ライター:
PM Career編集部
プロダクト開発

この記事の監修者
佐々木真
PM Career事業責任者(Xアカウント @shin_sasaki19)
株式会社リクルートにて「スタディサプリ」の初期メンバーとして事業開発・プロダクトマネージャー業を担当し全国展開を達成後、SmartHRのグループ会社としてToB向けSaaS「SmartMeeting」を立ち上げ2021年3月に退任。その後PMオンラインスクール「PM School」、プロダクト開発人材の転職サイト「PM Career」の事業を運営中。プロダクト開発の知見・人材の流動性を高め、日本のプロダクト作りをぶち上げるべく尽力中。個人としてもX(Twitter)アカウントのフォロワーは3万人超え、YouTubeやPodcastでもプロダクト開発のコンテンツを発信する日本で最も有名なプロダクト開発者の1人。
今すぐ転職をしたい人も、中長期的にしたい方も、PM Careerに無料会員登録をしておくことでキャリアに役立つ情報を定期的にキャッチアップすることが重要です。まだ登録されてない方はこちらからどうぞ。3分で完了します。
プロダクトマネージャー転職についての情報はこちらをご覧ください!
① AI評価指標の定義
AI評価指標とは、モデルがタスクをどの程度うまく遂行しているかを 定量的に測るメジャー の総称です。分類・回帰・ランキング・生成・LLM能力・公平性・効率などタスク特性ごとに設計され、実務では「ビジネスゴール ↔ 評価指標 ↔ モデル改善」を結ぶ羅針盤となります。
② AI評価指標の重要性/目的
効果 | 説明 | 代表 KPI |
---|---|---|
性能の客観比較 | アルゴリズムやハードウェアを横断して優劣を定量化 | BLEU・MMLU など最新ベンチで毎年 10〜60 pt 改善が観測(Home | Stanford HAI) |
ビジネス価値の可視化 | “指標=価値ドライバ” を定義して ROI を測定 | CS一次解決率、クリック率 など |
品質とリスク管理 | ハルシネーション率や公平性指標で負の影響を早期検知 | インシデント件数 ▼ |
ガバナンスと規制対応 | NIST・EU AI Act に求められる性能/公平性証跡を提供 | FNMR・Equalized Odds など(NIST Pages, ウィキペディア) |
③ AI評価指標の主なカテゴリと代表指標
カテゴリ | 主タスク | 代表指標 | 要点 |
---|---|---|---|
分類 | 2値/多クラス | Accuracy, Precision, Recall, F1, ROC-AUC | 不均衡データでは F1 や ROC-AUC を優先(Google for Developers) |
回帰 | 連続値予測 | MAE, RMSE, R² | ビジネス損失に近い単位で選択 |
ランキング/検索 | 推薦・検索 | NDCG, MAP, MRR | 上位 N 件への重み付けが鍵 |
生成(テキスト) | 翻訳・要約 | BLEU, ROUGE, METEOR, BERTScore | 人手評価との相関が課題(ウィキペディア) |
生成(画像・映像) | 生成・拡散 | FID, CLIPScore, KID | 低値ほどリアル/多様 |
LLM能力 | 多タスク | MMLU, GPQA, SWE-bench, GSM8K | 年次ベンチで急伸(Home | Stanford HAI) |
公平性 | バイアス検証 | Demographic Parity, Equalized Odds, Calibration | |
認証/バイオメトリクス | 顔認証等 | FNMR @ FMR, DET 曲線 | NIST FRVT が事実上標準(NIST Pages) |
効率 | 運用 | 推論レイテンシ, TCO, Energy/Token | “性能 ↔ コスト” 最適化に不可欠 |
④ AI評価指標の実務例:カスタマーサポートLLMボットの多面的評価
視点 | 指標 | 目標値 | 測定方法 |
---|---|---|---|
生成品質 | BLEU ≥ 0.35・BERTScore ≥ 0.9 | 人間回答との類似度 | 週次バッチ |
ビジネス効用 | 一次解決率 ≥ 85 % | Zendesk チケット統計 | リアルタイム |
安全性 | ハルシネーション率 ≤ 5 % | GPT-4 評定+RAG 一致率 | デプロイ直後・月次 |
公平性 | Equalized Odds Δ ≤ 2 % | 性別・年齢別に計算 | 四半期 |
効率 | P95 レイテンシ ≤ 1 s/req | APM監視 | 常時 |
ポイント
- 指標は複数レイヤで管理(ユーザー体験/アルゴリズム/インフラ)。
- ガバナンス報告には モデルカード + データシート で根拠を添付。
- 指標間トレードオフ(例:品質↑でレイテンシ↑)をロードマップに明記。
⑤ 関連用語
⑥ 外部参考リソース
種類 | 出典 |
---|---|
分類指標 | Google ML Crash Course「Accuracy / Precision / Recall」(Google for Developers) |
生成指標 | Wikipedia「BLEU」(ウィキペディア) |
ベンチマーク動向 | Stanford HAI「AI Index 2025」(Home | Stanford HAI) |
生体認証評価 | NIST FRVT 指標ガイド(NIST Pages) |
公平性指標 | Wikipedia「Fairness (machine learning)」(ウィキペディア) |