AI評価指標とは丨プロダクトマネージャー用語集

最終更新日:

2025年5月8日

ライター:

PM Career編集部

プロダクト開発

この記事の監修者

佐々木真
PM Career事業責任者（Xアカウント ＠shin_sasaki19）
株式会社リクルートにて「スタディサプリ」の初期メンバーとして事業開発・プロダクトマネージャー業を担当し全国展開を達成後、SmartHRのグループ会社としてToB向けSaaS「SmartMeeting」を立ち上げ2021年3月に退任。その後PMオンラインスクール「PM School」、プロダクト開発人材の転職サイト「PM Career」の事業を運営中。プロダクト開発の知見・人材の流動性を高め、日本のプロダクト作りをぶち上げるべく尽力中。個人としてもX（Twitter）アカウントのフォロワーは3万人超え、YouTubeやPodcastでもプロダクト開発のコンテンツを発信する日本で最も有名なプロダクト開発者の1人。

今すぐ転職をしたい人も、中長期的にしたい方も、PM Careerに無料会員登録をしておくことでキャリアに役立つ情報を定期的にキャッチアップすることが重要です。まだ登録されてない方はこちらからどうぞ。3分で完了します。

PM Careerに無料会員登録する

プロダクトマネージャー転職についての情報はこちらをご覧ください！

① AI評価指標の定義

AI評価指標とは、モデルがタスクをどの程度うまく遂行しているかを 定量的に測るメジャー の総称です。分類・回帰・ランキング・生成・LLM能力・公平性・効率などタスク特性ごとに設計され、実務では「ビジネスゴール ↔ 評価指標 ↔ モデル改善」を結ぶ羅針盤となります。

② AI評価指標の重要性／目的

効果	説明	代表 KPI
性能の客観比較	アルゴリズムやハードウェアを横断して優劣を定量化	BLEU・MMLU など最新ベンチで毎年 10〜60 pt 改善が観測(Home \| Stanford HAI)
ビジネス価値の可視化	“指標＝価値ドライバ” を定義して ROI を測定	CS一次解決率、クリック率など
品質とリスク管理	ハルシネーション率や公平性指標で負の影響を早期検知	インシデント件数 ▼
ガバナンスと規制対応	NIST・EU AI Act に求められる性能／公平性証跡を提供	FNMR・Equalized Odds など(NIST Pages, ウィキペディア)

③ AI評価指標の主なカテゴリと代表指標

カテゴリ	主タスク	代表指標	要点
分類	2値／多クラス	Accuracy, Precision, Recall, F1, ROC-AUC	不均衡データでは F1 や ROC-AUC を優先(Google for Developers)
回帰	連続値予測	MAE, RMSE, R²	ビジネス損失に近い単位で選択
ランキング／検索	推薦・検索	NDCG, MAP, MRR	上位 N 件への重み付けが鍵
生成（テキスト）	翻訳・要約	BLEU, ROUGE, METEOR, BERTScore	人手評価との相関が課題(ウィキペディア)
生成（画像・映像）	生成・拡散	FID, CLIPScore, KID	低値ほどリアル／多様
LLM能力	多タスク	MMLU, GPQA, SWE-bench, GSM8K	年次ベンチで急伸(Home \| Stanford HAI)
公平性	バイアス検証	Demographic Parity, Equalized Odds, Calibration	法規制で必須(ウィキペディア, ウィキペディア)
認証／バイオメトリクス	顔認証等	FNMR @ FMR, DET 曲線	NIST FRVT が事実上標準(NIST Pages)
効率	運用	推論レイテンシ, TCO, Energy/Token	“性能 ↔ コスト” 最適化に不可欠

④ AI評価指標の実務例：カスタマーサポートLLMボットの多面的評価

視点	指標	目標値	測定方法
生成品質	BLEU ≥ 0.35・BERTScore ≥ 0.9	人間回答との類似度	週次バッチ
ビジネス効用	一次解決率 ≥ 85 %	Zendesk チケット統計	リアルタイム
安全性	ハルシネーション率 ≤ 5 %	GPT-4 評定＋RAG 一致率	デプロイ直後・月次
公平性	Equalized Odds Δ ≤ 2 %	性別・年齢別に計算	四半期
効率	P95 レイテンシ ≤ 1 s／req	APM監視	常時

ポイント
指標は複数レイヤで管理（ユーザー体験／アルゴリズム／インフラ）。
ガバナンス報告には モデルカード + データシート で根拠を添付。
指標間トレードオフ（例：品質↑でレイテンシ↑）をロードマップに明記。

⑤ 関連用語

プロダクトマネージャー用語集

LLM（Large Language Model）

ファインチューニング（Fine-tuning）

RAG（Retrieval-Augmented Generation）

生成AI / Generative AI

AIロードマップ / AI Roadmap

AI倫理 / AI Ethics

AI評価指標 / AI Evaluation Metrics

MLOps（Machine Learning Operations）

⑥ 外部参考リソース

種類	出典
分類指標	Google ML Crash Course「Accuracy / Precision / Recall」(Google for Developers)
生成指標	Wikipedia「BLEU」(ウィキペディア)
ベンチマーク動向	Stanford HAI「AI Index 2025」(Home \| Stanford HAI)
生体認証評価	NIST FRVT 指標ガイド(NIST Pages)
公平性指標	Wikipedia「Fairness (machine learning)」(ウィキペディア)

厳選されたプロダクト開発企業と
一流プロダクト開発人材の出会い

CATEGORY

AI評価指標とは丨プロダクトマネージャー用語集

この記事の監修者

① AI評価指標の定義

② AI評価指標の重要性／目的

③ AI評価指標の主なカテゴリと代表指標

④ AI評価指標の実務例：カスタマーサポートLLMボットの多面的評価

⑤ 関連用語

⑥ 外部参考リソース

厳選されたプロダクト開発企業と
一流プロダクト開発人材の出会い

関連する記事

AIエディタCursorの使い方│主要機能、料金、活用事例を解説

Wrike Work Intelligenceとは丨生成AI 用語集

Shortcut AIとは丨生成AI 用語集

Productboard AIとは丨生成AI 用語集

Monday.com AI Blocksとは丨生成AI 用語集

Linear Insightsとは丨生成AI 用語集

AIエディタCursorの使い方│主要機能、料金、活用事例を解説

Wrike Work Intelligenceとは丨生成AI 用語集

Shortcut AIとは丨生成AI 用語集

Productboard AIとは丨生成AI 用語集

Monday.com AI Blocksとは丨生成AI 用語集

Linear Insightsとは丨生成AI 用語集

CATEGORY

AI評価指標とは丨プロダクトマネージャー用語集

この記事の監修者

① AI評価指標の定義

② AI評価指標の重要性／目的

③ AI評価指標の主なカテゴリと代表指標

④ AI評価指標の実務例：カスタマーサポートLLMボットの多面的評価

⑤ 関連用語

⑥ 外部参考リソース

厳選されたプロダクト開発企業と一流プロダクト開発人材の出会い

関連する記事

AIエディタCursorの使い方│主要機能、料金、活用事例を解説

Wrike Work Intelligenceとは丨生成AI 用語集

Shortcut AIとは丨生成AI 用語集

Productboard AIとは丨生成AI 用語集

Monday.com AI Blocksとは丨生成AI 用語集

Linear Insightsとは丨生成AI 用語集

AIエディタCursorの使い方│主要機能、料金、活用事例を解説

Wrike Work Intelligenceとは丨生成AI 用語集

Shortcut AIとは丨生成AI 用語集

Productboard AIとは丨生成AI 用語集

Monday.com AI Blocksとは丨生成AI 用語集

Linear Insightsとは丨生成AI 用語集

厳選されたプロダクト開発企業と
一流プロダクト開発人材の出会い