AIチャットボット Recall@5 評価(100問ベンチマーク)
労働安全衛生 AI チャットボットが「正しい根拠条文を検索できているか」を 100 問のクローズドセットで評価し、 結果を全件公開しています。各問は {question, gold[]} の組で、RAG 検索の上位 5 件に gold(期待される条文)のいずれか 1 件以上が含まれた割合を Recall@5(検索ヒット率)として算出します。
Recall@5(件数)
100 / 100
Recall@5(検索ヒット率)
100.0%
目標値
80.0%
判定
✅ 達成
※ 本ページの「Recall@5」は RAG 検索の根拠条文 検索ヒット率であり、Gemini が生成する回答文の正答率ではありません。
最終評価: 2026/05/04 0:18 / ソース: test/chatbot-basic-100.json/ 実行コマンド: npm run eval:chatbot
トピック別 Recall@5
法令カテゴリ別に分けた集計。問数の多いトピックから降順表示。Recall@5 = top-5 に gold 条文が 1 件以上含まれた割合。
| トピック | 問数 | 正答 | Recall@5 |
|---|---|---|---|
| 教育 | 10 | 10 | 100.0% |
| 健診 | 10 | 10 | 100.0% |
| クレーン | 8 | 8 | 100.0% |
| 労基 | 7 | 7 | 100.0% |
| 組織 | 6 | 6 | 100.0% |
| 墜落 | 6 | 6 | 100.0% |
| 測定 | 6 | 6 | 100.0% |
| 総則 | 4 | 4 | 100.0% |
| 足場 | 4 | 4 | 100.0% |
| 酸欠 | 4 | 4 | 100.0% |
| 報告 | 4 | 4 | 100.0% |
| 化学物質 | 3 | 3 | 100.0% |
| 契約 | 3 | 3 | 100.0% |
| 有機溶剤 | 2 | 2 | 100.0% |
| 局排 | 2 | 2 | 100.0% |
| 石綿 | 2 | 2 | 100.0% |
| 電離 | 2 | 2 | 100.0% |
| 熱中症 | 2 | 2 | 100.0% |
| 育介 | 2 | 2 | 100.0% |
| 労災 | 2 | 2 | 100.0% |
| ハラスメント | 2 | 2 | 100.0% |
| 特化物 | 1 | 1 | 100.0% |
| 粉じん | 1 | 1 | 100.0% |
| 騒音 | 1 | 1 | 100.0% |
| ボイラー | 1 | 1 | 100.0% |
| VDT | 1 | 1 | 100.0% |
| 重量物 | 1 | 1 | 100.0% |
| 高圧 | 1 | 1 | 100.0% |
| 罰則 | 1 | 1 | 100.0% |
| 賃金 | 1 | 1 | 100.0% |
不正答ケース(0 件)
✅ 100 問すべての RAG 検索で期待条文が上位 5 件に含まれました。
fresh セット(第2ベンチマーク)
言い換えロバストネス既存の 100 問とは別の言い回し・観点で同じ法令論点をカバーする 100 問の追加セット。 質問の表現が変わっても同じ条文を取れるかを観測する。
正答数(Recall@5)
61 / 100
Recall@5
61.0%
目標値
55.0%
判定
✅ 達成
最終評価: 2026/05/13 11:42 / ソース: test/chatbot-fresh-100.json/ 実行コマンド: npm test -- rag-100q-fresh
| トピック | 問数 | 正答 | Recall@5 |
|---|---|---|---|
| 教育 | 10 | 8 | 80.0% |
| 健診 | 10 | 8 | 80.0% |
| 化学物質 | 10 | 7 | 70.0% |
| 機械 | 10 | 3 | 30.0% |
| 組織 | 6 | 5 | 83.3% |
| 墜落 | 5 | 4 | 80.0% |
| 足場 | 5 | 5 | 100.0% |
| 労災 | 5 | 0 | 0.0% |
| 労基 | 5 | 3 | 60.0% |
| 総則 | 4 | 3 | 75.0% |
| フォークリフト | 4 | 3 | 75.0% |
| じん肺 | 3 | 2 | 66.7% |
| クレーン | 3 | 2 | 66.7% |
| ハラスメント | 3 | 2 | 66.7% |
| 育児介護 | 3 | 1 | 33.3% |
| 建設 | 3 | 2 | 66.7% |
| 酸欠 | 2 | 2 | 100.0% |
| 事故報告 | 2 | 1 | 50.0% |
| 熱中症 | 2 | 0 | 0.0% |
| 騒音 | 2 | 0 | 0.0% |
| ゴンドラ | 1 | 0 | 0.0% |
| ボイラー | 1 | 0 | 0.0% |
| 振動 | 1 | 0 | 0.0% |
不正答ケースを表示(39 件)
Q1 総則 労働災害を防止するための最低基準を定めている法律はどれですか?
期待: 安衛法第1条
取得: 安衛法第3条, 安衛法第6条, 安衛法第7条, 安衛則第34条, 安衛則改正R5第34条の2
Q9 組織 プレス機械や酸欠など特定作業を行う場合に必要となる作業主任者は何条で定められていますか?
期待: 安衛法第14条
取得: 酸欠則第15条, 酸欠則第9条, 酸欠則第11条, 酸欠則第12条, 酸欠則第2条
Q16 教育 危険または有害な業務に就かせる際の教育義務の条文は?
期待: 安衛法第59条
取得: 安衛法第36条, 安衛法第25条, 安衛法第26条, 安衛令第20条, 安衛則第3条
Q20 教育 ゴンドラの操作を行わせる労働者への特別教育はどこで定められていますか?
期待: ゴンドラ則第12条
取得: 安衛則第36条の4, 安衛則第36条の5, 安衛則第36条の2, 安衛則第36条, 石綿則第36条
Q24 健診 月80時間超の時間外労働者に対する医師面接指導の根拠条文を教えてください。
期待: 安衛法第66条の8
取得: 安衛則第36条の5, 過重労働通達第1, 過重労働通達第2, 過重労働通達第3, 安衛則改正R5第577条の2
Q27 健診 有機溶剤業務に従事する労働者の特殊健康診断の条文は?
期待: 有機則第29条 / 有機則第29条の2
取得: 安衛法第66条, 安衛法第66条の8, 安衛法第66条の10, 安衛則改正R5第577条の2, 有機則第30条
Q33 墜落 ロープ高所作業時のメインロープ・ライフライン関連条文は?
期待: 安衛則第539条の2 / 安衛則第539条の3 / 安衛則第539条の4 / 安衛則第539条の5 / 安衛則第539条の7
取得: 安衛則第520条, 安衛則第539条の8, 安衛則第539条の8, 安衛則第518条, 安衛則第518条の2
Q44 化学物質 有機溶剤業務における局所排気装置の設置義務はどの規則?
期待: 有機則第5条
取得: 有機則第16条の2, 有機則第28条, 有機則第4条, 有機則第19条, 有機則第24条
Q45 化学物質 特定化学物質第1類物質を取り扱う作業の許可制の条文は?
期待: 特化則第48条
取得: 特化則第2条, 安衛則改正R5第97条の2, 安衛則改正R4別表第三, 安衛則改正R4第2条の3, 安衛則改正R4別表
Q48 化学物質 鉛業務に従事する労働者へのばく露防止措置の条文は?
期待: 鉛則第5条
取得: 安衛則改正R5第577条の2, 安衛則改正R5第577条の2, 安衛則改正R4第3条の2, 安衛則改正R4第三十四条の二, 安衛則改正R4第五百七十七条の二
Q53 機械 プレス機械の安全装置に関する規則は?
期待: 安衛則第131条
取得: 特化則第38条の3, クレーン則第34条, ゴンドラ則第12条, ゴンドラ則第11条, 安衛則改正R4第五十七条の二
Q54 機械 車両系建設機械の主たる用途以外の使用制限の条文は?
期待: 安衛則第164条
取得: 安衛法第61条, 安衛令第20条, 安衛則第151条の67, 安衛則第151条の73, 安衛則第151条の74
Q55 機械 高所作業車の作業床における安全帯使用等の条文は?
期待: 安衛則第194条の22
取得: 安衛則第518条, 安衛則第518条の2, 安衛則第520条, 安衛則第563条, 安衛則第521条
Q57 機械 研削といしの覆い設置義務はどの条文?
期待: 安衛則第117条
取得: 安衛則第593条, 安衛則第36条, 安衛法第17条, 安衛法第18条, 安衛法第19条
Q58 機械 アーク溶接機の自動電撃防止装置の設置義務はどの条文?
期待: 安衛則第332条
取得: 安衛則第36条, 安衛法第17条, 安衛法第18条, 安衛法第19条, 安衛法第26条
Q59 機械 感電防止用漏電遮断装置の設置義務の根拠条文は?
期待: 安衛則第333条
取得: 安衛法第17条, 安衛法第18条, 安衛法第19条, 安衛法第26条, 安衛法第88条
Q60 機械 電気機械器具の使用前点検の根拠条文は?
期待: 安衛則第352条
取得: 安衛法第20条, 安衛則第521条, 安衛則第594条, 安衛則第518条の2, 有機則第19条の2
Q61 労災 労災保険の給付の種類はどの法律で定められていますか?
期待: 労災法第7条
取得: 労災保険法第7条, 労災保険法第12条の8, 労災保険法第16条, 労災保険法第1条, 労災保険法第7条第3項
Q62 労災 業務上の負傷による療養補償給付の請求はどの条文?
期待: 労災法第13条
取得: 労基法第75条, 労災保険法第12条の8, 労災保険法第1条, 労災保険法第7条, 育介法第16条の8
Q63 労災 通勤災害の定義を教えてください。
期待: 労災法第7条
取得: 労災保険法第7条, 労災保険法第7条第3項, 安衛法第2条, 安衛則第1条, クレーン則第1条
Q64 労災 休業補償給付(4日目以降の80%)の根拠条文は?
期待: 労災法第14条
取得: 安衛則第34条, メンタル指針第5, 安衛則改正R4第三十四条の二
Q65 労災 障害補償給付の支給根拠は?
期待: 労災法第15条
取得: 労災保険法第7条, 安衛則改正R4第五百九十四条, 安衛則改正R4第五百九十四条の二, 安衛則改正R4第五百九十四条の二, 安衛則改正R4第五百九十四条の二
Q69 労基 年次有給休暇の付与日数の根拠条文は?
期待: 労基法第39条
取得: 安衛則改正R4第三十四条の二, 安衛則改正R5第12条の6, 過重労働通達第1
Q70 労基 妊産婦の時間外労働等の制限はどの条文?
期待: 労基法第66条
取得: 安衛令第20条, 安衛則第151条の73, 安衛法第27条, クレーン則第221条, 安衛法第42条
Q73 じん肺 じん肺管理区分が「管理4」と決定された労働者の取り扱いは?
期待: じん肺法第23条
取得: 安衛法第65条, 作環測法第3条, じん肺法第13条, 安衛則改正R4第十六条, じん肺法第20条
Q76 クレーン 移動式クレーンの定格荷重表示義務の条文は?
期待: クレーン則第70条の2
取得: 安衛令第20条, クレーン則第221条, クレーン則第69条, クレーン則第75条の2, クレーン則第103条
Q77 ゴンドラ ゴンドラの設置届出の根拠条文は?
期待: ゴンドラ則第10条
取得: ゴンドラ則第20条, ゴンドラ則第2条, ゴンドラ則第11条, ゴンドラ則第12条, 安衛法第38条
Q78 ボイラー ボイラーの設置届出の対象とその根拠条文は?
期待: ボイラー則第10条
取得: ボイラー則第25条, 化管最新第五百七十七条の二, ボイラー則第32条, 安衛則改正R5第57条の2, 安衛令第20条
Q82 事故報告 重大事故発生時の所轄労基署への報告義務の条文を教えて。
期待: 安衛則第96条
取得: 安衛則第97条, 安衛法第26条, 安衛法第100条, 作環測法第36条, 作環測法第41条
Q83 熱中症 WBGT(暑さ指数)に基づく熱中症予防対策はどの通達?
期待: 熱中症通達第1
取得: 安衛則第612条の2, 安衛則第634条, 安衛則改正R5第97条の2, 化管通達第23条の2, 化管通達第31条の2
Q84 熱中症 屋外作業における熱中症予防の主な指針はどこにありますか?
期待: 熱中症通達第2
取得: 安衛則第612条の2, 安衛則改正R5第97条の2, 安衛則第634条, 安衛則第558条, 安衛則第594条
Q85 騒音 等価騒音レベル85dB以上の作業場における措置義務の条文は?
期待: 安衛則第588条
取得: 安衛則改正R4別表第一, 安衛法第23条, 安衛則改正R5第26条の3, 安衛則第595条, 安衛則第630条
Q86 騒音 騒音作業従事者の聴力検査の根拠は?
期待: 騒音指針第1
取得: 安衛則改正R5第97条の2, 安衛法第22条, 安衛法第66条の10, 安衛則第558条, 安衛則第594条
Q87 振動 振動工具取扱い作業者の健康管理に関する指針は?
期待: 振動指針第1
取得: 安衛法第28条, 安衛法第13条, THP指針第1, メンタル指針第1, 均等法第12条
Q88 ハラスメント 事業主のパワハラ防止措置義務はどの法律?
期待: 労施法第30条の2
取得: 職能法第10条の3, 安衛令関係別表第二, メンヘル関連第18条の2, 安衛法第26条, 作環測法第2条
Q91 育児介護 育児休業の対象労働者と期間の根拠条文は?
期待: 育介法第5条
取得: 育介法第21条, 安衛則改正R4第六十六条, クレーン則第40条, 労契法第18条, 育介法第2条
Q93 育児介護 子の看護休暇の根拠条文を教えて。
期待: 育介法第16条の2
取得: (no hits)
Q96 建設 店社安全衛生管理者の選任義務の条文は?
期待: 安衛法第15条の3
取得: 安衛法第10条, 安衛法第12条, 安衛則第12条, 安衛則改正R5第57条の2, 安衛則改正R5第22条
Q100 フォークリフト フォークリフトの定期自主検査(年次)の根拠条文を教えてください。
期待: 安衛則第151条の21
取得: 安衛法第61条, 安衛令第20条, 安衛則第151条の67, 安衛則第151条の73, 安衛則第151条の74
評価方法・限界
- ・テストセットは
web/test/chatbot-basic-100.jsonに固定。トピックは労働安全衛生の主要 33 法令から横断選定。 - ・評価対象は RAG 検索の根拠条文ヒット率。Gemini の生成回答の文章品質は別途評価。
- ・上位 5 件のうち gold 1 件でも含まれれば検索ヒットとみなす(Recall@5 ベース)。
- ・本ベンチマークは検索段階の代理指標であり、実際の回答精度はモデル生成・プロンプト設計にも依存します。
- ・評価は CI で自動再走(
npm test -- rag-100q.test)。本ページはnpm run eval:chatbot実行時に更新される JSON を読み出して描画しています。