
LLM の劇的な発展によって、今年2026年は RAG や AI エージェントなど、AI を用いたアプリの開発がどんどん増えていくでしょう。しかし、PoC で「いい感じ」まで持っていくのは早くとも、製品レベルへの磨き込みには困難を伴います。その最大の原因は、AI アプリの評価にあります。AI アプリの良し悪しを評価するには、LLM の出力文章の評価が必須です。これを人手で行うことで開発が低速化・苦痛化したり、ないがしろにしてなんとなくの改善から抜けられなかったり。様々な問題が現場で生じています。
そこで、今回の豆寄席では、AI アプリの評価として、LLM-as-a-Judge や、評価の評価を伴う Evaluator-Optimizer loop の考え方などを紹介します。
AI アプリの評価を確立し、本領域での CI/CD を作りきり、快適で高速な開発を取り戻しましょう!
セミナー概要
セミナー名称
【豆寄席(まめよせ)】LLM出力の「評価」を考える – AIアプリ開発の高速化と快適さを求めて (杉山 聡氏 / 株式会社アトラエ Senior Data Scientist)
主催
株式会社豆蔵
日時
2026年 2月 24日(火) 18:30~20:00 ※質疑応答含む
会場
Zoomにて実施
参加費
無料
定員
50名
講師
杉山 聡氏 (株式会社アトラエ Senior Data Scientist)
申し込み
※外部サイトconnpassを利用しております