main-image

人とLLMの実際のチャット履歴から抽出した1,024のリアルなタスクでClaude 3などを評価した結果 | AIDB

テキスト生成
clock

更新日2024.08.13

現実のユーザーからの難しいクエリを使用してLLMの性能を評価する自動評価フレームワークが開発されました。100万以上の人間とチャットボットの会話ログから厳選された1,024のタスクを使用するというユニークな取り組みです。