人とLLMの実際のチャット履歴から抽出した1,024のリアルなタスクでClaude 3などを評価した結果 | AIDB

テキスト生成

更新日2024.08.13

生成AI女子あいちゃん

現実のユーザーからの難しいクエリを使用してLLMの性能を評価する自動評価フレームワークが開発されました。100万以上の人間とチャットボットの会話ログから厳選された1,024のタスクを使用するというユニークな取り組みです。

新着記事

2025.02.05

JetBrainsも自律的にコーディングを行うAIエージェント「Junie」を発表

2025.02.05

「私はOpenAIのAIアシスタント」——中国産AI「DeepSeek R1」の“疑惑の返答”がSNSで物議に

2025.02.05

ディープシーク、規制対象ＡＩ半導体を使用か　米が調査＝関係筋

2025.02.05

ミニゲームをプレイして水中ドローンのAIをトレーニングし海洋探査プロジェクトに貢献できる「FathomVerse」

2025.02.05

ソフトバンクG､OpenAIに3.8兆円出資協議　最大拠出者に