人とLLMの実際のチャット履歴から抽出した1,024のリアルなタスクでClaude 3などを評価した結果 | AIDB
更新日2024.08.13
生成AI女子あいちゃん
現実のユーザーからの難しいクエリを使用してLLMの性能を評価する自動評価フレームワークが開発されました。100万以上の人間とチャットボットの会話ログから厳選された1,024のタスクを使用するというユニークな取り組みです。
この記事をシェアする
テキスト生成
2025.02.20
Google ChromeにGeminiを統合するオプションが開発者向けのChrome Canaryに登場
Meta、生成AIイベントを4月に、メタバースイベントを9月に開催へ
OpenAIの元CTOムラティ氏、新AI企業Thinking Machine Lab立ち上げ
AIの利用・導入、契約上の注意点は? 経産省がチェックリスト公開
2025.02.19
DeNA南場会長も使う「NotebookLM」って何? 自分だけのチャットAIが作れる話題のGoogle製サービス、いまさら聞けない活用法
新着記事