Skip to the content.
概要
- 公開日: 2025/08/27
- 機関: Institute of Artificial Intelligence (TeleAI), China Telecom
- リンク
手法
- Table2Reportタスクを提案し、そのためのベンチマークを作成。
- 中国とアメリカのオープンデータからデータを収集し、レポートの方向性を定める質問をLLMを活用しながらアノテーションし、各質問からレポートをLLMによって作成し、レポート中のkey pointを抽出する。従って、key pointが正解データとなるため、レポート全体ではない。
- 既存のベンチマークに比べて、大きなサイズ、マルチヘッダー、複数テーブルを特徴としている
- 評価指標は以下の三つ
- Numerical Accuracy Criterion: 予測key point中の定量値が正しいかどうかを測る指標。
- Information Coverage Criterion: 予測key pointが正解key pointにセマンティックに類似しているかどうかを測る指標
- General Evaluation Criterion: 論理一貫性等の5つの観点からLLMにスコアを付けてもらう。
評価
- 中国語を含めたBilingualデータセットのため、GPT-4oやo1 miniよりDeepSeek-R1やQwen3の性能が高い。
- テーブルのセル数が増えれば増えるほど性能低下。
備考・所感
- 意外とDeepSeek-R1やQwen3の方がGPT-4oやo1 miniより高いことから、マルチリンガルのベンチマークの重要性を感じた。
- Table2Reportというタスクと銘打っていながら基本的にはTable2Insightと同等のタスク設定。