Skip to the content.
HOME

T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables​​

概要

  • 公開日: 2025/08/27
  • 機関: Institute of Artificial Intelligence (TeleAI), China Telecom
  • リンク

手法

  • Table2Reportタスクを提案し、そのためのベンチマークを作成。
    • 中国とアメリカのオープンデータからデータを収集し、レポートの方向性を定める質問をLLMを活用しながらアノテーションし、各質問からレポートをLLMによって作成し、レポート中のkey pointを抽出する。従って、key pointが正解データとなるため、レポート全体ではない。
    • 既存のベンチマークに比べて、大きなサイズ、マルチヘッダー、複数テーブルを特徴としている
  • 評価指標は以下の三つ
    • Numerical Accuracy Criterion: 予測key point中の定量値が正しいかどうかを測る指標。
    • Information Coverage Criterion: 予測key pointが正解key pointにセマンティックに類似しているかどうかを測る指標
    • General Evaluation Criterion: 論理一貫性等の5つの観点からLLMにスコアを付けてもらう。

評価

  • 中国語を含めたBilingualデータセットのため、GPT-4oやo1 miniよりDeepSeek-R1やQwen3の性能が高い。
  • テーブルのセル数が増えれば増えるほど性能低下。

備考・所感

  • 意外とDeepSeek-R1やQwen3の方がGPT-4oやo1 miniより高いことから、マルチリンガルのベンチマークの重要性を感じた。
  • Table2Reportというタスクと銘打っていながら基本的にはTable2Insightと同等のタスク設定。