HOME

Reasoning-Table: Exploring Reinforcement Learning for Table Reasoning

概要

公開日: 2025/06/02
機関: University of Chinese Academy of Sciences
リンク

手法

Supervised fine-tuningでreasoning traceを学習し、Reinforcement learningでパフォーマンスを更に向上させる。
学習データの用意
- SFTの学習データは、ClaudeやDeepSeek-R1等の高性能モデルでベンチマークを走らせてreanoning traceを収集。その後、回答が間違っているものや冗長なreasoning traceを持つ推論データをフィルタリング。
- RLの学習データはreasoning trace内のカラムやセルを参照している部分に、position evidenceを追加。
Reward designとしては正しいreasoning traceのフォーマットを奨励する項と、推論結果が正解と近いかどうかをルールベースで計算する項で構成される。

評価

SFT + RLがSFT単体やRL単体よりも高いパフォーマンスを保持する。
ベンチマーク中の全データを使用するより、簡単なデータを排除したベンチマークで学習したモデルの方が性能は高い。ベンチマークの量より質が大事なのでは。
RLはSFTよりOODへの耐性が高い。

備考・所感

同時期にTable-R1を冠する論文やTable-based LLMのInference time scalingを報告した論文が登場している。手法としてはReward designがそれぞれ異なっており、評価としては対象ベンチマークの数が異なっている。