new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Sep 30

Submitted by

jt-zhang

SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention

Tsinghua University

3

Submitted by

QbethQ

StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

·
7 authors

2

Submitted by

fangwu97

Multiplayer Nash Preference Optimization

stanfordnlp

Submitted by

DogNeverSleep

RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark

·
26 authors

Submitted by

DogNeverSleep

OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing

·
12 authors

1

Submitted by

MasterVito

Beyond the Exploration-Exploitation Trade-off: A Hidden State Approach for LLM Reasoning in RLVR

Tsinghua University

Submitted by

Yuyang-z

SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer

nvidia

Submitted by

craigwu

Visual Jigsaw Post-Training Improves MLLMs

·
6 authors

Submitted by

shgao

Democratizing AI scientists using ToolUniverse

Harvard

Harvard University

Submitted by

Nicolas-BZRD

When Does Reasoning Matter? A Controlled Study of Reasoning's Contribution to Model Performance

When-Does-Reasoning-Matter

When Does Reasoning Matter ?

2

Submitted by

taesiri

GSM8K-V: Can Vision Language Models Solve Grade School Math Word Problems in Visual Contexts

zju

Zhejiang University

Submitted by

sienna223

EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

BAAI

Beijing Academy of Artificial Intelligence

Submitted by

adamdad

SparseD: Sparse Attention for Diffusion Language Models

·
5 authors

Submitted by

zjuxhl

EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering

zju

Zhejiang University

Submitted by

yuecao0119

Sequential Diffusion Language Models

OpenGVLab

Submitted by

Ningyu

Towards Personalized Deep Research: Benchmarks and Evaluations

OPPOer

OPPO

1

Submitted by

haoranhe

Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards

·
7 authors

Submitted by

wenhu

VideoScore2: Think before You Score in Generative Video Evaluation

TIGER-Lab

Submitted by

wenhu

Critique-Coder: Enhancing Coder Models by Critique Reinforcement Learning

TIGER-Lab

Submitted by

weizechen

From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones

·
10 authors

Submitted by

LiamLian0727

Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks

ZGCA

Zhongguancun Academy

Submitted by

jaeikkim

MMPB: It's Time for Multi-Modal Personalization

snu-aidas

AI, Big Data, and System Laboratory

Submitted by

TeslaYang123

VGGT-X: When VGGT Meets Dense Novel View Synthesis

·
5 authors

Submitted by

taesiri

Rolling Forcing: Autoregressive Long Video Diffusion in Real Time

TencentARC

ARC Lab, Tencent PCG

Submitted by

Dingning

BRIDGE - Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation

Submitted by

xcjthu

InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation

·
13 authors

2

Submitted by

zhangboguodong

Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning

RUC

Renmin University of China

Submitted by

bys0318

SIRI: Scaling Iterative Reinforcement Learning with Interleaved Compression

zai-org

Z.ai

Submitted by

Chuanyang-Jin

The Era of Real-World Human Interaction: RL from User Conversations

2

Submitted by

wcy1122

MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech

CUHK-CSE

The Chinese University of Hong Kong

Submitted by

Ningyu

Scaling Generalist Data-Analytic Agents

Qwen

Qwen

1

Submitted by

taesiri

HunyuanImage 3.0 Technical Report

tencent

Submitted by

limuloo1999

Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time

·
4 authors

Submitted by

XINLI1997

WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning

·
7 authors

1

Submitted by

changdae

Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding

huggingface-wisc

University of Wisconsin-Madison

Submitted by

MatthieuZ

Rethinking Large Language Model Distillation: A Constrained Markov Decision Process Perspective

huawei-noah

HUAWEI Noah's Ark Lab

1

Submitted by

haonan3

From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs

·
11 authors

Submitted by

samuelyeh

LUMINA: Detecting Hallucinations in RAG System with Context-Knowledge Signals

·
3 authors

Submitted by

KunlunZhu

Where LLM Agents Fail and How They can Learn From Failures

UIUC-CS

University of Illinois at Urbana-Champaign

Submitted by

JY-Young

Taming Masked Diffusion Language Models via Consistency Trajectory Reinforcement Learning with Fewer Decoding Step

Fudan-University

Fudan University

Submitted by

li-qing

Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

bigai

Beijing Institute for General Artificial Intelligence

Submitted by

samuelyeh

Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment

·
2 authors

Submitted by

taesiri

Pretraining Large Language Models with NVFP4

nvidia

Submitted by

guolinke

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

·
2 authors

Submitted by

desimfj

SCI-Verifier: Scientific Verifier with Thinking

·
11 authors

Submitted by

yczhuang

AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play

·
10 authors

Submitted by

fushh7

LOVE-R1: Advancing Long Video Understanding with an Adaptive Zoom-in Mechanism via Multi-Step Reasoning

AlibabaTongyiLab

2

Submitted by

jmyang

Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization

·
5 authors

1

Submitted by

SugerWu

MultiCrafter: High-Fidelity Multi-Subject Generation via Spatially Disentangled Attention and Identity-Aware Reinforcement Learning

·
7 authors

1

Submitted by

zli999

PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images

MicrosoftResearch

Microsoft Research

Submitted by

Cauthyyy

Advantage Weighted Matching: Aligning RL with Pretraining in Diffusion Models

adobe

Submitted by

sundrops

GRPO-MA: Multi-Answer Generation in GRPO for Stable and Efficient Chain-of-Thought Training

·
5 authors

Submitted by

VsonicV

Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning

·
7 authors

Submitted by

Xianhang

Rethinking JEPA: Compute-Efficient Video SSL with Frozen Teachers

apple

Submitted by

XINLI1997

Local Success Does Not Compose: Benchmarking Large Language Models for Compositional Formal Verification

·
5 authors

1

Submitted by

HwanChang0106

ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents

Chung-AngUniversity

Chung-Ang University

1

Submitted by

ZihaoZhu

AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models

The Chinese University of Hongkong,Shenzhen

1

Submitted by

SteveZeyuZhang

UniVid: The Open-Source Unified Video Model

·
7 authors

Submitted by

weizhoudb

PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation

SJTU

Shanghai Jiao Tong University

Submitted by

charleslwang

MathBode: Frequency-Domain Fingerprints of LLM Mathematical Reasoning

cognitive-metrology-lab

Cognitive Metrology Lab

Submitted by

HelenMao

UniMIC: Token-Based Multimodal Interactive Coding for Human-AI Collaboration

CUC-MIPG

Multimedia Intelligent Processing Group in Communication University of China

3

Submitted by

zhongwenxu

Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and Planning

tencent

1

Submitted by

SongzeLi

Learning Goal-Oriented Language-Guided Navigation with Self-Improving Demonstrations at Scale

OpenGVLab

Submitted by

lin-tan

TENET: Leveraging Tests Beyond Validation for Code Generation

lt-asset

Purdue ASSET Research Group | AI-Software Synergy

Submitted by

robinzixuan

RHYTHM: Reasoning with Hierarchical Temporal Tokenization for Human Mobility

northwestern-university

Northwestern University

Submitted by

liboaccn

REMA: A Unified Reasoning Manifold Framework for Interpreting Large Language Model

·
8 authors

1

Submitted by

hsi1032

Scalable GANs with Transformers

·
3 authors

2

Submitted by

versae

BOE-XSUM: Extreme Summarization in Clear Language of Spanish Legal Decrees and Notifications

bertin-project

1

Submitted by

xjh19972

ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation

·
5 authors

Submitted by

Steven-Shaobo

Socratic-Zero : Bootstrapping Reasoning via Data-Free Agent Co-evolution

·
9 authors

Submitted by

taesiri

IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?

·
20 authors

Submitted by

jtlicardo

BPMN Assistant: An LLM-Based Approach to Business Process Modeling

·
3 authors

Submitted by

s-jse

Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models

stanford-oval

Stanford Open Virtual Assistant Lab (OVAL)

1

Submitted by

compulsi0n

Combinatorial Creativity: A New Frontier in Generalization Abilities

spiralworks

Submitted by

Franck-Dernoncourt

The Photographer Eye: Teaching Multimodal Large Language Models to See and Critique like Photographers

·
8 authors

Submitted by

zcai

DepthLM: Metric Depth From Vision Language Models

Submitted by

han-cai

DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed Latent Space

nvidia

Submitted by

pranamanam

TR2-D2: Tree Search Guided Trajectory-Aware Fine-Tuning for Discrete Diffusion

ChatterjeeLab

Programmable Biology Group

Submitted by

vaidehi99

Generalized Correctness Models: Learning Calibrated and Model-Agnostic Correctness Predictors from Historical Patterns

·
5 authors

Submitted by

omidgh

ADAM: A Diverse Archive of Mankind for Evaluating and Enhancing LLMs in Biographical Reasoning

·
5 authors

Submitted by

alemiaschi

Charting a Decade of Computational Linguistics in Italy: The CLiC-it Corpus

·
8 authors

Submitted by

dipta007

Advancing Reference-free Evaluation of Video Captions with Factual Analysis

·
3 authors

1