오늘의 한줄

오늘은 LLM 추론을 테스트타임에서 자동으로 확장하는 방법, 멀티모달 에이전트의 검색·안전성·벤치마크를 재정의하는 흐름, 그리고 생성·비전 모델이 더 구조적인 잠재공간과 동적 세계이해로 나아가는 움직임이 두드러졌습니다. 특히 RL은 학습 자체보다 선택과 효율 최적화 도구로 재해석되고, 대규모 데이터·플랫폼·컴파일러 같은 인프라 연구의 비중도 커지고 있습니다.

📄Multimodal & Generative4

MACE-Dance: Motion-Appearance Cascaded Experts for Music-Driven Dance Video GenerationMACE-Dance: 음악 구동 댄스 비디오 생성을 위한 모션-외형 연쇄 전문가⭐ 82

MACE-Dance는 연쇄형 MoE로 음악-3D 모션 생성과 참조 기반 비디오 합성을 분리해, 동작의 운동학적 자연스러움과 인물 외형 보존을 동시에 높인 음악 기반 댄스 영상 생성 프레임워크입니다.

Anisotropic Modality Align이방성 모달리티 정렬⭐ 65

이 연구는 모달리티 갭의 핵심이 전역 이동이 아니라 소수 지배 방향에 집중된 이방성 잔차임을 밝히고, 이를 정렬하는 원리로 멀티모달 표현의 상호교환 가능성을 높였습니다.

What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion디퓨전에 친화적인 잠재 매니폴드는 무엇이 중요한가: 잠재 디퓨전을 위한 Prior-Aligned AutoEncoder⭐ 27

이 논문은 재구성 품질보다 공간 구조·국소 연속성·전역 의미성이 생성 품질에 더 중요함을 보이고, 이를 직접 형성하는 PAE로 디퓨전 친화적 잠재공간 설계를 제안합니다.

👁️Computer Vision2

HumanNet: Scaling Human-centric Video Learning to One Million HoursHumanNet: 인간 중심 비디오 학습을 100만 시간 규모로 확장하다⭐ 58

HumanNet은 1인칭·3인칭을 아우르는 100만 시간 규모의 인간 중심 비디오와 상호작용 주석을 제공해, embodied learning에 필요한 대규모 인간-물체 상호작용 데이터 인프라를 제시합니다.

4DThinker: Thinking with 4D Imagery for Dynamic Spatial Understanding4DThinker: 4차원 심상으로 수행하는 동적 공간 이해⭐ 9

4DThinker는 비디오에서 생성한 4D latent 심상을 내부적으로 추론에 활용하도록 DIFT와 4DRL을 적용해, VLM의 단안 영상 기반 동적 시공간 이해 능력을 끌어올립니다.

🗣️Language Models3

LLMs Improving LLMs: Agentic Discovery for Test-Time ScalingLLM이 LLM을 개선하다: 테스트타임 스케일링을 위한 에이전트형 탐색⭐ 37

AutoTTS는 수작업 추론 휴리스틱 대신 환경 기반 탐색으로 width-depth 테스트타임 전략을 자동 발견해, 추가 LLM 호출 없이 저비용 피드백으로 더 나은 추론 제어기를 학습합니다.

Q-RAG: Long Context Multi-step Retrieval via Value-based Embedder TrainingQ-RAG: 가치 기반 임베더 학습으로 구현한 장문맥 다단계 검색⭐ 37

Q-RAG는 소형 LLM 미세조정 대신 임베더를 RL로 학습해 다단계 검색을 수행하며, 최대 1천만 토큰 문맥에서 BabiLong과 RULER 장문맥 벤치마크 SOTA를 달성했습니다.

Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability LearningLLM 추론을 위한 RL 재고: 능력 학습이 아니라 희소 정책 선택이다⭐ 5

이 논문은 RL이 새 추론 능력을 가르치기보다 불확실성이 큰 1~3% 토큰 위치에서 기존 top-5 선택지를 재가중한다는 점을 보이고, RL 없이도 유사한 정확도 향상이 가능함을 시사합니다.

📄Training & Optimization4

Flow-OPD: On-Policy Distillation for Flow Matching ModelsFlow-OPD: 플로우 매칭 모델을 위한 온폴리시 증류⭐ 67

Flow-OPD는 단일 보상별 교사 모델과 온폴리시 샘플링·과제 재가중·증류를 결합해, 플로우 매칭 T2I 정렬의 보상 희소성과 목적 간 간섭을 줄이는 첫 통합 후학습 프레임워크입니다.

UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic SparsificationUniPrefill: 블록 단위 동적 희소화로 구현한 범용 장문맥 프리필 가속⭐ 18

UniPrefill은 블록 단위 동적 희소화로 full attention뿐 아니라 하이브리드 장문맥 아키텍처까지 지원하며, 연속 배칭과 vLLM 통합이 가능한 범용 프리필 가속 경로를 제시합니다.

Scaling Continual Learning to 300+ Tasks with Bi-Level Routing Mixture-of-Experts이중 라우팅 MoE로 300개 이상 작업까지 확장한 연속학습⭐ 6

CaRE는 라우터 선택과 전문가 라우팅을 결합한 BR-MoE로 300개 이상 장기 작업열의 안정성-가소성 문제를 다루고, 수백 작업 평가용 OmniBenchmark-1K도 함께 제안했습니다.

💻Code & Agents5

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search AgentsHyperEyes: 병렬 멀티모달 검색 에이전트를 위한 이중 단위 효율 인식 강화학습⭐ 33

HyperEyes는 시각 그라운딩과 검색을 하나의 행동으로 묶고 여러 엔티티를 병렬 탐색하도록 학습해, 멀티모달 검색 에이전트의 상호작용 라운드를 줄이면서 효율과 성능을 함께 최적화합니다.

DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI AgentsDecodingTrust-Agent Platform(DTap): 제어 가능하고 상호작용적인 AI 에이전트 레드팀 플랫폼⭐ 19

DTap은 14개 실제 도메인과 50개 이상 시뮬레이션 환경에서 에이전트의 키 유출·데이터 삭제·무단 거래 같은 위험을 재현 가능하게 평가하는 첫 대규모 레드팀 플랫폼입니다.

From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms저장에서 경험으로: LLM 에이전트 메모리 메커니즘의 진화에 관한 서베이⭐ 11

이 서베이는 LLM 에이전트 메모리를 Storage-Reflection-Experience의 3단계 진화 틀로 정리해, 장기 일관성·동적 환경·지속학습 관점에서 메모리 설계 흐름을 체계화합니다.

📄Robotics & RL2

Learning Visual Feature-Based World Models via Residual Latent ActionResidual Latent Action으로 학습하는 시각 특징 기반 월드 모델⭐ 9

RLA-WM은 DINO residual에서 학습한 Residual Latent Action을 flow matching으로 예측해, 고차원 특징공간의 붕괴 문제를 줄이면서 기존 특징 기반·비디오 디퓨전 월드 모델을 모두 앞섰습니다.

Discovering Reinforcement Learning Interfaces with Large Language Models대형언어모델로 강화학습 인터페이스 발견하기⭐ 3

LIMEN은 원시 시뮬레이터 상태에서 관측 매핑과 보상 함수를 실행 가능한 프로그램으로 공동 진화시켜, 성공 여부만으로도 새로운 RL 작업 인터페이스를 자동 설계합니다.