오늘의 한줄
오늘은 LLM 추론을 테스트타임에서 자동으로 확장하는 방법, 멀티모달 에이전트의 검색·안전성·벤치마크를 재정의하는 흐름, 그리고 생성·비전 모델이 더 구조적인 잠재공간과 동적 세계이해로 나아가는 움직임이 두드러졌습니다. 특히 RL은 학습 자체보다 선택과 효율 최적화 도구로 재해석되고, 대규모 데이터·플랫폼·컴파일러 같은 인프라 연구의 비중도 커지고 있습니다.
📄Multimodal & Generative4
MACE-Dance: 음악 구동 댄스 비디오 생성을 위한 모션-외형 연쇄 전문가⭐ 82
MACE-Dance는 연쇄형 MoE로 음악-3D 모션 생성과 참조 기반 비디오 합성을 분리해, 동작의 운동학적 자연스러움과 인물 외형 보존을 동시에 높인 음악 기반 댄스 영상 생성 프레임워크입니다.
이방성 모달리티 정렬⭐ 65
이 연구는 모달리티 갭의 핵심이 전역 이동이 아니라 소수 지배 방향에 집중된 이방성 잔차임을 밝히고, 이를 정렬하는 원리로 멀티모달 표현의 상호교환 가능성을 높였습니다.
디퓨전에 친화적인 잠재 매니폴드는 무엇이 중요한가: 잠재 디퓨전을 위한 Prior-Aligned AutoEncoder⭐ 27
이 논문은 재구성 품질보다 공간 구조·국소 연속성·전역 의미성이 생성 품질에 더 중요함을 보이고, 이를 직접 형성하는 PAE로 디퓨전 친화적 잠재공간 설계를 제안합니다.
👁️Computer Vision2
HumanNet: 인간 중심 비디오 학습을 100만 시간 규모로 확장하다⭐ 58
HumanNet은 1인칭·3인칭을 아우르는 100만 시간 규모의 인간 중심 비디오와 상호작용 주석을 제공해, embodied learning에 필요한 대규모 인간-물체 상호작용 데이터 인프라를 제시합니다.
4DThinker: 4차원 심상으로 수행하는 동적 공간 이해⭐ 9
4DThinker는 비디오에서 생성한 4D latent 심상을 내부적으로 추론에 활용하도록 DIFT와 4DRL을 적용해, VLM의 단안 영상 기반 동적 시공간 이해 능력을 끌어올립니다.
🗣️Language Models3
LLM이 LLM을 개선하다: 테스트타임 스케일링을 위한 에이전트형 탐색⭐ 37
AutoTTS는 수작업 추론 휴리스틱 대신 환경 기반 탐색으로 width-depth 테스트타임 전략을 자동 발견해, 추가 LLM 호출 없이 저비용 피드백으로 더 나은 추론 제어기를 학습합니다.
Q-RAG: 가치 기반 임베더 학습으로 구현한 장문맥 다단계 검색⭐ 37
Q-RAG는 소형 LLM 미세조정 대신 임베더를 RL로 학습해 다단계 검색을 수행하며, 최대 1천만 토큰 문맥에서 BabiLong과 RULER 장문맥 벤치마크 SOTA를 달성했습니다.
LLM 추론을 위한 RL 재고: 능력 학습이 아니라 희소 정책 선택이다⭐ 5
이 논문은 RL이 새 추론 능력을 가르치기보다 불확실성이 큰 1~3% 토큰 위치에서 기존 top-5 선택지를 재가중한다는 점을 보이고, RL 없이도 유사한 정확도 향상이 가능함을 시사합니다.
📄Training & Optimization4
Flow-OPD: 플로우 매칭 모델을 위한 온폴리시 증류⭐ 67
Flow-OPD는 단일 보상별 교사 모델과 온폴리시 샘플링·과제 재가중·증류를 결합해, 플로우 매칭 T2I 정렬의 보상 희소성과 목적 간 간섭을 줄이는 첫 통합 후학습 프레임워크입니다.
UniPrefill: 블록 단위 동적 희소화로 구현한 범용 장문맥 프리필 가속⭐ 18
UniPrefill은 블록 단위 동적 희소화로 full attention뿐 아니라 하이브리드 장문맥 아키텍처까지 지원하며, 연속 배칭과 vLLM 통합이 가능한 범용 프리필 가속 경로를 제시합니다.
이중 라우팅 MoE로 300개 이상 작업까지 확장한 연속학습⭐ 6
CaRE는 라우터 선택과 전문가 라우팅을 결합한 BR-MoE로 300개 이상 장기 작업열의 안정성-가소성 문제를 다루고, 수백 작업 평가용 OmniBenchmark-1K도 함께 제안했습니다.
💻Code & Agents5
HyperEyes: 병렬 멀티모달 검색 에이전트를 위한 이중 단위 효율 인식 강화학습⭐ 33
HyperEyes는 시각 그라운딩과 검색을 하나의 행동으로 묶고 여러 엔티티를 병렬 탐색하도록 학습해, 멀티모달 검색 에이전트의 상호작용 라운드를 줄이면서 효율과 성능을 함께 최적화합니다.
DecodingTrust-Agent Platform(DTap): 제어 가능하고 상호작용적인 AI 에이전트 레드팀 플랫폼⭐ 19
DTap은 14개 실제 도메인과 50개 이상 시뮬레이션 환경에서 에이전트의 키 유출·데이터 삭제·무단 거래 같은 위험을 재현 가능하게 평가하는 첫 대규모 레드팀 플랫폼입니다.
저장에서 경험으로: LLM 에이전트 메모리 메커니즘의 진화에 관한 서베이⭐ 11
이 서베이는 LLM 에이전트 메모리를 Storage-Reflection-Experience의 3단계 진화 틀로 정리해, 장기 일관성·동적 환경·지속학습 관점에서 메모리 설계 흐름을 체계화합니다.
📄Robotics & RL2
Residual Latent Action으로 학습하는 시각 특징 기반 월드 모델⭐ 9
RLA-WM은 DINO residual에서 학습한 Residual Latent Action을 flow matching으로 예측해, 고차원 특징공간의 붕괴 문제를 줄이면서 기존 특징 기반·비디오 디퓨전 월드 모델을 모두 앞섰습니다.
대형언어모델로 강화학습 인터페이스 발견하기⭐ 3
LIMEN은 원시 시뮬레이터 상태에서 관측 매핑과 보상 함수를 실행 가능한 프로그램으로 공동 진화시켜, 성공 여부만으로도 새로운 RL 작업 인터페이스를 자동 설계합니다.