오늘의 한줄
오늘은 에이전트형 RL의 추론 붕괴를 새 지표로 진단하는 연구, 실시간 4D 월드 모델과 비디오 생성의 효율화를 노린 생성 연구, 그리고 로봇·모바일 에이전트의 실제성 있는 평가/학습 인프라가 특히 눈에 띕니다. 전반적으로는 모델 규모 경쟁보다도 안정적 학습, 데이터 엔진, 그리고 실제 환경에서 통하는 평가 기준을 정교화하려는 흐름이 강해졌습니다.
💻Code & Agents3
RAGEN-2: 에이전트형 RL에서의 추론 붕괴⭐ 2,592
RAGEN-2는 엔트로피로 보이지 않던 입력 무관 템플릿 붕괴를 상호정보량(MI)으로 진단해, 다양한 과제에서 최종 성능과 더 강하게 상관되는 온라인 추론 품질 지표를 제시했습니다.
KnowU-Bench: 상호작용형·선제형·개인화 모바일 에이전트 평가를 향하여⭐ 46
KnowU-Bench는 안드로이드 에뮬레이터 위에 일반 GUI 42개, 개인화 86개, 선제형 64개 과제를 구성해, 숨겨진 사용자 선호를 대화와 행동 로그로 추론하는 모바일 에이전트를 실제적으로 평가합니다.
현실 세계 인간 행동 시뮬레이션을 향하여: 장기·교차 시나리오·이질적 행동 궤적에서의 LLM 벤치마크⭐ 22
OmniBehavior는 실제 데이터만으로 만든 최초의 장기·교차 시나리오 사용자 시뮬레이션 벤치마크로, 현 LLM이 긴 문맥을 늘려도 현실적 행동 연쇄를 충분히 재현하지 못함을 보여줍니다.
📄Multimodal & Generative7
INSPATIO-WORLD: 시공간 자기회귀로 구현한 실시간 4D 월드 시뮬레이터⭐ 695
INSPATIO-WORLD는 STAR 아키텍처와 잠재 시공간 캐시, 명시적 공간 제약 모듈을 결합해 단일 참조 비디오만으로도 공간 일관성과 상호작용성을 갖춘 실시간 4D 장면 시뮬레이션을 구현했습니다.
LPM 1.0: 비디오 기반 캐릭터 퍼포먼스 모델⭐ 77
LPM 1.0은 대화형 단일 인물 퍼포먼스를 위해 정제된 멀티모달 데이터셋과 17B Diffusion Transformer를 구축해, 표현력·실시간성·장기 정체성 유지라는 '퍼포먼스 트릴레마'를 동시에 겨냥했습니다.
OpenVLThinkerV2: 다중 도메인 시각 과제를 위한 범용 멀티모달 추론 모델⭐ 138
OpenVLThinkerV2는 과제별 보상 분포를 정규화하는 Gaussian GRPO(G²RPO)로 멀티모달 RL 학습의 분산과 이상치 문제를 줄여, 다양한 시각 과제에서 더 안정적인 범용 추론을 노렸습니다.
📄Robotics & RL3
HY-Embodied-0.5: 현실 세계 에이전트를 위한 임바디드 파운데이션 모델⭐ 223
HY-Embodied-0.5는 2B/32B 임바디드 모델군에 Mixture-of-Transformers와 latent token, 자기진화형 추론 학습을 적용해 실제 에이전트에 필요한 시공간 지각과 계획 능력을 강화했습니다.
SIM1: 변형 물체 세계를 위한 물리 정렬 시뮬레이터 기반 제로샷 데이터 스케일러⭐ 39
SIM1은 적은 시연만으로 장면 디지털 트윈, 탄성 기반 변형 동역학 보정, 확산 기반 궤적 확장을 묶어 천·연성 물체 조작용 실세계 정렬 합성 데이터를 대규모로 생성합니다.
ViVa: 로봇 강화학습을 위한 비디오 생성형 가치 모델⭐ 18
ViVa는 사전학습 비디오 생성기를 가치 함수로 재활용해 현재 관측에서 미래 proprioception과 상태 가치를 함께 예측함으로써, 장기 로봇 과제에서 부분 관측성과 지연 보상 문제를 더 잘 다룹니다.
📄Training & Optimization1
탄력적 테스트타임 학습을 활용한 고속 공간 메모리⭐ 73
FSM은 Fisher 가중 elastic prior와 EMA anchor를 쓰는 Elastic Test-Time Training으로 LaCT의 망각·과적합을 줄여, 긴 시퀀스 기반 4D 재구성을 더 안정적이고 확장 가능하게 만들었습니다.
🗣️Language Models4
추론 SFT의 일반화 다시 보기: 최적화·데이터·모델 능력의 조건부 분석⭐ 63
이 연구는 추론 SFT가 단순 암기에 그친다는 통념과 달리, 충분한 학습·검증된 긴 CoT·강한 기반 모델이 갖춰지면 도메인 간 일반화가 나타나며 초반 성능 하락은 과소최적화의 착시일 수 있음을 보였습니다.
DMax: 확산 언어모델을 위한 공격적 병렬 디코딩⭐ 31
DMax는 On-Policy Uniform Training과 Soft Parallel Decoding으로 dLLM의 병렬 디코딩 오류 누적을 줄여, 생성 품질을 유지하면서 더 과감한 병렬 추론을 가능하게 했습니다.
MARS: 자기회귀 모델의 멀티토큰 생성을 가능하게 하다⭐ 10
MARS는 추가 헤드나 구조 변경 없이 기존 instruction 데이터로 계속 학습만 해 AR 모델이 한 번에 여러 토큰을 예측하게 만들고, 정확도 유지와 함께 1.5~1.7배 처리량 향상을 달성했습니다.
👁️Computer Vision2
OpenSpatial: 공간 지능을 위한 원칙 기반 데이터 엔진⭐ 49
OpenSpatial은 3D 박스를 기본 단위로 공간 측정·관계·카메라 지각·멀티뷰 일관성·장면 추론을 포괄하는 데이터 엔진과 300만 샘플 규모 OpenSpatial-3M을 공개해 공간 지능 학습 기반을 넓혔습니다.
TC-AE: 딥 압축 오토인코더의 토큰 용량을 여는 방법⭐ 11
TC-AE는 고압축에서 발생하는 latent collapse를 채널 확장 대신 토큰 공간 설계로 풀어, 2단계 token-to-latent 압축과 ViT 기반 구조로 생성 친화적인 고효율 압축 표현을 제안했습니다.