오늘의 한줄

오늘은 에이전트형 RL의 추론 붕괴를 새 지표로 진단하는 연구, 실시간 4D 월드 모델과 비디오 생성의 효율화를 노린 생성 연구, 그리고 로봇·모바일 에이전트의 실제성 있는 평가/학습 인프라가 특히 눈에 띕니다. 전반적으로는 모델 규모 경쟁보다도 안정적 학습, 데이터 엔진, 그리고 실제 환경에서 통하는 평가 기준을 정교화하려는 흐름이 강해졌습니다.

💻Code & Agents3

RAGEN-2: 에이전트형 RL에서의 추론 붕괴2,592

RAGEN-2는 엔트로피로 보이지 않던 입력 무관 템플릿 붕괴를 상호정보량(MI)으로 진단해, 다양한 과제에서 최종 성능과 더 강하게 상관되는 온라인 추론 품질 지표를 제시했습니다.

KnowU-Bench: 상호작용형·선제형·개인화 모바일 에이전트 평가를 향하여46

KnowU-Bench는 안드로이드 에뮬레이터 위에 일반 GUI 42개, 개인화 86개, 선제형 64개 과제를 구성해, 숨겨진 사용자 선호를 대화와 행동 로그로 추론하는 모바일 에이전트를 실제적으로 평가합니다.

현실 세계 인간 행동 시뮬레이션을 향하여: 장기·교차 시나리오·이질적 행동 궤적에서의 LLM 벤치마크22

OmniBehavior는 실제 데이터만으로 만든 최초의 장기·교차 시나리오 사용자 시뮬레이션 벤치마크로, 현 LLM이 긴 문맥을 늘려도 현실적 행동 연쇄를 충분히 재현하지 못함을 보여줍니다.

📄Multimodal & Generative7

INSPATIO-WORLD: 시공간 자기회귀로 구현한 실시간 4D 월드 시뮬레이터695

INSPATIO-WORLD는 STAR 아키텍처와 잠재 시공간 캐시, 명시적 공간 제약 모듈을 결합해 단일 참조 비디오만으로도 공간 일관성과 상호작용성을 갖춘 실시간 4D 장면 시뮬레이션을 구현했습니다.

LPM 1.0: 비디오 기반 캐릭터 퍼포먼스 모델77

LPM 1.0은 대화형 단일 인물 퍼포먼스를 위해 정제된 멀티모달 데이터셋과 17B Diffusion Transformer를 구축해, 표현력·실시간성·장기 정체성 유지라는 '퍼포먼스 트릴레마'를 동시에 겨냥했습니다.

OpenVLThinkerV2: 다중 도메인 시각 과제를 위한 범용 멀티모달 추론 모델138

OpenVLThinkerV2는 과제별 보상 분포를 정규화하는 Gaussian GRPO(G²RPO)로 멀티모달 RL 학습의 분산과 이상치 문제를 줄여, 다양한 시각 과제에서 더 안정적인 범용 추론을 노렸습니다.

📄Robotics & RL3

HY-Embodied-0.5: 현실 세계 에이전트를 위한 임바디드 파운데이션 모델223

HY-Embodied-0.5는 2B/32B 임바디드 모델군에 Mixture-of-Transformers와 latent token, 자기진화형 추론 학습을 적용해 실제 에이전트에 필요한 시공간 지각과 계획 능력을 강화했습니다.

SIM1: 변형 물체 세계를 위한 물리 정렬 시뮬레이터 기반 제로샷 데이터 스케일러39

SIM1은 적은 시연만으로 장면 디지털 트윈, 탄성 기반 변형 동역학 보정, 확산 기반 궤적 확장을 묶어 천·연성 물체 조작용 실세계 정렬 합성 데이터를 대규모로 생성합니다.

ViVa: 로봇 강화학습을 위한 비디오 생성형 가치 모델18

ViVa는 사전학습 비디오 생성기를 가치 함수로 재활용해 현재 관측에서 미래 proprioception과 상태 가치를 함께 예측함으로써, 장기 로봇 과제에서 부분 관측성과 지연 보상 문제를 더 잘 다룹니다.

📄Training & Optimization1

탄력적 테스트타임 학습을 활용한 고속 공간 메모리73

FSM은 Fisher 가중 elastic prior와 EMA anchor를 쓰는 Elastic Test-Time Training으로 LaCT의 망각·과적합을 줄여, 긴 시퀀스 기반 4D 재구성을 더 안정적이고 확장 가능하게 만들었습니다.

🗣️Language Models4

추론 SFT의 일반화 다시 보기: 최적화·데이터·모델 능력의 조건부 분석63

이 연구는 추론 SFT가 단순 암기에 그친다는 통념과 달리, 충분한 학습·검증된 긴 CoT·강한 기반 모델이 갖춰지면 도메인 간 일반화가 나타나며 초반 성능 하락은 과소최적화의 착시일 수 있음을 보였습니다.

DMax: 확산 언어모델을 위한 공격적 병렬 디코딩31

DMax는 On-Policy Uniform Training과 Soft Parallel Decoding으로 dLLM의 병렬 디코딩 오류 누적을 줄여, 생성 품질을 유지하면서 더 과감한 병렬 추론을 가능하게 했습니다.

MARS: 자기회귀 모델의 멀티토큰 생성을 가능하게 하다10

MARS는 추가 헤드나 구조 변경 없이 기존 instruction 데이터로 계속 학습만 해 AR 모델이 한 번에 여러 토큰을 예측하게 만들고, 정확도 유지와 함께 1.5~1.7배 처리량 향상을 달성했습니다.

👁️Computer Vision2

OpenSpatial: 공간 지능을 위한 원칙 기반 데이터 엔진49

OpenSpatial은 3D 박스를 기본 단위로 공간 측정·관계·카메라 지각·멀티뷰 일관성·장면 추론을 포괄하는 데이터 엔진과 300만 샘플 규모 OpenSpatial-3M을 공개해 공간 지능 학습 기반을 넓혔습니다.

TC-AE: 딥 압축 오토인코더의 토큰 용량을 여는 방법11

TC-AE는 고압축에서 발생하는 latent collapse를 채널 확장 대신 토큰 공간 설계로 풀어, 2단계 token-to-latent 압축과 ViT 기반 구조로 생성 친화적인 고효율 압축 표현을 제안했습니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택