오늘의 한줄

오늘은 멀티모달 모델이 이해와 생성을 하나로 묶는 방향, 에이전트가 실제 환경과 장기 기억을 얼마나 잘 다루는지 측정·개선하는 방향, 그리고 RL·스케일링으로 고난도 추론과 생성 품질을 끌어올리는 흐름이 두드러졌습니다. 특히 벤치마크와 메모리 설계가 모델 성능만큼 중요한 연구 축으로 자리잡고 있다는 점이 인상적입니다.

📄Multimodal & Generative6

SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify ArchitectureSenseNova-U1: NEO-unify 아키텍처로 멀티모달 이해와 생성을 통합하다⭐ 1,636

SenseNova-U1은 NEO-unify 기반의 네이티브 통합 멀티모달 모델로 이해 전용 VLM 수준의 성능을 유지하면서도 이미지 생성까지 하나의 표현 공간에서 함께 다뤄, 분리형 파이프라인의 한계를 줄였습니다.

AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map DistillationAnyFlow: 온폴리시 플로우 맵 증류로 구현한 임의 스텝 비디오 디퓨전⭐ 190

AnyFlow는 endpoint consistency 대신 임의 구간의 flow map을 학습해 비디오 디퓨전의 전체 ODE 궤적을 증류함으로써, 적은 스텝뿐 아니라 더 많은 스텝에서도 성능이 유지되는 any-step 생성기를 구현했습니다.

Asymmetric Flow Models비대칭 플로우 모델⭐ 303

AsymFlow는 저랭크 서브스페이스에서만 노이즈를 예측하는 비대칭 속도 파라미터화를 도입해 ImageNet 256×256에서 FID 1.57을 기록했으며, 잠재 플로우 모델을 픽셀 공간으로 자연스럽게 미세조정하는 경로도 제시했습니다.

💡 멀티모달 생성은 이제 이해와 생성을 분리하지 않고 하나의 모델·보상·표현 공간으로 통합하는 방향으로 빠르게 이동하고 있습니다. 동시에 비디오 생성에서는 임의 스텝 추론, 카메라 제어, 장기 외삽처럼 실제 사용 조건에서의 제어 가능성과 안정성을 높이는 연구가 핵심 경쟁력이 되고 있습니다.

💻Code & Agents6

WildClawBench: A Benchmark for Real-World, Long-Horizon Agent EvaluationWildClawBench: 현실 환경 장기 과제 에이전트 평가 벤치마크⭐ 368

WildClawBench는 실제 CLI 런타임·실도구·8분 이상 장기 과제로 구성된 60개 태스크를 통해 에이전트를 평가하며, 최고 성능 모델도 50%에 못 미쳐 현실형 장기 작업 자동화의 격차를 드러냈습니다.

Continual Harness: Online Adaptation for Self-Improving Foundation AgentsContinual Harness: 자기개선형 파운데이션 에이전트를 위한 온라인 적응⭐ 89

Continual Harness는 포켓몬 플레이 실험에서 관찰된 자기개선 패턴을 일반화해, 에이전트가 리셋 없이 프롬프트·서브에이전트·스킬·메모리를 스스로 갱신하며 장기 성능을 끌어올리는 embodied harness를 제안했습니다.

EVA-Bench: A New End-to-end Framework for Evaluating Voice AgentsEVA-Bench: 음성 에이전트 평가를 위한 새로운 엔드투엔드 프레임워크⭐ 114

EVA-Bench는 봇-투-봇 오디오 대화 시뮬레이션과 재생성 검증, 그리고 정확도·경험을 포괄하는 EVA-A·EVA-X 지표를 결합해 음성 에이전트의 실제 실패 양상을 종단간으로 평가합니다.

💡 에이전트 연구는 더 이상 데모 성능보다 현실적인 평가와 장기 메모리 관리가 중심 과제가 되고 있습니다. 실제 CLI·음성·멀티모달 환경에서의 벤치마크와 프라이버시·시각 증거 보존 같은 운영 이슈가 함께 다뤄지며, '잘 푸는 모델'에서 '현장에서 믿고 쓰는 에이전트'로 초점이 옮겨가고 있습니다.

📄Robotics & RL2

World Model for Robot Learning: A Comprehensive Survey로봇 학습을 위한 월드 모델: 종합 서베이⭐ 312

이 서베이는 로봇 정책 학습에서 월드 모델이 계획·시뮬레이션·데이터 생성·평가까지 어떻게 연결되는지 정리하며, 비디오 생성 기반 파운데이션 월드 모델이 로보틱스의 핵심 축으로 부상했음을 보여줍니다.

World Action Models: The Next Frontier in Embodied AI월드 액션 모델: embodied AI의 다음 프런티어⭐ 129

이 논문은 상태 예측과 행동 생성을 함께 모델링하는 World Action Models를 정의하고 VLA와 월드 모델 연구를 하나의 틀로 묶어, embodied AI가 반응형 정책에서 예측 기반 정책으로 이동하고 있음을 정리했습니다.

💡 로보틱스에서는 월드 모델이 보조 도구를 넘어 정책 자체를 구성하는 중심 요소로 자리잡고 있습니다. 특히 WAM처럼 상태 전개와 행동 생성을 함께 모델링하려는 흐름은 embodied AI가 반응형 제어를 넘어 예측 기반 의사결정으로 진화하고 있음을 시사합니다.

📄Training & Optimization2

Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion ModelsForcing-KV: 효율적인 자기회귀 비디오 디퓨전을 위한 하이브리드 KV 캐시 압축⭐ 68

Forcing-KV는 어텐션 헤드의 역할 분화를 이용해 정적·동적 헤드를 다르게 압축하는 하이브리드 KV 캐시 기법으로, 장기 자기회귀 비디오 디퓨전의 메모리와 계산 병목을 줄여 확장성을 높였습니다.

Self-Distilled Agentic Reinforcement Learning자기증류 기반 에이전트 강화학습⭐ 58

SDAR는 RL을 주축으로 유지하면서 privileged teacher의 토큰 단위 신호를 sigmoid gate로 선택적으로 반영해, 다중 턴 에이전트 학습에서 자기증류의 불안정을 줄이고 장기 상호작용 성능을 높였습니다.

💡 최적화 연구는 단순한 학습 안정화보다, 실제 추론 시 마주치는 분포와 자원 제약을 학습 단계에서 얼마나 잘 반영하느냐에 집중하고 있습니다. 비디오 모델의 KV 압축과 에이전트 RL의 선택적 자기증류 모두 성능 향상과 시스템 효율을 동시에 노리는 실용적 방향입니다.

🗣️Language Models2

Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling단순하고 통합된 스케일링으로 올림피아드 금메달급 추론 달성하기⭐ 41

SU-01은 reverse-perplexity 기반 SFT, 검증 가능 보상에서 proof-level RL로 이어지는 2단계 RL, 테스트타임 스케일링을 결합해 30B-A3B 모델을 10만 토큰 이상 안정적으로 추론하는 올림피아드급 풀이기로 만들었습니다.

δ-mem: Efficient Online Memory for Large Language Modelsδ-mem: 대형 언어모델을 위한 효율적인 온라인 메모리⭐ 46

δ-mem은 동결된 백본에 8×8 크기의 연상 메모리 상태만 추가해 attention을 저랭크 보정하며, 평균 성능을 기존 백본 대비 1.10배, 메모리 벤치마크 MemoryAgentBench에서는 1.31배까지 끌어올렸습니다.

💡 언어모델 쪽에서는 더 긴 추론과 더 지속적인 기억을 가능하게 하는 경량 구조·학습 레시피가 중요해지고 있습니다. 거대한 모델 증설 없이도 SFT+RL 파이프라인이나 소형 온라인 메모리로 능력을 끌어올리려는 접근이 점점 설득력을 얻고 있습니다.

👁️Computer Vision2

TrackCraft3R: Repurposing Video Diffusion Transformers for Dense 3D TrackingTrackCraft3R: 비디오 디퓨전 트랜스포머를 조밀한 3D 추적으로 재활용하기⭐ 45

TrackCraft3R는 인터넷 규모 비디오로 학습된 video DiT의 시공간 사전을 활용해, 프레임 생성용 구조를 참조 프레임 기준의 feed-forward 조밀 3D 추적으로 전환하는 첫 방법을 제시했습니다.

Sat3DGen: Comprehensive Street-Level 3D Scene Generation from Single Satellite ImageSat3DGen: 단일 위성 이미지로부터의 종합적 거리 수준 3D 장면 생성⭐ 28

Sat3DGen은 위성-거리 시점 격차를 줄이기 위해 기하 우선 전략과 perspective-view 학습을 도입해, 단일 위성 이미지에서 더 정확하고 안정적인 거리 수준 3D 장면 생성을 달성했습니다.

💡 비전 연구는 생성 모델과 3D 기하를 분리하지 않고 서로의 사전을 재활용하는 방향으로 확장되고 있습니다. 비디오 DiT를 3D 추적으로 전환하거나 위성 영상에서 거리 수준 3D를 복원하는 작업 모두, 대규모 사전학습 표현을 구조적 공간 이해에 연결하려는 흐름으로 읽힙니다.