오늘의 한줄

오늘은 에이전트를 실제 환경에서 어떻게 평가할지, 그리고 비디오·이미지 생성 모델을 어떻게 더 효율적이고 제어 가능하게 만들지가 핵심 흐름으로 보입니다. 동시에 LLM은 추론 성능 자체뿐 아니라 라우팅, 메모리, 인프라까지 운영 관점의 연구가 빠르게 정교해지고 있습니다.

💻Code & Agents5

WildClawBench: A Benchmark for Real-World, Long-Horizon Agent EvaluationWildClawBench: 현실 세계 장기 과제용 에이전트 평가 벤치마크⭐ 368

WildClawBench는 실제 CLI 런타임과 Docker 환경에서 평균 8분·20회 이상 도구 호출이 필요한 60개 이중언어·멀티모달 과제를 평가하며, 기존 샌드박스 벤치보다 현실적인 장기 에이전트 성능 격차를 드러냅니다.

EVA-Bench: A New End-to-end Framework for Evaluating Voice AgentsEVA-Bench: 음성 에이전트 종단간 평가 프레임워크⭐ 114

EVA-Bench는 봇-투-봇 오디오 대화 시뮬레이션과 자동 검증, 그리고 정확도용 EVA-A·경험용 EVA-X 복합 지표를 함께 도입해 음성 에이전트의 과업 수행과 발화 품질을 한 번에 평가합니다.

MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent MemoryMemEye: 멀티모달 에이전트 메모리를 위한 시각 중심 평가 프레임워크⭐ 17

MemEye는 장면 수준부터 픽셀 수준까지 필요한 시각 증거의 세밀도와 단일 증거부터 변화 추론까지 활용 방식을 함께 평가해, 멀티모달 에이전트 메모리가 실제로 시각 근거를 보존하는지 정밀하게 검증합니다.

💡 에이전트 연구의 초점이 이제 '잘 작동하나'를 넘어 '현실 환경에서 어떻게 믿고 평가할 것인가'로 이동하고 있습니다. CLI, 음성, 멀티모달 메모리, 평가 자동화, 멀티에이전트까지 평가 대상이 넓어지면서 벤치마크 자체가 에이전트 시스템 설계의 핵심 인프라가 되고 있습니다.

📄Multimodal & Generative6

AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map DistillationAnyFlow: 온폴리시 플로우 맵 증류 기반 임의 스텝 비디오 디퓨전⭐ 190

AnyFlow는 endpoint consistency 대신 임의 구간의 flow-map 전이를 학습해 비디오 디퓨전의 전체 ODE 궤적을 증류함으로써, 적은 스텝뿐 아니라 더 많은 테스트 스텝에서도 성능이 무너지지 않는 any-step 생성기를 구현했습니다.

Asymmetric Flow Models비대칭 플로우 모델⭐ 303

AsymFlow는 저랭크 서브스페이스에서만 노이즈를 예측하는 비대칭 속도 파라미터화로 고차원 플로우 생성을 단순화해 ImageNet 256x256에서 FID 1.57을 달성했고, 잠재 플로우 모델을 픽셀 공간으로 미세조정하는 경로도 처음 제시했습니다.

Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training VideoWarp-as-History: 단일 학습 비디오로 일반화하는 카메라 제어 비디오 생성⭐ 47

Warp-as-History는 카메라 워프 결과를 pseudo-history로 바꿔 기존 모델의 visual-history 경로에 넣는 단순 인터페이스만으로, 대규모 카메라 주석 재학습 없이도 카메라 궤적을 따르는 비디오 생성을 가능하게 합니다.

💡 생성 연구는 더 적은 스텝으로 빠르게 만드는 단계에서 나아가, 임의 스텝 확장성·실시간성·카메라 제어·미학 판단처럼 사용성 중심으로 진화하고 있습니다. 동시에 VAE와 플로우 모델의 기초 표현 학습이 좋아지면서 고품질 생성의 기반 체력도 함께 강화되는 모습입니다.

📄Training & Optimization2

Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion ModelsForcing-KV: 효율적인 자기회귀 비디오 디퓨전용 하이브리드 KV 캐시 압축⭐ 68

Forcing-KV는 헤드별 기능 분화를 활용해 정적·동적 헤드를 나눠 서로 다른 방식으로 KV 캐시를 압축함으로써, 장기 자기회귀 비디오 디퓨전의 메모리 병목과 어텐션 비용을 줄이는 실용적 최적화 기법을 제안합니다.

MinT: Managed Infrastructure for Training and Serving Millions of LLMsMinT: 수백만 개 LLM의 학습과 서빙을 위한 관리형 인프라⭐ 26

MinT는 베이스 모델을 상주시킨 채 LoRA 어댑터만 학습·평가·서빙·롤백하는 관리형 인프라로, rank-1 기준 어댑터 전송만으로 4B 모델에서 18.3배 빠른 핸드오프를 달성하며 대규모 정책 운영 비용을 낮췄습니다.

💡 효율화는 더 이상 부차적 주제가 아니라 모델 제품화를 좌우하는 본류가 됐습니다. 비디오 생성의 KV 캐시 압축과 LoRA 중심 대규모 운영 인프라는 모두, 같은 모델 성능이라도 메모리·전송·서빙 구조를 어떻게 짜느냐가 실제 경쟁력을 결정함을 보여줍니다.

📄Robotics & RL2

Self-Distilled Agentic Reinforcement Learning자기 증류 기반 에이전트 강화학습⭐ 58

SDAR는 RL을 주축으로 유지하면서 교사 분기의 토큰 단위 신호를 sigmoid gate로 선별 반영하는 보조 목표를 더해, 멀티턴 에이전트 학습에서 자기증류의 불안정성을 줄이고 장기 상호작용 성능을 높였습니다.

The DAWN of World-Action Interactive Models월드-액션 상호작용 모델의 시작, DAWN⭐ 22

DAWN은 자율주행에서 세계 예측기와 행동 디노이저가 추론 중 서로를 반복 갱신하는 WAIM 구조를 제안해, world prediction과 planning을 분리하던 기존 파이프라인보다 더 상호의존적인 의사결정을 구현합니다.

💡 RL 계열 연구는 단순 보상 최적화에서 벗어나, 상호작용 과정의 더 촘촘한 신호와 세계-행동 간 상호의존성을 모델링하는 방향으로 가고 있습니다. 즉 에이전트를 더 오래, 더 안정적으로 굴리려면 정책뿐 아니라 학습 신호와 환경 예측을 함께 설계해야 한다는 흐름입니다.

👁️Computer Vision2

TrackCraft3R: Repurposing Video Diffusion Transformers for Dense 3D TrackingTrackCraft3R: 비디오 디퓨전 트랜스포머를 활용한 조밀한 3D 추적⭐ 45

TrackCraft3R는 인터넷 규모 비디오로 학습된 video DiT의 시공간 사전을 참조 프레임 기준의 feed-forward 3D 추적으로 재구성해, 단안 비디오에서 동적 장면의 조밀한 3D 포인트 추적을 개선합니다.

Sat3DGen: Comprehensive Street-Level 3D Scene Generation from Single Satellite ImageSat3DGen: 단일 위성 이미지로 만드는 종합 거리 수준 3D 장면 생성⭐ 28

Sat3DGen은 geometry-first 설계와 원근 시점 학습, 새로운 기하 제약을 결합해 단일 위성 이미지에서 거리 수준 3D 장면을 더 정확하고 안정적으로 생성하며, 기존 위성-대-거리 뷰 간 기하 붕괴 문제를 크게 줄였습니다.

💡 비전 연구는 생성 모델과 3D 기하를 결합해, 단순 인식이 아닌 추적과 장면 재구성 같은 구조적 이해로 확장되고 있습니다. 특히 대규모 비디오 사전학습이나 기하 우선 설계가 실제 3D 일관성과 동적 장면 이해를 끌어올리는 핵심 축으로 보입니다.

🗣️Language Models3

Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling단순하고 통합된 스케일링으로 달성한 금메달급 올림피아드 추론⭐ 41

SU-01은 reverse-perplexity 커리큘럼 SFT, 2단계 RL, 테스트타임 스케일링을 결합한 단순 레시피로 30B-A3B 백본을 10만 토큰이 넘는 안정적 추론이 가능한 올림피아드급 풀이기로 끌어올렸습니다.

MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language ModelsMemLens: 대규모 비전언어모델의 멀티모달 장기 기억 벤치마크⭐ 14

MEMLENS는 32K~256K 컨텍스트와 5가지 기억 능력에 걸친 789개 질의로 장기 컨텍스트 LVLM과 메모리 증강 에이전트를 비교하며, 시각 증거 제거 시 정확도가 2% 미만으로 떨어지는 문제를 통해 진짜 멀티모달 기억 난도를 보여줍니다.

RouteProfile: Elucidating the Design Space of LLM Profiles for RoutingRouteProfile: LLM 라우팅용 프로필 설계 공간 해부⭐ 6

RouteProfile은 라우터 자체보다 덜 주목받던 LLM 프로필을 조직 형태, 표현, 집계 깊이, 학습 설정의 4축 설계 공간으로 체계화해, 어떤 프로필 구성이 라우팅 성능을 좌우하는지 비교 가능한 기준을 제공합니다.

💡 LLM 연구는 더 똑똑한 추론기 자체를 만드는 것과, 여러 모델을 어떻게 기억시키고 라우팅할지 운영 계층을 정교화하는 흐름이 동시에 강해지고 있습니다. 성능 경쟁이 단일 모델 스코어에서 시스템 수준의 추론·메모리·선택 전략으로 옮겨가는 신호로 읽힙니다.