오늘의 한줄

오늘은 에이전트 평가와 메모리 벤치마크가 특히 두드러졌고, 비디오·이미지 생성에서는 디퓨전의 효율성과 제어 가능성을 높이는 방법들이 눈에 띄었습니다. 동시에 추론형 LLM과 인프라 연구는 스케일링 법칙을 학습·서빙·라우팅 전반으로 확장하는 흐름을 보여줍니다.

💻Code & Agents5

WildClawBench: A Benchmark for Real-World, Long-Horizon Agent EvaluationWildClawBench: 현실형 장기 과제 에이전트 평가 벤치마크⭐ 368

WildClawBench는 실제 CLI 런타임과 Docker 환경에서 평균 8분·20회 이상 도구 호출이 필요한 60개 이중언어·멀티모달 과제를 제공해, 기존 샌드박스형 벤치마크보다 훨씬 현실적인 장기 에이전트 평가를 가능하게 합니다.

EVA-Bench: A New End-to-end Framework for Evaluating Voice AgentsEVA-Bench: 음성 에이전트 종단간 평가 프레임워크⭐ 114

EVA-Bench는 bot-to-bot 오디오 대화 시뮬레이션과 자동 검증, 그리고 정확도 중심 EVA-A와 사용자 경험 중심 EVA-X를 결합해 음성 에이전트의 과업 수행과 발화 품질을 함께 측정하는 종단간 평가 체계를 제시합니다.

MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent MemoryMemEye: 시각 중심 멀티모달 에이전트 메모리 평가 프레임워크⭐ 17

MemEye는 장면 수준부터 픽셀 수준까지의 시각 증거 세분성과 단일 증거부터 변화 추론까지의 활용 방식을 축으로, 텍스트 지름길 없이 진짜 시각 기억 능력을 평가하도록 설계된 멀티모달 에이전트 메모리 벤치마크입니다.

💡 에이전트 연구의 초점이 단순 성능 과시에서 현실적 평가와 운영 가능성으로 빠르게 이동하고 있습니다. 실제 CLI·음성·멀티모달 메모리처럼 배포 환경을 닮은 벤치마크와, 평가 자체를 자동화하려는 시도가 함께 등장한 점이 인상적입니다.

📄Multimodal & Generative7

AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map DistillationAnyFlow: 온폴리시 플로우맵 증류로 구현한 임의 스텝 비디오 디퓨전⭐ 190

AnyFlow는 endpoint consistency 대신 임의 구간의 flow-map 전이를 학습해 전체 ODE 궤적을 보존함으로써, 적은 스텝뿐 아니라 더 많은 테스트 스텝에서도 성능이 유지되는 최초의 any-step 비디오 증류 프레임워크를 제안합니다.

Asymmetric Flow Models비대칭 플로우 모델⭐ 303

AsymFlow는 노이즈 예측만 저랭크 부분공간으로 제한하는 rank-asymmetric velocity parameterization으로 ImageNet 256×256에서 FID 1.57을 달성하며, 사전학습 latent flow를 pixel-space 모델로 자연스럽게 미세조정하는 경로도 제시했습니다.

Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion ModelsForcing-KV: 효율적인 자기회귀 비디오 디퓨전을 위한 하이브리드 KV 캐시 압축⭐ 68

Forcing-KV는 비디오 AR 디퓨전의 attention head를 static/dynamic으로 나눠 서로 다른 KV 압축 전략을 적용함으로써, 장기 비디오 생성의 메모리 병목을 줄이면서도 프레임 품질과 모션 일관성을 함께 유지합니다.

💡 생성 모델은 이제 품질 경쟁을 넘어 임의 스텝 샘플링, 장기 비디오 외삽, 카메라 제어, 메모리 효율화처럼 사용성 중심의 개선이 핵심이 되고 있습니다. 동시에 VAE·flow·diffusion이 서로의 장점을 흡수하며 더 압축적이고 제어 가능한 생성 스택으로 수렴하는 흐름이 보입니다.

📄Robotics & RL2

Self-Distilled Agentic Reinforcement Learning자기 증류 기반 에이전트 강화학습⭐ 58

SDAR는 RL을 주축으로 유지하면서 teacher의 token-level 신호를 sigmoid gate로 선별 반영하는 self-distillation 보조 목표를 도입해, 다중 턴 에이전트 학습에서 불안정한 감독 신호를 완화하고 장기 상호작용 성능을 높였습니다.

The DAWN of World-Action Interactive Models세계-행동 상호작용 모델의 새벽, DAWN⭐ 22

DAWN은 자율주행에서 world prediction과 action denoising을 재귀적으로 상호 갱신하는 World-Action Interactive Model을 제안해, 예측과 계획을 분리하던 기존 파이프라인보다 더 일관된 장면-행동 추론을 구현합니다.

💡 강화학습은 더 이상 보상만으로 에이전트를 다루지 않고, 자기 증류나 world-action 상호작용처럼 구조화된 보조 신호를 결합하는 방향으로 진화하고 있습니다. 긴 상호작용에서 감독 신호를 더 촘촘하게 만들고 계획-예측의 분리를 줄이는 것이 공통된 문제의식입니다.

👁️Computer Vision3

TrackCraft3R: Repurposing Video Diffusion Transformers for Dense 3D TrackingTrackCraft3R: 비디오 디퓨전 트랜스포머를 재활용한 밀집 3D 추적⭐ 45

TrackCraft3R는 프레임 생성용 video DiT를 참조 프레임 기준의 feed-forward dense 3D tracker로 재구성해, 인터넷 규모 비디오에서 학습된 시공간 사전을 3D 동적 장면 추적에 직접 활용하는 길을 열었습니다.

Sat3DGen: Comprehensive Street-Level 3D Scene Generation from Single Satellite ImageSat3DGen: 단일 위성 이미지에서 생성하는 종합 거리 수준 3D 장면⭐ 28

Sat3DGen은 geometry-first 설계와 perspective-view 학습 전략, 새로운 기하 제약을 통해 위성-거리 시점 간극으로 인한 기하 오류를 줄여, 단일 위성 이미지로부터 더 정확하고 풍부한 거리 수준 3D 장면 생성을 달성했습니다.

Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty?Visual Aesthetic Benchmark: 최첨단 모델은 아름다움을 판단할 수 있을까⭐ 30

VAB는 단일 점수 예측 대신 후보군 간 비교 선택으로 미적 판단을 재정의하고, 전문가 직접 비교가 더 높은 합의를 보인다는 점을 바탕으로 400개 과제의 평가셋을 구축해 MLLM의 심미안 한계를 정밀 측정합니다.

💡 비전 분야에서는 사전학습된 생성·비디오 모델을 추적과 3D 생성 같은 다운스트림 기하 문제로 전용하는 흐름이 강합니다. 대규모 시공간 사전과 기하 제약을 결합해, 별도 대규모 라벨링 없이도 더 정교한 장면 이해를 끌어내려는 시도가 이어지고 있습니다.

🗣️Language Models2

Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling단순하고 통합된 스케일링으로 달성한 금메달급 올림피아드 추론⭐ 41

SU-01은 reverse-perplexity 기반 SFT, 검증 가능 보상에서 proof-level RL로 이어지는 2단계 RL, 테스트 타임 스케일링을 결합해 30B-A3B 백본으로 100K 토큰 이상의 안정적 올림피아드급 추론을 구현했습니다.

RouteProfile: Elucidating the Design Space of LLM Profiles for RoutingRouteProfile: LLM 라우팅용 프로파일 설계 공간 해부⭐ 6

RouteProfile은 LLM 프로파일링을 조직 형태·표현 방식·집계 깊이·학습 설정의 4축 설계 공간으로 정리해, 라우터 자체보다 프로파일 설계가 성능과 공정한 비교에 얼마나 큰 영향을 주는지 체계적으로 보여줍니다.

💡 LLM 연구는 여전히 스케일링이 중심이지만, 이제는 데이터 커리큘럼·RL 단계 설계·테스트 타임 확장·라우팅 프로파일링처럼 어디를 어떻게 스케일할지가 더 중요해졌습니다. 즉, 모델 크기 자체보다 추론 행동과 모델 선택 정책을 정교하게 설계하는 시대에 들어섰습니다.

📄Training & Optimization1

MinT: Managed Infrastructure for Training and Serving Millions of LLMsMinT: 수백만 LLM의 학습·서빙을 위한 관리형 인프라⭐ 26

MinT는 base model 상주와 adapter-only handoff를 중심으로 LoRA 정책의 학습·평가·서빙을 통합 관리하며, 4B dense 모델에서 단계 전환 비용을 18.3배 줄이고 1T+ 파라미터 규모까지 확장 가능한 인프라 경로를 제시합니다.

💡 인프라 연구는 거대 모델 하나를 잘 학습시키는 문제를 넘어, 수많은 파생 정책을 얼마나 싸고 빠르게 운영하느냐로 관심이 이동하고 있습니다. LoRA를 중심으로 학습·평가·서빙을 하나의 시스템 문제로 다루는 접근이 앞으로 더 중요해질 것으로 보입니다.