오늘의 한줄

오늘은 에이전트 평가·보안이 특히 두드러졌고, 코드 생성과 웹·모바일·PC 환경에서의 실제 사용성 검증이 빠르게 정교해지고 있습니다. 한편으로는 로봇 VLA, 비전 추론 벤치마크, 효율적 추론·적응 기법까지 이어지며 '잘 만드는 것'에서 '안전하고 믿을 수 있게 쓰는 것'으로 무게중심이 옮겨가는 흐름이 보입니다.

💻Code & Agents11

ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and WatchersClawKeeper: 스킬·플러그인·워처로 OpenClaw 에이전트를 전방위 보호하는 안전 프레임워크⭐ 279

ClawKeeper는 OpenClaw 에이전트의 지시문·플러그인·실행 감시를 아우르는 3계층 실시간 보안 프레임워크로, 데이터 유출·권한 상승·악성 스킬 실행 같은 시스템급 위협을 라이프사이클 전반에서 통합적으로 막습니다.

Embarrassingly Simple Self-Distillation Improves Code Generation너무 단순한 자기 증류만으로도 코드 생성이 좋아진다⭐ 21

SSD는 검증기·교사 모델·RL 없이 모델 자신의 샘플만으로 재학습해 Qwen3-30B-Instruct의 LiveCodeBench v6 pass@1을 42.4%에서 55.3%로 끌어올리며, 어려운 문제에서 특히 큰 개선을 보였습니다.

MiroEval: Benchmarking Multimodal Deep Research Agents in Process and OutcomeMiroEval: 과정과 결과를 함께 보는 멀티모달 딥리서치 에이전트 벤치마크⭐ 20

MiroEval은 실제 사용자 수요 기반 100개 과제로 최종 보고서뿐 아니라 조사 과정, 사실성 검증, 멀티모달 증거 활용까지 평가해 딥리서치 에이전트의 '어떻게 조사했는지'를 처음 본격 측정합니다.

📄Multimodal & Generative1

ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?ViGoR-Bench: 시각 생성 모델은 제로샷 시각 추론에 얼마나 가까운가⭐ 35

ViGoR-Bench는 이미지·비디오 생성 전 과정을 함께 평가하는 추론 중심 벤치마크로, 20개 이상 최신 모델을 분석해 높은 화질 뒤에 물리·인과·공간 추론의 큰 공백이 있음을 드러냈습니다.

📄Robotics & RL1

MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and GenerationMMaDA-VLA: 멀티모달 지시와 생성을 통합한 대형 디퓨전 비전-언어-행동 모델⭐ 29

MMaDA-VLA는 언어·이미지·로봇 제어를 하나의 이산 토큰 공간에 넣고 디퓨전으로 미래 관측과 액션 청크를 함께 생성해, 추가 모듈 없이도 장기 조작의 일관성과 환경 동역학 반영을 강화합니다.

👁️Computer Vision2

PerceptionComp: A Video Benchmark for Complex Perception-Centric ReasoningPerceptionComp: 복합 지각 중심 추론을 위한 비디오 벤치마크⭐ 8

PerceptionComp는 279개 비디오와 1,114개 수작업 질문으로 시간적으로 떨어진 단서들을 결합해야만 풀 수 있는 장기 비디오 추론을 측정하며, 사람도 재시청 없이 18.97%까지 무너질 만큼 어려운 과제를 제시합니다.

Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual GroundingThink, Act, Build: 비전-언어 모델 기반 제로샷 3D 비주얼 그라운딩 에이전트⭐ 7

TAB은 3D 그라운딩을 2D-to-3D 재구성 문제로 바꿔 VLM이 RGB-D 스트림에서 도구를 호출하며 목표를 추적·복원하게 함으로써, 정적 포인트클라우드 의존 제로샷 3D-VG의 한계를 넘어섭니다.

📄Training & Optimization3

PixelPrune: Pixel-Level Adaptive Visual Token Reduction via Predictive CodingPixelPrune: 예측 부호화로 픽셀 수준 시각 토큰을 줄이는 적응형 압축⭐ 5

PixelPrune은 문서·GUI 이미지에서 중복 패치를 픽셀 단계에서 미리 제거해 ViT와 LLM 전체 추론을 함께 가속하는 무학습 압축 기법으로, 고해상도 VLM의 비용 낭비를 직접 줄입니다.

UniMixer: A Unified Architecture for Scaling Laws in Recommendation SystemsUniMixer: 추천 시스템 스케일링 법칙을 위한 통합 아키텍처

UniMixer는 attention·TokenMixer·FM 계열을 일반화된 파라미터화 feature mixing으로 묶어 추천 모델 스케일링을 하나의 이론과 아키텍처로 통합하려는 시도입니다.

S0 Tuning: Zero-Overhead Adaptation of Hybrid Recurrent-Attention ModelsS0 Tuning: 하이브리드 순환-어텐션 모델을 위한 제로 오버헤드 적응⭐ 2

S0 Tuning은 각 recurrent layer의 초기 상태 행렬만 조정해 추론 오버헤드 없이 적응하며, Qwen3.5-4B에서 HumanEval pass@1을 +23.6%p 높이고 적은 데이터에서도 LoRA를 능가했습니다.

🗣️Language Models2

Universal YOCO for Efficient Depth Scaling효율적인 깊이 확장을 위한 Universal YOCO

YOCO-U는 얕은 효율 주의층에서만 재귀 계산을 반복하는 Universal Self-Decoder로, 상수 크기 글로벌 KV 캐시와 선형 프리필을 유지하면서 테스트타임 깊이 확장을 더 싸고 효과적으로 만듭니다.

A Survey of On-Policy Distillation for Large Language Models대규모 언어모델을 위한 온폴리시 증류 서베이

이 서베이는 학생 모델이 자기 생성 궤적 위에서 교사 피드백을 받는 OPD를 f-divergence 관점으로 정리해, 정적 데이터 기반 증류의 노출 편향을 넘는 최신 흐름을 체계화합니다.