오늘의 한줄

오늘은 에이전트의 자율 개선과 평가, 멀티모달 생성의 물리·공간 일관성, 그리고 데이터·학습 절차를 다시 설계하는 연구가 두드러졌습니다. 특히 벤치마크와 프레임워크 논문이 많아지며, 성능 경쟁에서 실제 배포·검증 가능한 시스템 경쟁으로 무게중심이 옮겨가고 있음을 보여줍니다.

💻Code & Agents6

Signals: Trajectory Sampling and Triage for Agentic InteractionsSignals: 에이전트 상호작용을 위한 궤적 샘플링과 트리아지⭐ 6,152

Signals는 모델 호출 없이 misalignment·loop·failure 같은 저비용 신호를 붙여 대규모 에이전트 궤적을 우선순위화함으로써, 배포 후 개선에 필요한 검토 비용을 크게 낮추는 경량 트리아지 프레임워크를 제안합니다.

ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and WatchersClawKeeper: Skills·Plugins·Watchers로 OpenClaw 에이전트를 보호하는 종합 안전 프레임워크⭐ 290

ClawKeeper는 스킬 수준 정책 주입, 플러그인 실행 통제, 실시간 watcher 감시를 결합해 OpenClaw 에이전트의 데이터 유출·권한 상승·악성 스킬 실행을 전주기적으로 막는 보안 프레임워크입니다.

CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended DiscoveryCORAL: 개방형 발견을 위한 자율 멀티에이전트 진화⭐ 107

CORAL은 지속 메모리, 비동기 협업, heartbeat 개입을 갖춘 장기 실행 멀티에이전트 진화 프레임워크로, 수학·알고리즘·시스템 최적화 10개 과제에서 기존 탐색 대비 3~10배 높은 개선률을 달성했습니다.

👁️Computer Vision2

MDPBench: A Benchmark for Multilingual Document Parsing in Real-World ScenariosMDPBench: 실제 환경 다국어 문서 파싱 벤치마크⭐ 811

MDPBench는 17개 언어·3,400개 문서 이미지로 구성된 첫 실전형 다국어 문서 파싱 벤치마크로, Gemini3-Pro 등 폐쇄형 모델의 강세와 저자원 언어·촬영 문서에서의 오픈소스 취약점을 드러냈습니다.

Generative World Renderer생성형 월드 렌더러⭐ 182

Generative World Renderer는 AAA 게임에서 추출한 400만 프레임 RGB+G-buffer 데이터셋과 VLM 기반 평가를 제안해, 실제 환경에 가까운 inverse/forward rendering 학습과 평가를 함께 끌어올립니다.

🗣️Language Models1

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook잠재 공간: 기초, 진화, 메커니즘, 능력, 그리고 전망⭐ 497

이 서베이는 언어 기반 모델에서 토큰 대신 잠재 공간이 왜 더 자연스러운 계산 기판이 되는지 기초·메커니즘·응용을 체계화해, 차세대 추론·생성 아키텍처의 설계 지형도를 제공합니다.

📄Multimodal & Generative5

VOID: Video Object and Interaction DeletionVOID: 비디오 객체 및 상호작용 삭제⭐ 326

VOID는 객체 제거 뒤 충돌·연쇄 반응까지 물리적으로 다시 써야 하는 상황을 위해, VLM으로 영향 영역을 찾고 비디오 디퓨전으로 반사실적 장면을 생성해 더 그럴듯한 비디오 삭제를 구현합니다.

T5Gemma-TTS Technical ReportT5Gemma-TTS 기술 보고서⭐ 284

T5Gemma-TTS는 4B 규모 인코더-디코더 코덱 LM에 PM-RoPE를 결합해 긴 발화에서도 텍스트 조건을 안정적으로 유지하며, 17만 시간 다국어 음성 학습으로 제로샷 음성 합성 품질을 높였습니다.

ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?ViGoR-Bench: 시각 생성 모델은 제로샷 시각 추론자와 얼마나 거리가 있는가?⭐ 35

ViGoR-Bench는 이미지·비디오 생성 전 과정을 reasoning 중심으로 진단하는 평가 프레임워크로, 20여 개 최신 모델이 높은 시각 품질과 별개로 물리·인과·공간 추론에서는 여전히 큰 결함을 보인다고 밝혔습니다.

📄Training & Optimization2

DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language ModelsDataFlex: 대규모 언어모델의 데이터 중심 동적 학습을 위한 통합 프레임워크⭐ 148

DataFlex는 샘플 선택, 도메인 혼합 조정, 샘플 재가중치를 LLaMA-Factory 위에서 통합해, 데이터 중심 LLM 학습 기법을 드롭인 방식으로 재현·비교·확장할 수 있게 만든 프레임워크입니다.

ASI-Evolve: AI Accelerates AIASI-Evolve: AI가 AI를 가속하다⭐ 77

ASI-Evolve는 cognition base와 analyzer를 포함한 learn-design-experiment-analyze 루프로 데이터·아키텍처·학습 알고리즘을 자동 탐색하며, 선형 어텐션 설계 등에서 105개의 SOTA 후보를 발견했습니다.

📄Robotics & RL4

SKILL0: In-Context Agentic Reinforcement Learning for Skill InternalizationSKILL0: 스킬 내재화를 위한 인컨텍스트 에이전트 강화학습⭐ 81

SKILL0는 학습 초기에 스킬 컨텍스트를 제공한 뒤 점진적으로 제거하는 커리큘럼 RL로, 런타임 스킬 검색 없이도 도구 사용과 다중 턴 절차를 모델 파라미터에 내재화하도록 만듭니다.

UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous DrivingUniDriveVLA: 자율주행을 위한 이해·지각·행동 계획의 통합⭐ 54

UniDriveVLA는 Mixture-of-Transformers 기반 전문가 분리로 2D VLM의 의미 추론력과 3D 주행 지각을 충돌 없이 결합해, 자율주행 VLA의 이해·지각·계획을 하나의 모델에서 통합합니다.

MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and GenerationMMaDA-VLA: 통합 멀티모달 지시와 생성을 위한 대형 디퓨전 비전-언어-행동 모델⭐ 29

MMaDA-VLA는 언어·이미지·로봇 제어를 하나의 이산 토큰 공간에 넣고 디퓨전으로 미래 관측과 액션 청크를 병렬 생성해, 장기 조작에서 일관성과 환경 동역학 반영을 강화한 네이티브 VLA입니다.