오늘의 한줄

오늘은 에이전트의 장기 탐색·평가·보안 체계를 다루는 연구와, 멀티모달 생성 모델의 물리적 일관성·추론력·3D 통합을 강화하는 연구가 특히 두드러졌습니다. 동시에 데이터 중심 학습, 자가증류, 잠재공간 통합처럼 모델 자체의 학습 효율과 표현 방식을 재설계하려는 흐름도 뚜렷합니다.

💻Code & Agents7

Signals: Trajectory Sampling and Triage for Agentic InteractionsSignals: 에이전트 상호작용을 위한 궤적 샘플링 및 트리아지⭐ 6,152

Signals는 모델 호출 없이 상호작용·실행·환경 신호를 구조화해 대규모 에이전트 궤적 중 검토 가치가 높은 사례를 저비용으로 선별하는 배포 후 개선용 트리아지 프레임워크입니다.

ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and WatchersClawKeeper: Skills·Plugins·Watchers로 구현한 OpenClaw 에이전트 종합 보안⭐ 290

ClawKeeper는 지시 수준 정책 주입, 플러그인 통제, 실시간 감시 계층을 결합해 OpenClaw 에이전트의 데이터 유출·권한 상승·악성 스킬 실행 위험을 전주기적으로 막는 보안 프레임워크입니다.

CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended DiscoveryCORAL: 열린 탐색을 위한 자율 멀티에이전트 진화⭐ 107

CORAL은 지속 메모리·비동기 협업·하트비트 개입을 갖춘 장기 실행 멀티에이전트 진화 프레임워크로, 10개 과제에서 기존 고정형 탐색 대비 3~10배 높은 개선률을 더 적은 평가로 달성했습니다.

👁️Computer Vision2

MDPBench: A Benchmark for Multilingual Document Parsing in Real-World ScenariosMDPBench: 실제 환경의 다국어 문서 파싱 벤치마크⭐ 811

MDPBench는 17개 언어·3,400개 문서 이미지로 구성된 첫 실전형 다국어 문서 파싱 벤치마크로, Gemini3-Pro 등 폐쇄형 모델의 강세와 저자원 언어에서 오픈소스 모델의 취약성을 드러냈습니다.

Generative World RendererGenerative World Renderer: 생성형 월드 렌더러⭐ 182

이 연구는 AAA 게임에서 수집한 400만 프레임 규모 RGB+G-buffer 데이터셋과 VLM 기반 평가를 제안해, 실제 환경에 강한 역렌더링과 G-buffer 유도 비디오 생성을 함께 밀어 올렸습니다.

🗣️Language Models1

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook잠재공간: 기초, 진화, 메커니즘, 능력, 그리고 전망⭐ 497

이 서베이는 언어 기반 모델에서 잠재공간 계산이 왜 토큰 기반 추론의 병목을 넘는지 기초·메커니즘·응용·전망까지 체계적으로 정리해 차세대 LLM 설계의 방향을 제시합니다.

📄Multimodal & Generative5

VOID: Video Object and Interaction DeletionVOID: 비디오 객체 및 상호작용 삭제⭐ 326

VOID는 객체 제거가 충돌·후속 운동까지 바꾸는 반사실적 상황을 위해 VLM 기반 영향 영역 탐지와 비디오 디퓨전을 결합해 물리적으로 그럴듯한 영상 인페인팅을 구현했습니다.

T5Gemma-TTS Technical ReportT5Gemma-TTS 기술 보고서⭐ 284

T5Gemma-TTS는 4B 규모 인코더-디코더 코덱 LM에 PM-RoPE를 더해 긴 발화에서도 텍스트 조건을 안정적으로 유지하며, 음소 변환 없이 다국어 제로샷 음성 합성을 강화했습니다.

ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?ViGoR-Bench: 시각 생성 모델은 제로샷 시각 추론에 얼마나 가까운가⭐ 35

ViGoR-Bench는 이미지·비디오 생성 전 과정을 추론 중심으로 평가하는 벤치마크로, 20여 개 최신 모델이 높은 시각 품질과 별개로 물리·인과·공간 추론에서는 여전히 큰 결함을 보인다고 밝혔습니다.

📄Training & Optimization1

DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language ModelsDataFlex: 대규모 언어모델을 위한 데이터 중심 동적 학습 통합 프레임워크⭐ 148

DataFlex는 샘플 선택·도메인 혼합 조정·샘플 재가중치를 LLaMA-Factory 위에서 통합한 프레임워크로, 데이터 중심 LLM 학습 기법을 재현 가능하고 플러그인처럼 비교·적용할 수 있게 합니다.

📄Robotics & RL4

SKILL0: In-Context Agentic Reinforcement Learning for Skill InternalizationSKILL0: 스킬 내재화를 위한 인컨텍스트 에이전트 강화학습⭐ 81

SKILL0는 추론 시 스킬을 불러오는 대신 학습 과정에서 문맥을 점진적으로 제거하는 커리큘럼 RL로 도구 사용과 다중 턴 절차 지식을 파라미터에 내재화해 제로샷 자율성을 높입니다.

UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous DrivingUniDriveVLA: 자율주행을 위한 이해·지각·행동 계획의 통합⭐ 54

UniDriveVLA는 Mixture-of-Transformers 기반 전문가 분리로 자율주행 VLA의 공간 지각과 의미 추론 충돌을 완화해, 이해·장면 인식·행동 계획을 하나의 모델에서 더 균형 있게 수행합니다.

MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and GenerationMMaDA-VLA: 통합 멀티모달 지시와 생성을 위한 대규모 디퓨전 VLA 모델⭐ 29

MMaDA-VLA는 언어·이미지·로봇 제어를 하나의 이산 토큰 공간에 넣는 네이티브 디퓨전 VLA로, 미래 관측과 액션 청크를 병렬 생성해 장기 조작의 시간 일관성과 환경 동역학 반영을 개선했습니다.