오늘의 한줄

오늘은 에이전트의 장기 탐색·평가·보안 체계를 다루는 연구와, 멀티모달 생성 모델의 물리적 일관성·추론력·3D 통합을 강화하는 연구가 특히 두드러졌습니다. 동시에 데이터 중심 학습, 자가증류, 잠재공간 통합처럼 모델 자체의 학습 효율과 표현 방식을 재설계하려는 흐름도 뚜렷합니다.

💻Code & Agents7

Signals: 에이전트 상호작용을 위한 궤적 샘플링 및 트리아지6,152

Signals는 모델 호출 없이 상호작용·실행·환경 신호를 구조화해 대규모 에이전트 궤적 중 검토 가치가 높은 사례를 저비용으로 선별하는 배포 후 개선용 트리아지 프레임워크입니다.

ClawKeeper: Skills·Plugins·Watchers로 구현한 OpenClaw 에이전트 종합 보안290

ClawKeeper는 지시 수준 정책 주입, 플러그인 통제, 실시간 감시 계층을 결합해 OpenClaw 에이전트의 데이터 유출·권한 상승·악성 스킬 실행 위험을 전주기적으로 막는 보안 프레임워크입니다.

CORAL: 열린 탐색을 위한 자율 멀티에이전트 진화107

CORAL은 지속 메모리·비동기 협업·하트비트 개입을 갖춘 장기 실행 멀티에이전트 진화 프레임워크로, 10개 과제에서 기존 고정형 탐색 대비 3~10배 높은 개선률을 더 적은 평가로 달성했습니다.

👁️Computer Vision2

MDPBench: 실제 환경의 다국어 문서 파싱 벤치마크811

MDPBench는 17개 언어·3,400개 문서 이미지로 구성된 첫 실전형 다국어 문서 파싱 벤치마크로, Gemini3-Pro 등 폐쇄형 모델의 강세와 저자원 언어에서 오픈소스 모델의 취약성을 드러냈습니다.

Generative World Renderer: 생성형 월드 렌더러182

이 연구는 AAA 게임에서 수집한 400만 프레임 규모 RGB+G-buffer 데이터셋과 VLM 기반 평가를 제안해, 실제 환경에 강한 역렌더링과 G-buffer 유도 비디오 생성을 함께 밀어 올렸습니다.

🗣️Language Models1

잠재공간: 기초, 진화, 메커니즘, 능력, 그리고 전망497

이 서베이는 언어 기반 모델에서 잠재공간 계산이 왜 토큰 기반 추론의 병목을 넘는지 기초·메커니즘·응용·전망까지 체계적으로 정리해 차세대 LLM 설계의 방향을 제시합니다.

📄Multimodal & Generative5

VOID: 비디오 객체 및 상호작용 삭제326

VOID는 객체 제거가 충돌·후속 운동까지 바꾸는 반사실적 상황을 위해 VLM 기반 영향 영역 탐지와 비디오 디퓨전을 결합해 물리적으로 그럴듯한 영상 인페인팅을 구현했습니다.

T5Gemma-TTS 기술 보고서284

T5Gemma-TTS는 4B 규모 인코더-디코더 코덱 LM에 PM-RoPE를 더해 긴 발화에서도 텍스트 조건을 안정적으로 유지하며, 음소 변환 없이 다국어 제로샷 음성 합성을 강화했습니다.

ViGoR-Bench: 시각 생성 모델은 제로샷 시각 추론에 얼마나 가까운가35

ViGoR-Bench는 이미지·비디오 생성 전 과정을 추론 중심으로 평가하는 벤치마크로, 20여 개 최신 모델이 높은 시각 품질과 별개로 물리·인과·공간 추론에서는 여전히 큰 결함을 보인다고 밝혔습니다.

📄Training & Optimization1

DataFlex: 대규모 언어모델을 위한 데이터 중심 동적 학습 통합 프레임워크148

DataFlex는 샘플 선택·도메인 혼합 조정·샘플 재가중치를 LLaMA-Factory 위에서 통합한 프레임워크로, 데이터 중심 LLM 학습 기법을 재현 가능하고 플러그인처럼 비교·적용할 수 있게 합니다.

📄Robotics & RL4

SKILL0: 스킬 내재화를 위한 인컨텍스트 에이전트 강화학습81

SKILL0는 추론 시 스킬을 불러오는 대신 학습 과정에서 문맥을 점진적으로 제거하는 커리큘럼 RL로 도구 사용과 다중 턴 절차 지식을 파라미터에 내재화해 제로샷 자율성을 높입니다.

UniDriveVLA: 자율주행을 위한 이해·지각·행동 계획의 통합54

UniDriveVLA는 Mixture-of-Transformers 기반 전문가 분리로 자율주행 VLA의 공간 지각과 의미 추론 충돌을 완화해, 이해·장면 인식·행동 계획을 하나의 모델에서 더 균형 있게 수행합니다.

MMaDA-VLA: 통합 멀티모달 지시와 생성을 위한 대규모 디퓨전 VLA 모델29

MMaDA-VLA는 언어·이미지·로봇 제어를 하나의 이산 토큰 공간에 넣는 네이티브 디퓨전 VLA로, 미래 관측과 액션 청크를 병렬 생성해 장기 조작의 시간 일관성과 환경 동역학 반영을 개선했습니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택