오늘의 한줄

오늘은 에이전트의 장기적 개선과 평가, 멀티모달 생성의 물리·공간 일관성, 그리고 학습·후처리 효율을 높이는 실용적 프레임워크가 두드러졌습니다. 특히 벤치마크와 시스템 논문이 많아, 모델 성능 자체보다 운영 가능성과 실제 적용성을 끌어올리려는 흐름이 강하게 보입니다.

💻Code & Agents6

Signals: 에이전트 상호작용을 위한 궤적 샘플링과 트리아지6,152

Signals는 모델 호출 없이 계산 가능한 상호작용·실행·환경 신호로 대규모 에이전트 궤적을 우선순위화해, 배포 후 개선에 필요한 정보성 높은 실패 사례를 저비용으로 선별하는 프레임워크입니다.

ClawKeeper: 스킬·플러그인·워처 기반 OpenClaw 에이전트 종합 안전 보호290

ClawKeeper는 스킬 수준 정책 주입, 플러그인 통제, 실시간 워처를 결합해 OpenClaw 에이전트의 데이터 유출·권한 상승·악성 실행 위험을 라이프사이클 전반에서 막는 보안 프레임워크입니다.

CORAL: 개방형 발견을 위한 자율 멀티에이전트 진화107

CORAL은 지속 메모리·비동기 협업·heartbeat 개입을 갖춘 장기 실행 멀티에이전트 진화 프레임워크로, 10개 과제에서 기존 고정 규칙 탐색 대비 3~10배 높은 개선률을 더 적은 평가로 달성했습니다.

👁️Computer Vision1

MDPBench: 실제 환경의 다국어 문서 파싱 벤치마크811

MDPBench는 17개 언어·3,400개 문서 이미지로 구성된 첫 실환경 다국어 문서 파싱 벤치마크로, 사진 문서와 저자원 언어에서 오픈소스 모델의 취약성과 Gemini3-Pro의 상대적 강건성을 드러냈습니다.

🗣️Language Models1

잠재 공간: 기초, 진화, 메커니즘, 능력, 그리고 전망497

이 서베이는 언어 모델의 핵심 계산이 토큰이 아닌 연속 잠재 공간으로 이동하는 흐름을 Foundation-Evolution-Mechanism-Ability-Outlook 틀로 정리해, 차세대 추론·생성 설계의 공통 지도를 제공합니다.

📄Multimodal & Generative6

VOID: 비디오 객체 및 상호작용 삭제326

VOID는 객체 제거 뒤 충돌 등 후속 물리 상호작용까지 함께 수정하도록, VLM으로 영향 영역을 찾고 비디오 디퓨전으로 반사실적 장면을 생성해 더 그럴듯한 영상 삭제 결과를 만듭니다.

Generative World Renderer182

이 연구는 AAA 게임에서 추출한 4M 프레임의 RGB+G-buffer 동적 데이터셋과 VLM 기반 평가 프로토콜을 제안해, 역렌더링과 G-buffer 조건부 비디오 생성의 현실 적응력을 함께 끌어올렸습니다.

T5Gemma-TTS 기술 보고서284

T5Gemma-TTS는 4B 규모 인코더-디코더 코덱 LM에 PM-RoPE를 넣어 긴 발화에서도 텍스트 조건을 안정적으로 유지하며, 17만 시간 다국어 음성 학습으로 제로샷 음성 복제와 길이 제어를 강화했습니다.

📄Training & Optimization2

DataFlex: 대규모 언어 모델의 데이터 중심 동적 학습을 위한 통합 프레임워크148

DataFlex는 샘플 선택·도메인 혼합 최적화·샘플 재가중치를 LLaMA-Factory 위에서 통합해, 데이터 중심 LLM 학습 기법을 일관된 인터페이스로 재현·비교·실전 적용할 수 있게 합니다.

ASI-Evolve: AI가 AI를 가속하다77

ASI-Evolve는 cognition base와 analyzer를 포함한 learn-design-experiment-analyze 루프로 데이터·아키텍처·학습 알고리즘을 함께 탐색하며, 선형 어텐션 설계 등에서 105개의 SOTA 아키텍처를 발견했습니다.

📄Robotics & RL4

SKILL0: 스킬 내재화를 위한 인컨텍스트 에이전트 강화학습81

SKILL0는 학습 초기에 스킬 컨텍스트를 제공한 뒤 점진적으로 제거하는 커리큘럼 강화학습으로, 추론 시 스킬 검색 없이도 도구 사용과 멀티턴 절차 지식을 모델 파라미터에 내재화합니다.

UniDriveVLA: 자율주행을 위한 이해·지각·행동 계획의 통합54

UniDriveVLA는 Mixture-of-Transformers 기반 전문가 분리로 공간 지각과 의미 추론의 충돌을 완화해, 자율주행 VLA에서 이해·장면 지각·행동 계획을 하나의 모델로 더 균형 있게 통합합니다.

MMaDA-VLA: 통합 멀티모달 지시와 생성을 위한 대규모 디퓨전 비전-언어-행동 모델29

MMaDA-VLA는 언어·이미지·연속 제어를 하나의 이산 토큰 공간에 넣는 네이티브 디퓨전 VLA로, 미래 관측과 액션 청크를 병렬 생성해 장기 조작의 일관성과 환경 동역학 반영을 높였습니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택