오늘의 한줄

오늘은 에이전트의 자율 진화와 평가, 그리고 멀티모달 생성·로보틱스 시스템의 구조적 고도화가 특히 두드러졌습니다. 동시에 벤치마크와 데이터 중심 학습 프레임워크가 늘어나며, 성능 경쟁이 점점 더 실제 환경 적합성과 신뢰성 검증으로 이동하고 있음을 보여줍니다.

👁️Computer Vision1

MDPBench는 17개 언어·3,400개 문서 이미지로 구성된 최초의 실제 환경 다국어 문서 파싱 벤치마크를 제안하며, Gemini3-Pro는 비교적 강건했지만 오픈소스 모델은 저자원 언어와 촬영 문서에서 큰 취약점을 드러냈습니다.

이 서베이는 언어 모델에서 토큰 기반 추론의 병목을 넘어 연속적 잠재공간 계산이 왜 중요한지 기초부터 메커니즘·응용·전망까지 통합적으로 정리해, 차세대 LLM 설계 방향을 한눈에 보여줍니다.

VOID는 객체 제거 뒤 충돌·연쇄 반응까지 물리적으로 그럴듯하게 다시 생성하도록, VLM으로 영향 영역을 찾고 비디오 디퓨전으로 반사실적 결과를 합성해 기존 비디오 인페인팅의 한계를 넘어섰습니다.

T5Gemma-TTS는 4B 규모 인코더-디코더 코덱 언어모델에 PM-RoPE를 결합해 긴 발화에서도 텍스트 조건을 안정적으로 유지하며, 17만 시간 다국어 음성 학습으로 제로샷 음성 복제와 길이 제어를 강화했습니다.

Generative World Renderer는 AAA 게임에서 동기화된 RGB와 5개 G-buffer를 포함한 400만 프레임 데이터를 구축해, 실제 환경에 가까운 역렌더링·비디오 생성 학습과 VLM 기반 평가를 동시에 가능하게 했습니다.

ClawKeeper는 OpenClaw 에이전트의 파일 접근·셸 실행 위험을 줄이기 위해 스킬 수준 정책 주입, 플러그인 제어, 실시간 워처를 결합한 3계층 보안 프레임워크를 제안합니다.

ASI-Evolve는 cognition base와 analyzer를 갖춘 연구 루프형 에이전트 프레임워크로 데이터·아키텍처·학습 알고리즘을 함께 탐색하며, 선형 어텐션에서 105개의 SOTA 아키텍처를 발견했습니다.

CORAL은 지속 메모리와 비동기 협업, heartbeat 개입을 갖춘 자율 멀티에이전트 진화 프레임워크로, 10개 과제에서 기존 고정 규칙 탐색 대비 3~10배 높은 개선률을 더 적은 평가 횟수로 달성했습니다.

DataFlex는 샘플 선택, 도메인 혼합 조정, 샘플 재가중치를 하나의 LLaMA-Factory 호환 프레임워크로 통합해, 데이터 중심 LLM 학습 기법의 재현성과 실전 적용성을 크게 높였습니다.

SKILL0는 추론 시 스킬 검색에 의존하지 않고 훈련 중 스킬 컨텍스트를 점진적으로 제거하는 커리큘럼 강화학습으로, 도구 사용과 다중 턴 작업 능력을 모델 파라미터에 직접 내재화합니다.

UniDriveVLA는 Mixture-of-Transformers 기반 전문가 분리 구조로 자율주행에서 공간 지각과 의미 추론의 충돌을 완화해, 이해·장면 지각·행동 계획을 하나의 VLA 모델로 통합했습니다.

MMaDA-VLA는 언어·이미지·연속 제어를 하나의 이산 토큰 공간에 넣고 디퓨전으로 미래 관측과 액션 청크를 병렬 생성해, 장기 조작에서 누적 오류와 시간 불일치를 줄였습니다.