오늘의 한줄

오늘은 에이전트의 장기 탐색과 자동화된 연구 루프, 그리고 비디오·3D·음성까지 확장되는 생성 모델의 구조적 일관성이 특히 두드러졌습니다. 동시에 벤치마크와 데이터 중심 학습 프레임워크가 실제 배치 환경에서의 신뢰성과 재현성을 끌어올리는 흐름도 뚜렷합니다.

💻Code & Agents4

Signals는 모델 호출 없이 계산 가능한 상호작용·실행·환경 신호로 대규모 에이전트 궤적을 선별해, 배포 후 개선에 필요한 고가치 실패 사례를 저비용으로 찾아내는 경량 트리아지 프레임워크를 제안합니다.

CORAL은 지속 메모리, 비동기 실행, 하트비트 개입을 갖춘 장기 실행 멀티에이전트 진화 프레임워크로, 10개 과제에서 기존 고정 규칙 탐색보다 3~10배 높은 개선율을 더 적은 평가로 달성했습니다.

ASI-Evolve는 cognition base와 analyzer를 포함한 학습-설계-실험-분석 루프로 데이터, 아키텍처, 학습 알고리즘을 함께 탐색하며, 선형 어텐션에서는 105개의 SOTA 아키텍처를 발견했다고 보고합니다.

MDPBench는 17개 언어, 3,400개 디지털·촬영 문서를 포함한 첫 실전형 다국어 문서 파싱 벤치마크로, Gemini3-Pro는 비교적 강건했지만 오픈소스 모델은 저자원 언어와 사진 문서에서 크게 취약함을 보여줍니다.

Steerable Visual Representations는 텍스트를 비전 인코더 내부에 early fusion으로 주입해, DINOv2·MAE류 표현을 유지하면서도 자연어로 전역·로컬 시각 특징의 주의를 원하는 개념으로 조향합니다.

이 서베이는 언어 모델이 토큰 대신 연속 잠재공간에서 더 효율적으로 계산하는 흐름을 기초·진화·메커니즘·능력 관점으로 정리해, 차세대 추론과 생성 아키텍처의 설계 지도를 제공합니다.

VOID는 객체 제거 뒤 충돌 등 후속 물리 상호작용까지 함께 수정하도록, VLM 기반 영향 영역 식별과 비디오 디퓨전을 결합해 더 그럴듯한 반사실적 비디오 인페인팅을 구현했습니다.

Generative World Renderer는 AAA 게임에서 수집한 400만 프레임 RGB+G-buffer 데이터와 VLM 기반 평가를 제안해, 실제 환경에 가까운 역렌더링 미세조정과 고충실도 비디오 생성의 데이터 병목을 줄였습니다.

T5Gemma-TTS는 4B 규모 인코더-디코더 코덱 LM에 PM-RoPE를 넣어 긴 발화에서도 텍스트 조건을 안정적으로 유지하며, 17만 시간 다국어 음성 학습으로 제로샷 음성 합성과 길이 제어를 강화했습니다.

DataFlex는 샘플 선택, 도메인 혼합 조정, 샘플 재가중치를 LLaMA-Factory 위에서 통합해, 데이터 중심 LLM 학습 기법을 드롭인 방식으로 재현 가능하게 비교·적용할 수 있게 합니다.

SKILL0는 학습 중 스킬 컨텍스트를 점진적으로 제거하는 커리큘럼으로 도구 사용과 다중 턴 절차 지식을 파라미터에 내재화해, 추론 시 스킬 검색 없이도 제로샷 자율 수행을 가능하게 합니다.

UniDriveVLA는 Mixture-of-Transformers로 이해·장면 지각·경로 계획 전문가를 분리해, 자율주행 VLA의 공간 지각과 의미 추론 간 충돌을 줄이는 통합 모델을 제안합니다.

EgoSim은 업데이트 가능한 3D 월드 상태를 중심으로 상호작용 비디오를 폐루프로 생성해, 시점 변화에도 구조 일관성을 유지하고 다단계 상호작용 뒤 장면 상태까지 지속적으로 갱신합니다.