오늘의 한줄

오늘은 멀티모달 에이전트와 컴퓨터 사용 에이전트가 실제 환경으로 확장되는 흐름이 특히 두드러졌습니다. 동시에 학습 효율화, 연구 산출물의 기계 실행 가능성, 시뮬레이션·벤치마크 고도화처럼 AI 시스템을 둘러싼 인프라도 빠르게 재설계되고 있습니다.

📄Multimodal & Generative2

GLM-5V-Turbo는 이미지·비디오·문서·GUI 이해를 추론과 도구 사용에 네이티브하게 통합해 멀티모달 코딩과 비주얼 툴 활용, 에이전트 프레임워크 작업에서 강한 성능을 보이면서 텍스트 코딩 경쟁력도 유지했습니다.

Nemotron 3 Nano Omni는 텍스트·이미지·비디오에 더해 오디오를 네이티브 지원하는 공개 멀티모달 모델로, 문서 이해·장문 오디오비디오 이해·컴퓨터 사용에서 전작 대비 향상된 정확도와 낮은 지연을 함께 제공합니다.

TIDE는 아키텍처·어텐션·토크나이저가 다른 교사-학생 간 지식을 옮기는 첫 dLLM 증류 프레임워크로, TIDAL·CompDemo·Reverse CALM을 통해 대형 모델의 성능을 더 작은 확산형 LLM에 효과적으로 이전합니다.

ESamp는 테스트 시점에 경량 Distiller로 얕은 층에서 깊은 층 표현을 예측하고 그 오차를 새로움 신호로 써 토큰 선택을 재가중함으로써, 표면적 다양성이 아닌 의미적 탐색을 강화하는 디코딩 방법입니다.

LenVM은 남은 생성 길이를 토큰별 가치 추정 문제로 바꿔 주석 없이 학습하며, LIFEBench exact length matching에서 7B 모델 점수를 30.9에서 64.8로 끌어올려 길이 제어를 실용적인 추론 신호로 만듭니다.

RADIO-ViPE는 카메라 보정값이나 깊이 센서 없이 단안 RGB 비디오만으로 언어 질의를 3D 객체·영역에 연결하는 온라인 시맨틱 SLAM을 구현하며, 멀티모달 임베딩과 기하 정보를 팩터 그래프 수준에서 밀결합합니다.

World2Minecraft는 3D 시맨틱 점유도 예측으로 실제 장면을 구조화된 마인크래프트 환경으로 변환하고, 156개 실내 장면·10만여 이미지의 MinecraftOcc 데이터셋으로 VLN 같은 체화 과제를 위한 시뮬레이션 품질을 높입니다.

FD-loss는 대규모 분포 추정과 소규모 그래디언트 계산을 분리해 프레셰 거리를 직접 학습 목표로 쓰며, ImageNet 256에서 원스텝 생성기 0.72 FID를 달성하고 다단계 생성기를 별도 증류 없이 원스텝으로 전환합니다.

MoCapAnything V2는 Video-to-Pose와 Pose-to-Rotation을 함께 학습하는 첫 엔드투엔드 임의 스켈레톤 모션 캡처 프레임워크로, 기준 포즈-회전 쌍을 도입해 관절 위치만으로는 풀 수 없던 회전 모호성을 해결합니다.

ARA는 논문을 과학적 논리·실행 코드·탐색 그래프·증거 계층으로 구조화한 기계 실행형 연구 패키지로 바꿔, 재현성과 에이전트 기반 연구 확장을 가로막던 스토리텔링·엔지니어링 비용을 줄이려 합니다.

Claw-Eval-Live는 공개 워크플로 수요 신호로 과제를 지속 갱신하고 실행 로그·감사 기록·산출물을 함께 채점해, 정적인 벤치마크가 놓치던 실제 업무형 에이전트의 수행력을 검증하는 라이브 평가 체계를 제안합니다.

InteractWeb-Bench는 비전문 사용자식 모호·중복·모순 지시를 반영한 첫 멀티모달 웹사이트 생성 벤치마크로, 에이전트가 요구사항 오해 속에서 맹목적으로 코드를 실행하는 실패를 체계적으로 측정합니다.

RoundPipe는 파이프라인 병렬 학습의 weight binding 문제를 깨기 위해 GPU를 무상태 실행 워커처럼 라운드로빈 스케줄링해, 소비자용 GPU와 느린 PCIe 환경에서도 near-zero-bubble 처리량을 목표로 합니다.

CoPD는 전문가들을 따로 학습한 뒤 합치는 대신 RLVR 중간부터 상호 양방향 OPD를 수행해 행동 패턴 간 격차를 줄이며, 텍스트·이미지·비디오 추론 능력을 하나의 모델에 더 잘 통합합니다.