오늘의 한줄

오늘은 GUI·코딩·게임 환경까지 확장되는 에이전트 인프라와, LLM 추론 성능을 끌어올리는 RL/증류 최적화 연구가 특히 두드러졌습니다. 동시에 3D 재구성, SVG·이미지 생성, 시각 보상모델처럼 생성 모델을 더 빠르고 정교하게 만드는 시도도 인상적입니다.

💻Code & Agents4

ClawGUI는 병렬 가상환경과 실제 디바이스를 모두 지원하는 오픈소스 GUI 에이전트 RL 인프라와 표준화 평가 파이프라인을 통합해, 분절됐던 GUI 에이전트 연구를 실제 배포 가능한 스택으로 연결했습니다.

Sema Code는 코딩 에이전트 엔진을 클라이언트와 완전히 분리해 npm 라이브러리로 제공하며, 멀티테넌시·컨텍스트 압축·협업 스케줄링을 통해 엔터프라이즈 환경에서 재사용 가능한 코딩 인프라를 제시합니다.

AiScientist는 계층형 오케스트레이션과 File-as-Bus 작업공간으로 장시간 상태 연속성을 유지해, ML 연구 자동화에서 PaperBench 점수를 10.54점 높인 장기 실행형 에이전트 시스템입니다.

LingBot-Map은 anchor context·pose-reference window·trajectory memory를 결합한 GCT로 1만 프레임 이상 장기 시퀀스에서도 약 20 FPS로 안정적인 스트리밍 3D 재구성을 수행합니다.

Free Geometry는 더 많은 뷰를 볼수록 재구성이 더 신뢰할 만하다는 성질을 이용해, 테스트 시 self-supervision과 LoRA로 2분 이내에 장면별 3D 재구성 모델을 빠르게 재보정합니다.

UI-Zoomer는 예측 불확실성에 따라 줌인 여부와 크롭 반경을 동적으로 결정하는 학습 없는 GUI grounding 기법으로, 작은 아이콘과 복잡한 레이아웃에서 불필요한 재추론을 줄이면서 위치 정확도를 높였습니다.

DDTree는 블록 디퓨전 drafter의 위치별 분포에서 최적 draft tree를 구성해 한 번의 타깃 모델 검증으로 더 긴 수용 길이를 확보하며, EAGLE-3를 넘는 DFlash를 추가로 가속합니다.

BERT-as-a-Judge는 36개 모델·15개 태스크 분석을 바탕으로 형식 의존적 lexical 평가의 한계를 짚고, 더 저렴한 인코더 기반 의미 평가로 인간 판단과의 정합성을 높였습니다.

LangFlow는 연속 DLM을 Flow Matching과 Bregman divergence로 재해석하고 ODE 기반 NLL bound·학습형 노이즈 스케줄러·self-conditioning을 결합해, 연속형 언어 디퓨전의 성능 격차를 좁혔습니다.

HiVG는 SVG를 기하 제약을 반영한 계층형 segment token으로 압축해 좌표 환각과 긴 시퀀스 비효율을 줄이며, 자기회귀 SVG 생성의 정확도와 실행 가능성을 함께 높였습니다.

APEX는 flow model 내부의 condition shifting으로 GAN 정렬된 보정 신호를 추출해 외부 판별기 없이도 원스텝 텍스트-이미지 생성의 품질·속도·학습 안정성 간 트레이드오프를 개선했습니다.

RationalRewards는 PARROT으로 선호 데이터만으로 다차원 비평 근거를 복원해, 학습 시에는 세밀한 RL 보상으로, 추론 시에는 Generate-Critique-Refine 프롬프트 개선기로 활용되는 8B 보상모델입니다.

KnowRL은 힌트를 최소 충분한 지식 포인트 집합으로 재구성하고 CSS로 상호작용을 고려해 선별함으로써, 보상 희소성이 큰 추론 RL에서 불필요한 토큰 없이 성능을 끌어올렸습니다.

이 연구는 OPD 성공 조건이 사고 패턴의 호환성과 교사가 제공하는 진짜 신규 능력에 달려 있음을 보이고, 확률질량의 97~99%가 집중되는 소수 토큰 정렬이 핵심 메커니즘임을 밝혔습니다.

SPPO는 추론 과정을 sequence-level contextual bandit으로 재정식화하고 분리된 scalar value로 저분산 advantage를 계산해, 멀티샘플링 없이도 PPO의 샘플 효율과 안정성을 함께 확보했습니다.

Habitat-GS는 Habitat-Sim에 3D Gaussian Splatting과 주행 가능한 gaussian avatar를 통합해, 사람까지 포함한 포토리얼한 embodied AI 학습 환경을 실시간으로 제공합니다.

SpatialEvo는 포인트클라우드와 카메라 자세로부터 정답을 정확히 계산하는 DGE를 도입해, 16개 3D 공간 추론 과제를 무라벨 장면에서 노이즈 없는 자기진화 학습 문제로 바꿨습니다.

LARY Benchmark는 100만 개 비디오와 59.5만 개 모션 궤적을 묶어 latent action representation이 의미적 행동 이해와 실제 로봇 제어로 얼마나 이어지는지 처음 체계적으로 검증합니다.