오늘의 한줄
오늘은 GUI·코딩·게임 환경까지 확장되는 에이전트 인프라와, LLM 추론 성능을 끌어올리는 RL/증류 최적화 연구가 특히 두드러졌습니다. 동시에 3D 재구성, SVG·이미지 생성, 시각 보상모델처럼 생성 모델을 더 빠르고 정교하게 만드는 시도도 인상적입니다.
💻Code & Agents4
ClawGUI: GUI 에이전트 학습·평가·배포를 통합한 프레임워크⭐ 364
ClawGUI는 병렬 가상환경과 실제 디바이스를 모두 지원하는 오픈소스 GUI 에이전트 RL 인프라와 표준화 평가 파이프라인을 통합해, 분절됐던 GUI 에이전트 연구를 실제 배포 가능한 스택으로 연결했습니다.
Sema Code: AI 코딩 에이전트를 프로그래밍 가능하고 임베드 가능한 인프라로 분리하기⭐ 102
Sema Code는 코딩 에이전트 엔진을 클라이언트와 완전히 분리해 npm 라이브러리로 제공하며, 멀티테넌시·컨텍스트 압축·협업 스케줄링을 통해 엔터프라이즈 환경에서 재사용 가능한 코딩 인프라를 제시합니다.
자율적 장기 ML 연구 엔지니어링을 향하여⭐ 31
AiScientist는 계층형 오케스트레이션과 File-as-Bus 작업공간으로 장시간 상태 연속성을 유지해, ML 연구 자동화에서 PaperBench 점수를 10.54점 높인 장기 실행형 에이전트 시스템입니다.
👁️Computer Vision3
스트리밍 3D 재구성을 위한 기하 컨텍스트 트랜스포머⭐ 366
LingBot-Map은 anchor context·pose-reference window·trajectory memory를 결합한 GCT로 1만 프레임 이상 장기 시퀀스에서도 약 20 FPS로 안정적인 스트리밍 3D 재구성을 수행합니다.
Free Geometry: 더 긴 자기 자신으로부터 3D 재구성 정제하기⭐ 14
Free Geometry는 더 많은 뷰를 볼수록 재구성이 더 신뢰할 만하다는 성질을 이용해, 테스트 시 self-supervision과 LoRA로 2분 이내에 장면별 3D 재구성 모델을 빠르게 재보정합니다.
UI-Zoomer: GUI 그라운딩을 위한 불확실성 기반 적응형 줌인⭐ 25
UI-Zoomer는 예측 불확실성에 따라 줌인 여부와 크롭 반경을 동적으로 결정하는 학습 없는 GUI grounding 기법으로, 작은 아이콘과 복잡한 레이아웃에서 불필요한 재추론을 줄이면서 위치 정확도를 높였습니다.
🗣️Language Models3
블록 디퓨전 드래프트 트리로 추측 디코딩 가속하기⭐ 200
DDTree는 블록 디퓨전 drafter의 위치별 분포에서 최적 draft tree를 구성해 한 번의 타깃 모델 검증으로 더 긴 수용 길이를 확보하며, EAGLE-3를 넘는 DFlash를 추가로 가속합니다.
BERT-as-a-Judge: 효율적인 참조 기반 LLM 평가를 위한 어휘 기반 방법의 강건한 대안⭐ 15
BERT-as-a-Judge는 36개 모델·15개 태스크 분석을 바탕으로 형식 의존적 lexical 평가의 한계를 짚고, 더 저렴한 인코더 기반 의미 평가로 인간 판단과의 정합성을 높였습니다.
LangFlow: 언어 모델링에서 연속 디퓨전이 이산 방식을 따라잡다⭐ 14
LangFlow는 연속 DLM을 Flow Matching과 Bregman divergence로 재해석하고 ODE 기반 NLL bound·학습형 노이즈 스케줄러·self-conditioning을 결합해, 연속형 언어 디퓨전의 성능 격차를 좁혔습니다.
📄Multimodal & Generative3
계층형 SVG 토크나이제이션: 확장 가능한 벡터 그래픽 모델링을 위한 압축 비주얼 프로그램 학습⭐ 234
HiVG는 SVG를 기하 제약을 반영한 계층형 segment token으로 압축해 좌표 환각과 긴 시퀀스 비효율을 줄이며, 자기회귀 SVG 생성의 정확도와 실행 가능성을 함께 높였습니다.
조건 이동을 통한 자기 적대적 원스텝 생성⭐ 38
APEX는 flow model 내부의 condition shifting으로 GAN 정렬된 보정 신호를 추출해 외부 판별기 없이도 원스텝 텍스트-이미지 생성의 품질·속도·학습 안정성 간 트레이드오프를 개선했습니다.
RationalRewards: 추론형 보상으로 시각 생성의 학습과 테스트 시간을 모두 확장하다⭐ 51
RationalRewards는 PARROT으로 선호 데이터만으로 다차원 비평 근거를 복원해, 학습 시에는 세밀한 RL 보상으로, 추론 시에는 Generate-Critique-Refine 프롬프트 개선기로 활용되는 8B 보상모델입니다.
📄Training & Optimization4
KnowRL: 최소 충분 지식 가이던스로 LLM 추론을 강화하는 강화학습⭐ 39
KnowRL은 힌트를 최소 충분한 지식 포인트 집합으로 재구성하고 CSS로 상호작용을 고려해 선별함으로써, 보상 희소성이 큰 추론 RL에서 불필요한 토큰 없이 성능을 끌어올렸습니다.
대규모 언어모델 온폴리시 증류 다시 보기: 현상, 메커니즘, 그리고 실전 레시피⭐ 35
이 연구는 OPD 성공 조건이 사고 패턴의 호환성과 교사가 제공하는 진짜 신규 능력에 달려 있음을 보이고, 확률질량의 97~99%가 집중되는 소수 토큰 정렬이 핵심 메커니즘임을 밝혔습니다.
SPPO: 장기 추론 과제를 위한 시퀀스 수준 PPO⭐ 16
SPPO는 추론 과정을 sequence-level contextual bandit으로 재정식화하고 분리된 scalar value로 저분산 advantage를 계산해, 멀티샘플링 없이도 PPO의 샘플 효율과 안정성을 함께 확보했습니다.
📄Robotics & RL3
Habitat-GS: 동적 가우시안 스플래팅을 갖춘 고충실도 내비게이션 시뮬레이터⭐ 43
Habitat-GS는 Habitat-Sim에 3D Gaussian Splatting과 주행 가능한 gaussian avatar를 통합해, 사람까지 포함한 포토리얼한 embodied AI 학습 환경을 실시간으로 제공합니다.
SpatialEvo: 결정론적 기하 환경을 통한 자기 진화형 공간 지능⭐ 53
SpatialEvo는 포인트클라우드와 카메라 자세로부터 정답을 정확히 계산하는 DGE를 도입해, 16개 3D 공간 추론 과제를 무라벨 장면에서 노이즈 없는 자기진화 학습 문제로 바꿨습니다.
LARY: 일반화 가능한 비전-투-액션 정렬을 위한 잠재 행동 표현 벤치마크⭐ 23
LARY Benchmark는 100만 개 비디오와 59.5만 개 모션 궤적을 묶어 latent action representation이 의미적 행동 이해와 실제 로봇 제어로 얼마나 이어지는지 처음 체계적으로 검증합니다.