오늘의 한줄

오늘은 GUI·코딩·게임 환경까지 확장되는 에이전트 인프라와, LLM 추론 성능을 끌어올리는 RL/증류 최적화 연구가 특히 두드러졌습니다. 동시에 3D 재구성, SVG·이미지 생성, 시각 보상모델처럼 생성 모델을 더 빠르고 정교하게 만드는 시도도 인상적입니다.

💻Code & Agents4

ClawGUI: GUI 에이전트 학습·평가·배포를 통합한 프레임워크364

ClawGUI는 병렬 가상환경과 실제 디바이스를 모두 지원하는 오픈소스 GUI 에이전트 RL 인프라와 표준화 평가 파이프라인을 통합해, 분절됐던 GUI 에이전트 연구를 실제 배포 가능한 스택으로 연결했습니다.

Sema Code: AI 코딩 에이전트를 프로그래밍 가능하고 임베드 가능한 인프라로 분리하기102

Sema Code는 코딩 에이전트 엔진을 클라이언트와 완전히 분리해 npm 라이브러리로 제공하며, 멀티테넌시·컨텍스트 압축·협업 스케줄링을 통해 엔터프라이즈 환경에서 재사용 가능한 코딩 인프라를 제시합니다.

자율적 장기 ML 연구 엔지니어링을 향하여31

AiScientist는 계층형 오케스트레이션과 File-as-Bus 작업공간으로 장시간 상태 연속성을 유지해, ML 연구 자동화에서 PaperBench 점수를 10.54점 높인 장기 실행형 에이전트 시스템입니다.

👁️Computer Vision3

스트리밍 3D 재구성을 위한 기하 컨텍스트 트랜스포머366

LingBot-Map은 anchor context·pose-reference window·trajectory memory를 결합한 GCT로 1만 프레임 이상 장기 시퀀스에서도 약 20 FPS로 안정적인 스트리밍 3D 재구성을 수행합니다.

Free Geometry: 더 긴 자기 자신으로부터 3D 재구성 정제하기14

Free Geometry는 더 많은 뷰를 볼수록 재구성이 더 신뢰할 만하다는 성질을 이용해, 테스트 시 self-supervision과 LoRA로 2분 이내에 장면별 3D 재구성 모델을 빠르게 재보정합니다.

UI-Zoomer: GUI 그라운딩을 위한 불확실성 기반 적응형 줌인25

UI-Zoomer는 예측 불확실성에 따라 줌인 여부와 크롭 반경을 동적으로 결정하는 학습 없는 GUI grounding 기법으로, 작은 아이콘과 복잡한 레이아웃에서 불필요한 재추론을 줄이면서 위치 정확도를 높였습니다.

🗣️Language Models3

블록 디퓨전 드래프트 트리로 추측 디코딩 가속하기200

DDTree는 블록 디퓨전 drafter의 위치별 분포에서 최적 draft tree를 구성해 한 번의 타깃 모델 검증으로 더 긴 수용 길이를 확보하며, EAGLE-3를 넘는 DFlash를 추가로 가속합니다.

BERT-as-a-Judge: 효율적인 참조 기반 LLM 평가를 위한 어휘 기반 방법의 강건한 대안15

BERT-as-a-Judge는 36개 모델·15개 태스크 분석을 바탕으로 형식 의존적 lexical 평가의 한계를 짚고, 더 저렴한 인코더 기반 의미 평가로 인간 판단과의 정합성을 높였습니다.

LangFlow: 언어 모델링에서 연속 디퓨전이 이산 방식을 따라잡다14

LangFlow는 연속 DLM을 Flow Matching과 Bregman divergence로 재해석하고 ODE 기반 NLL bound·학습형 노이즈 스케줄러·self-conditioning을 결합해, 연속형 언어 디퓨전의 성능 격차를 좁혔습니다.

📄Multimodal & Generative3

계층형 SVG 토크나이제이션: 확장 가능한 벡터 그래픽 모델링을 위한 압축 비주얼 프로그램 학습234

HiVG는 SVG를 기하 제약을 반영한 계층형 segment token으로 압축해 좌표 환각과 긴 시퀀스 비효율을 줄이며, 자기회귀 SVG 생성의 정확도와 실행 가능성을 함께 높였습니다.

조건 이동을 통한 자기 적대적 원스텝 생성38

APEX는 flow model 내부의 condition shifting으로 GAN 정렬된 보정 신호를 추출해 외부 판별기 없이도 원스텝 텍스트-이미지 생성의 품질·속도·학습 안정성 간 트레이드오프를 개선했습니다.

RationalRewards: 추론형 보상으로 시각 생성의 학습과 테스트 시간을 모두 확장하다51

RationalRewards는 PARROT으로 선호 데이터만으로 다차원 비평 근거를 복원해, 학습 시에는 세밀한 RL 보상으로, 추론 시에는 Generate-Critique-Refine 프롬프트 개선기로 활용되는 8B 보상모델입니다.

📄Training & Optimization4

KnowRL: 최소 충분 지식 가이던스로 LLM 추론을 강화하는 강화학습39

KnowRL은 힌트를 최소 충분한 지식 포인트 집합으로 재구성하고 CSS로 상호작용을 고려해 선별함으로써, 보상 희소성이 큰 추론 RL에서 불필요한 토큰 없이 성능을 끌어올렸습니다.

대규모 언어모델 온폴리시 증류 다시 보기: 현상, 메커니즘, 그리고 실전 레시피35

이 연구는 OPD 성공 조건이 사고 패턴의 호환성과 교사가 제공하는 진짜 신규 능력에 달려 있음을 보이고, 확률질량의 97~99%가 집중되는 소수 토큰 정렬이 핵심 메커니즘임을 밝혔습니다.

SPPO: 장기 추론 과제를 위한 시퀀스 수준 PPO16

SPPO는 추론 과정을 sequence-level contextual bandit으로 재정식화하고 분리된 scalar value로 저분산 advantage를 계산해, 멀티샘플링 없이도 PPO의 샘플 효율과 안정성을 함께 확보했습니다.

📄Robotics & RL3

Habitat-GS: 동적 가우시안 스플래팅을 갖춘 고충실도 내비게이션 시뮬레이터43

Habitat-GS는 Habitat-Sim에 3D Gaussian Splatting과 주행 가능한 gaussian avatar를 통합해, 사람까지 포함한 포토리얼한 embodied AI 학습 환경을 실시간으로 제공합니다.

SpatialEvo: 결정론적 기하 환경을 통한 자기 진화형 공간 지능53

SpatialEvo는 포인트클라우드와 카메라 자세로부터 정답을 정확히 계산하는 DGE를 도입해, 16개 3D 공간 추론 과제를 무라벨 장면에서 노이즈 없는 자기진화 학습 문제로 바꿨습니다.

LARY: 일반화 가능한 비전-투-액션 정렬을 위한 잠재 행동 표현 벤치마크23

LARY Benchmark는 100만 개 비디오와 59.5만 개 모션 궤적을 묶어 latent action representation이 의미적 행동 이해와 실제 로봇 제어로 얼마나 이어지는지 처음 체계적으로 검증합니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택