오늘의 한줄

오늘은 3D 월드 모델·시뮬레이터처럼 현실을 더 잘 복원하고 상호작용하려는 연구와, LLM 추론·에이전트 학습을 더 안정적이고 효율적으로 만드는 학습 인프라 연구가 두드러졌습니다. 특히 평가·배포·장기 실행까지 포함한 시스템 관점의 논문이 많아졌다는 점이 인상적입니다.

📄Multimodal & Generative4

HY-World 2.0: 3D 세계를 복원·생성·시뮬레이션하는 멀티모달 월드 모델929

HY-World 2.0은 텍스트·단일/다중 이미지·비디오를 입력받아 3DGS 기반 탐색 가능한 3D 세계를 생성·복원하는 4단계 파이프라인으로, 파노라마 생성부터 경로 계획·월드 확장·3D 예측까지 통합합니다.

계층형 SVG 토크나이제이션: 확장 가능한 벡터 그래픽 모델링을 위한 압축 비주얼 프로그램 학습234

HiVG는 SVG 문자열을 기하 제약이 반영된 계층형 토큰으로 압축해 좌표 단편화와 hallucination을 줄이고, 벡터 그래픽 생성의 시퀀스 효율과 문법적 유효성을 함께 높였습니다.

조건 이동을 통한 자기 적대적 원스텝 생성38

APEX는 flow 모델 내부의 condition shifting으로 GAN 정렬된 보정 그라디언트를 추출해 외부 판별기 없이도 원스텝 텍스트-이미지 생성의 디테일과 학습 안정성을 동시에 개선했습니다.

💻Code & Agents5

ClawGUI: GUI 에이전트의 학습·평가·배포를 통합한 프레임워크364

ClawGUI는 병렬 가상환경과 실제 디바이스를 모두 지원하는 오픈소스 GUI 에이전트 RL 인프라와 표준 평가 파이프라인을 묶어, 6개 벤치마크에서 95.8% 재현성을 확보하며 연구-배포 간 단절을 줄였습니다.

Sema Code: AI 코딩 에이전트를 프로그래밍 가능하고 임베디드 가능한 인프라로 분리하기102

Sema Code는 코딩 에이전트 엔진을 npm 라이브러리로 완전히 분리해 CLI·IDE·웹 어디서나 재사용 가능하게 만들고, 컨텍스트 압축·멀티에이전트 스케줄링·권한 제어 등 엔터프라이즈급 기능을 모듈화했습니다.

Claude Code 깊이 보기: 현재와 미래 AI 에이전트 시스템의 설계 공간78

이 연구는 Claude Code의 공개 소스와 OpenClaw를 비교 분석해, 단순한 모델-도구 루프보다 권한·컨텍스트 압축·실행 신뢰성 같은 주변 시스템 설계가 에이전트 성능을 좌우한다는 점을 구조적으로 정리했습니다.

👁️Computer Vision2

스트리밍 3D 재구성을 위한 기하 컨텍스트 트랜스포머366

LingBot-Map은 anchor context·pose-reference window·trajectory memory를 결합한 GCT 구조로 1만 프레임 이상 장기 시퀀스에서도 약 20 FPS로 안정적인 스트리밍 3D 재구성을 수행합니다.

SpatialEvo: 결정론적 기하 환경을 통한 자기 진화형 공간 지능53

SpatialEvo는 점군과 카메라 포즈에서 정답을 정확히 계산하는 DGE를 도입해 16개 3D 공간 추론 과제를 무노이즈 오라클로 변환하고, 모델 합의 기반 자기학습의 오류 증폭 문제를 피했습니다.

🗣️Language Models3

블록 디퓨전 드래프트 트리로 speculative decoding 가속하기200

DDTree는 블록 디퓨전 drafter의 위치별 분포로부터 최적의 draft tree를 구성해 한 번의 타깃 모델 검증으로 더 긴 수용 길이를 확보하며, 기존 단일 경로 speculative decoding의 병목을 줄였습니다.

TRACER: LLM 분류를 위한 추적 기반 적응형 저비용 라우팅119

TRACER는 운영 로그에 쌓인 LLM 입출력 쌍으로 경량 surrogate를 학습하고, teacher와의 일치도가 임계값 α를 넘을 때만 트래픽을 우회시켜 분류 비용을 크게 줄이면서 라우팅 경계를 해석 가능하게 보여줍니다.

BERT-as-a-Judge: 효율적인 참조 기반 LLM 평가를 위한 어휘 기반 방법의 강건한 대안15

BERT-as-a-Judge는 36개 모델·15개 태스크 분석을 통해 lexical 평가의 한계를 보이고, LLM judge보다 훨씬 저렴한 인코더 기반 의미 평가로 참조 기반 생성 정답성 측정을 대체할 수 있음을 보여줍니다.

📄Robotics & RL3

RAD-2: 생성기-판별기 프레임워크에서 강화학습 확장하기204

RAD-2는 확산 기반 주행 궤적 생성기와 RL로 최적화한 판별기를 분리해 후보 경로를 재정렬하고, Temporally Consistent GRPO로 폐루프 자율주행 계획의 안정성과 장기 품질을 높였습니다.

Habitat-GS: 동적 가우시안 스플래팅을 갖춘 고충실도 내비게이션 시뮬레이터43

Habitat-GS는 Habitat-Sim에 실시간 3DGS 렌더링과 주행 가능한 gaussian avatar를 통합해, 사람과 함께 있는 장면까지 포토리얼하게 시뮬레이션하며 embodied agent의 인간 인식 학습을 지원합니다.

LARY: 일반화 가능한 비전-투-액션 정렬을 위한 잠재 행동 표현 벤치마크23

LARY Benchmark는 100만 개 이상 비디오와 62만 이미지 쌍, 59.5만 모션 궤적으로 잠재 행동 표현이 고수준 의미 행동과 저수준 로봇 제어를 얼마나 일반화하는지 함께 평가하는 통합 기준을 제시했습니다.

📄Training & Optimization3

KnowRL: 최소충분 지식 가이던스로 LLM 추론을 강화하는 강화학습39

KnowRL은 힌트를 원자적 지식 포인트로 분해하고 CSS로 최소충분 부분집합만 선택해 보상 희소성을 줄였으며, 1.5B 모델에서 8개 추론 벤치마크 전반의 RL 학습 효율과 성능을 끌어올렸습니다.

대규모 언어모델 온폴리시 증류 다시 보기: 현상, 메커니즘, 그리고 실전 레시피35

이 논문은 OPD 성공 조건을 사고 패턴의 호환성과 교사가 제공하는 진짜 신규 능력으로 정리하고, 확률 질량의 97~99%가 소수 공유 토큰에 집중된다는 분석을 바탕으로 실전형 증류 레시피를 제시했습니다.

SPPO: 장기 추론 과제를 위한 시퀀스 수준 PPO16

SPPO는 긴 CoT 추론을 sequence-level contextual bandit으로 재정식화하고 스칼라 value function으로 저분산 advantage를 계산해, 멀티샘플 없는 PPO 계열 추론 RL의 안정성과 처리량을 함께 개선했습니다.

매일 아침, 받은편지함에서 만나보세요

새로운 뉴스레터가 발행될 때마다 이메일로 받아볼 수 있습니다.

받아볼 뉴스레터 선택