오늘의 한줄

오늘은 3D 월드 모델·시뮬레이터처럼 현실을 더 잘 복원하고 상호작용하려는 연구와, LLM 추론·에이전트 학습을 더 안정적이고 효율적으로 만드는 학습 인프라 연구가 두드러졌습니다. 특히 평가·배포·장기 실행까지 포함한 시스템 관점의 논문이 많아졌다는 점이 인상적입니다.

📄Multimodal & Generative4

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D WorldsHY-World 2.0: 3D 세계를 복원·생성·시뮬레이션하는 멀티모달 월드 모델⭐ 929

HY-World 2.0은 텍스트·단일/다중 이미지·비디오를 입력받아 3DGS 기반 탐색 가능한 3D 세계를 생성·복원하는 4단계 파이프라인으로, 파노라마 생성부터 경로 계획·월드 확장·3D 예측까지 통합합니다.

Hierarchical SVG Tokenization: Learning Compact Visual Programs for Scalable Vector Graphics Modeling계층형 SVG 토크나이제이션: 확장 가능한 벡터 그래픽 모델링을 위한 압축 비주얼 프로그램 학습⭐ 234

HiVG는 SVG 문자열을 기하 제약이 반영된 계층형 토큰으로 압축해 좌표 단편화와 hallucination을 줄이고, 벡터 그래픽 생성의 시퀀스 효율과 문법적 유효성을 함께 높였습니다.

Self-Adversarial One Step Generation via Condition Shifting조건 이동을 통한 자기 적대적 원스텝 생성⭐ 38

APEX는 flow 모델 내부의 condition shifting으로 GAN 정렬된 보정 그라디언트를 추출해 외부 판별기 없이도 원스텝 텍스트-이미지 생성의 디테일과 학습 안정성을 동시에 개선했습니다.

💻Code & Agents5

ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI AgentsClawGUI: GUI 에이전트의 학습·평가·배포를 통합한 프레임워크⭐ 364

ClawGUI는 병렬 가상환경과 실제 디바이스를 모두 지원하는 오픈소스 GUI 에이전트 RL 인프라와 표준 평가 파이프라인을 묶어, 6개 벤치마크에서 95.8% 재현성을 확보하며 연구-배포 간 단절을 줄였습니다.

Sema Code: Decoupling AI Coding Agents into Programmable, Embeddable InfrastructureSema Code: AI 코딩 에이전트를 프로그래밍 가능하고 임베디드 가능한 인프라로 분리하기⭐ 102

Sema Code는 코딩 에이전트 엔진을 npm 라이브러리로 완전히 분리해 CLI·IDE·웹 어디서나 재사용 가능하게 만들고, 컨텍스트 압축·멀티에이전트 스케줄링·권한 제어 등 엔터프라이즈급 기능을 모듈화했습니다.

Dive into Claude Code: The Design Space of Today's and Future AI Agent SystemsClaude Code 깊이 보기: 현재와 미래 AI 에이전트 시스템의 설계 공간⭐ 78

이 연구는 Claude Code의 공개 소스와 OpenClaw를 비교 분석해, 단순한 모델-도구 루프보다 권한·컨텍스트 압축·실행 신뢰성 같은 주변 시스템 설계가 에이전트 성능을 좌우한다는 점을 구조적으로 정리했습니다.

👁️Computer Vision2

Geometric Context Transformer for Streaming 3D Reconstruction스트리밍 3D 재구성을 위한 기하 컨텍스트 트랜스포머⭐ 366

LingBot-Map은 anchor context·pose-reference window·trajectory memory를 결합한 GCT 구조로 1만 프레임 이상 장기 시퀀스에서도 약 20 FPS로 안정적인 스트리밍 3D 재구성을 수행합니다.

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric EnvironmentsSpatialEvo: 결정론적 기하 환경을 통한 자기 진화형 공간 지능⭐ 53

SpatialEvo는 점군과 카메라 포즈에서 정답을 정확히 계산하는 DGE를 도입해 16개 3D 공간 추론 과제를 무노이즈 오라클로 변환하고, 모델 합의 기반 자기학습의 오류 증폭 문제를 피했습니다.

🗣️Language Models3

Accelerating Speculative Decoding with Block Diffusion Draft Trees블록 디퓨전 드래프트 트리로 speculative decoding 가속하기⭐ 200

DDTree는 블록 디퓨전 drafter의 위치별 분포로부터 최적의 draft tree를 구성해 한 번의 타깃 모델 검증으로 더 긴 수용 길이를 확보하며, 기존 단일 경로 speculative decoding의 병목을 줄였습니다.

TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM ClassificationTRACER: LLM 분류를 위한 추적 기반 적응형 저비용 라우팅⭐ 119

TRACER는 운영 로그에 쌓인 LLM 입출력 쌍으로 경량 surrogate를 학습하고, teacher와의 일치도가 임계값 α를 넘을 때만 트래픽을 우회시켜 분류 비용을 크게 줄이면서 라우팅 경계를 해석 가능하게 보여줍니다.

BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM EvaluationBERT-as-a-Judge: 효율적인 참조 기반 LLM 평가를 위한 어휘 기반 방법의 강건한 대안⭐ 15

BERT-as-a-Judge는 36개 모델·15개 태스크 분석을 통해 lexical 평가의 한계를 보이고, LLM judge보다 훨씬 저렴한 인코더 기반 의미 평가로 참조 기반 생성 정답성 측정을 대체할 수 있음을 보여줍니다.

📄Robotics & RL3

RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator FrameworkRAD-2: 생성기-판별기 프레임워크에서 강화학습 확장하기⭐ 204

RAD-2는 확산 기반 주행 궤적 생성기와 RL로 최적화한 판별기를 분리해 후보 경로를 재정렬하고, Temporally Consistent GRPO로 폐루프 자율주행 계획의 안정성과 장기 품질을 높였습니다.

Habitat-GS: A High-Fidelity Navigation Simulator with Dynamic Gaussian SplattingHabitat-GS: 동적 가우시안 스플래팅을 갖춘 고충실도 내비게이션 시뮬레이터⭐ 43

Habitat-GS는 Habitat-Sim에 실시간 3DGS 렌더링과 주행 가능한 gaussian avatar를 통합해, 사람과 함께 있는 장면까지 포토리얼하게 시뮬레이션하며 embodied agent의 인간 인식 학습을 지원합니다.

LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action AlignmentLARY: 일반화 가능한 비전-투-액션 정렬을 위한 잠재 행동 표현 벤치마크⭐ 23

LARY Benchmark는 100만 개 이상 비디오와 62만 이미지 쌍, 59.5만 모션 궤적으로 잠재 행동 표현이 고수준 의미 행동과 저수준 로봇 제어를 얼마나 일반화하는지 함께 평가하는 통합 기준을 제시했습니다.

📄Training & Optimization3

KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge GuidanceKnowRL: 최소충분 지식 가이던스로 LLM 추론을 강화하는 강화학습⭐ 39

KnowRL은 힌트를 원자적 지식 포인트로 분해하고 CSS로 최소충분 부분집합만 선택해 보상 희소성을 줄였으며, 1.5B 모델에서 8개 추론 벤치마크 전반의 RL 학습 효율과 성능을 끌어올렸습니다.

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe대규모 언어모델 온폴리시 증류 다시 보기: 현상, 메커니즘, 그리고 실전 레시피⭐ 35

이 논문은 OPD 성공 조건을 사고 패턴의 호환성과 교사가 제공하는 진짜 신규 능력으로 정리하고, 확률 질량의 97~99%가 소수 공유 토큰에 집중된다는 분석을 바탕으로 실전형 증류 레시피를 제시했습니다.

SPPO: Sequence-Level PPO for Long-Horizon Reasoning TasksSPPO: 장기 추론 과제를 위한 시퀀스 수준 PPO⭐ 16

SPPO는 긴 CoT 추론을 sequence-level contextual bandit으로 재정식화하고 스칼라 value function으로 저분산 advantage를 계산해, 멀티샘플 없는 PPO 계열 추론 RL의 안정성과 처리량을 함께 개선했습니다.