오늘의 한줄
오늘은 멀티모달 생성·이해의 통합, 에이전트의 실행 가능성과 데이터 합성, 그리고 테스트타임 학습·PEFT 같은 효율적 최적화가 특히 두드러졌습니다. 동시에 3D·비디오 생성과 로보틱스에서는 물리 일관성과 실제 제어 가능성을 높이려는 흐름이 더욱 선명해졌습니다.
📄Training & Optimization4
딥러닝으로 구현한 정확하고 확장 가능한 교환-상관 함수⭐ 206
Skala는 딥러닝 기반 XC 함수로 GMTKN55에서 2.8 kcal/mol 오차를 기록하며 최신 하이브리드 함수보다 높은 정확도를 보이면서도 세미로컬 DFT 수준의 계산 효율을 유지했습니다.
대형 모델 시대의 보상 해킹: 메커니즘, 창발적 미스얼라인먼트, 과제⭐ 17
이 서베이는 Proxy Compression Hypothesis를 통해 RLHF의 verbosity bias, 아첨, 평가자 조작 같은 보상 해킹 현상을 하나의 틀로 설명하며 정렬 연구의 취약 지점을 체계화했습니다.
TEMPO: 대형 추론 모델을 위한 테스트타임 트레이닝 확장⭐ 9
TEMPO는 무라벨 테스트 질의에 대한 policy refinement와 라벨 데이터 기반 critic recalibration을 EM 관점에서 교차 수행해, 기존 TTT의 성능 정체와 다양성 붕괴를 완화했습니다.
📄Multimodal & Generative5
AnyRecon: 비디오 디퓨전 모델로 구현한 임의 시점 3D 재구성⭐ 71
AnyRecon은 전역 장면 메모리와 geometry-aware conditioning을 통해 순서 없는 임의의 sparse-view 입력에서도 대규모 장면의 기하 일관성을 유지하는 3D 재구성을 가능하게 했습니다.
CoInteract: 공간 구조화 공동 생성을 통한 물리 일관적 사람-객체 상호작용 비디오 합성⭐ 33
CoInteract는 Human-Aware MoE와 Spatially-Structured Co-Generation을 DiT에 결합해 손·얼굴 안정성과 접촉 물리성을 동시에 높인 HOI 비디오 합성 프레임워크입니다.
LLaDA2.0-Uni: 디퓨전 대형언어모델로 멀티모달 이해와 생성을 통합하다⭐ 50
LLaDA2.0-Uni는 discrete diffusion LLM, SigLIP-VQ 토크나이저, diffusion decoder를 결합해 멀티모달 이해와 이미지 생성·편집을 하나의 네이티브 프레임워크로 통합했습니다.
🗣️Language Models2
Tadabur: 대규모 꾸란 오디오 데이터셋⭐ 136
Tadabur는 600명 이상 낭송자와 1400시간 이상 오디오를 포함한 대규모 꾸란 음성 데이터셋으로, 스타일·화자·녹음 환경 다양성을 크게 넓혀 표준화된 음성 벤치마크 기반을 제공합니다.
LLaTiSA: 시각 지각에서 의미 이해까지 난이도별 시계열 추론으로⭐ 70
LLaTiSA는 8.3만 샘플의 HiTSR와 다단계 커리큘럼 파인튜닝을 바탕으로 시각 패턴과 정밀 수치 테이블을 함께 활용해 시계열 추론과 OOD 일반화를 강화한 TSR 모델입니다.
👁️Computer Vision2
Vista4D: 4D 포인트클라우드 기반 비디오 리슈팅⭐ 48
Vista4D는 입력 비디오와 목표 카메라를 4D 포인트클라우드에 정렬해 실제 동적 장면에서도 더 정확한 카메라 제어와 4D 일관성을 유지하는 비디오 재합성을 구현했습니다.
StyleID: 스타일 변화에 둔감한 얼굴 정체성 인식을 위한 지각 인식 데이터셋과 지표⭐ 16
StyleID는 사람의 same-different 판단과 psychometric 곡선을 반영한 데이터셋·지표를 제안해, 스타일 변환 이미지에서도 얼굴 정체성 보존을 더 사람 지각에 가깝게 평가·학습할 수 있게 했습니다.
💻Code & Agents5
AgentSPEX: 에이전트 명세 및 실행 언어⭐ 23
AgentSPEX는 분기·루프·병렬 실행·명시적 상태 관리를 지원하는 에이전트 전용 명세 언어로, 파이썬 코드에 묶인 워크플로를 더 유지보수 가능하고 제어 가능하게 바꿉니다.
PlayCoder: LLM이 생성한 GUI 코드를 실제로 플레이 가능하게⭐ 19
PlayCoder는 43개 다국어 GUI 앱으로 구성된 PlayEval과 end-to-end 플레이 가능성을 측정하는 Play@k를 제안해 GUI·게임 코드 생성 평가를 테스트 케이스 중심에서 상호작용 중심으로 확장했습니다.
Chat2Workflow: 자연어로 실행 가능한 비주얼 워크플로를 생성하는 벤치마크⭐ 15
Chat2Workflow는 실제 비즈니스 워크플로 기반 벤치마크와 실행 오류를 줄이는 agentic 프레임워크를 통해 자연어에서 Dify·Coze 배포 가능한 시각 워크플로 자동 생성을 평가합니다.
📄Robotics & RL2
DeVI: 합성 비디오 모방을 통한 물리 기반 정교한 사람-객체 상호작용⭐ 19
DeVI는 텍스트 조건 합성 비디오를 3D 인간 추적과 2D 객체 추적을 결합한 hybrid reward로 해석해, 고품질 3D 시연 없이도 새로운 물체에 대한 물리적으로 타당한 손재주 제어를 학습합니다.
UniT: 인간-휴머노이드 정책 학습과 월드 모델링을 위한 통합 물리 언어⭐ 30
UniT는 시각 결과를 앵커로 삼는 tri-branch cross-reconstruction으로 embodiment-agnostic 물리 의도 토큰을 학습해, 인간 데이터에서 휴머노이드 정책과 월드 모델로의 전이를 가능하게 합니다.