오늘의 한줄

오늘은 추론 시점 학습과 파인튜닝 효율화처럼 모델을 더 잘 학습·적응시키는 연구와, 이미지·비디오·3D를 아우르는 통합 생성 모델이 특히 눈에 띄었습니다. 동시에 코드·모바일·워크플로 자동화까지 에이전트 연구가 실제 배포 가능한 형태로 빠르게 구체화되고 있습니다.

📄Training & Optimization5

Skala는 딥러닝 기반 XC 함수로 GMTKN55에서 2.8 kcal/mol 오차를 기록하며 최신 하이브리드 함수 정확도를 넘어서면서도 세미로컬 DFT 수준의 계산 효율을 유지했습니다.

TEMPO는 비라벨 테스트 문제에 대한 정책 업데이트와 라벨 데이터 기반 critic 재보정을 EM 관점으로 교차 수행해, 기존 TTT의 성능 정체와 다양성 붕괴를 줄이며 추가 테스트타임 연산 이득을 지속적으로 끌어냅니다.

ShadowPEFT는 층별 저랭크 가중치 삽입 대신 깊이 공유 섀도 모듈로 레이어 공간 정제를 수행해, 백본과 분리된 재사용 가능한 중앙집중형 PEFT 설계를 제안합니다.

AnyRecon은 전역 장면 메모리와 기하 인지 조건화를 통해 순서 없는 임의의 희소 입력 뷰를 안정적으로 활용해 대규모 장면에서도 기하 일관성을 유지하는 3D 재구성을 구현했습니다.

UniMesh는 Mesh Head, Chain of Mesh, 자기반성 triad를 결합해 3D 메쉬의 이해·생성·편집을 하나의 아키텍처로 통합하며, 반복적 의미 편집과 지식 전이를 동시에 노립니다.

Tadabur는 600명 이상 낭송자와 1400시간 이상 오디오를 담아 낭송 스타일·음성 특성·녹음 환경 다양성을 크게 넓힌 꾸란 음성 연구용 표준 데이터 기반을 제시합니다.

CoInteract는 Human-Aware MoE와 Spatially-Structured Co-Generation을 DiT에 결합해 손·얼굴 구조 안정성과 손-물체 접촉의 물리적 타당성을 함께 높인 HOI 비디오 생성 프레임워크입니다.

LLaDA2.0-Uni는 SigLIP-VQ 토크나이저, MoE 기반 dLLM, 디퓨전 디코더를 결합해 멀티모달 이해 성능은 전용 VLM급으로 유지하면서 이미지 생성·편집과 인터리브드 추론까지 하나의 모델에서 처리합니다.

GSI-Bench는 실제·합성 데이터와 통합 평가 프로토콜로 생성형 모델의 3D 공간 제약 준수 능력을 측정하는 첫 벤치마크이며, GSI-Syn 미세조정이 통합 멀티모달 모델의 공간 편집 능력을 개선함을 보였습니다.

AgentSPEX는 분기·루프·병렬 실행·명시적 상태 관리를 지원하는 전용 워크플로 언어와 실행 하네스를 제안해 프롬프트 중심 에이전트를 더 제어 가능하고 유지보수 가능한 시스템으로 바꿉니다.

PlayCoder는 43개 다국어 GUI 앱으로 구성된 PlayEval과 상호작용 흐름을 반영하는 Play@k 지표를 제안해 테스트 케이스만으로는 놓치던 GUI·게임 코드의 실제 사용 가능성을 평가합니다.

Chat2Workflow는 실제 비즈니스 워크플로 기반 벤치마크를 구축하고 Dify·Coze에 바로 배포 가능한 실행형 워크플로 생성을 평가해 LLM의 산업용 자동화 설계 역량을 정량화합니다.

DeVI는 텍스트 조건 합성 비디오에서 3D 인간 추적과 2D 물체 추적을 결합한 하이브리드 보상으로 물리적으로 그럴듯한 정교 조작 제어를 학습해, 고품질 3D 시연 없이도 새로운 물체 상호작용을 가능하게 합니다.

이 서베이는 Proxy Compression Hypothesis로 장황성 편향, 아첨, 환각적 정당화, 평가자 조작 등 대형 모델의 보상 해킹 현상을 하나의 틀로 정리해 정렬 연구의 핵심 취약점을 짚습니다.