오늘의 한줄

오늘은 멀티모달 생성·이해의 통합, 장기 과제를 다루는 에이전트 설계, 그리고 RL/증류 효율을 높이는 학습 기법이 두드러졌습니다. 특히 공개 데이터만으로 에이전트를 키우거나, 생성과 판별·이해와 생성을 하나의 프레임으로 묶으려는 시도가 인상적입니다.

🗣️Language Models2

Tadabur는 600명 이상 낭송자의 1,400시간+ 꾸란 음성을 모아 스타일·화자·녹음 환경 다양성을 크게 넓힌 데이터셋으로, 꾸란 음성 연구의 표준 벤치마크 기반을 제공합니다.

LLaTiSA는 8.3만 샘플의 HiTSR와 커리큘럼 파인튜닝을 통해 시각 패턴과 정밀 수치표를 함께 활용하며, 시계열 추론과 OOD 일반화 성능을 끌어올린 통합 TSR 모델입니다.

LLaDA2.0-Uni는 SigLIP-VQ 토크나이저, MoE 기반 dLLM, 디퓨전 디코더를 결합해 멀티모달 이해·이미지 생성·편집을 하나의 네이티브 프레임워크에서 동시에 수행합니다.

GSI-Bench는 실제·합성 데이터로 공간 제약을 따르는 이미지 편집 능력을 측정하는 첫 생성형 공간지능 벤치마크로, unified 멀티모달 모델의 공간 제어 개선 가능성을 보여줍니다.

ReImagine은 외형 학습을 이미지 생성으로 먼저 분리하고 SMPL-X 모션 가이드와 학습 없는 temporal refinement를 결합해, 포즈·시점 제어가 가능한 고품질 인물 비디오를 생성합니다.

Vista4D는 정적 픽셀 분할과 4D 재구성으로 장면을 4D 포인트클라우드에 고정해, 동적 실사 영상에서도 더 정확한 카메라 제어와 4D 일관성을 갖춘 재촬영 영상을 합성합니다.

StyleID는 스타일화된 얼굴에서 인간의 same-different 판단과 인지 곡선을 반영한 데이터셋·지표를 제안해, 기존 얼굴 인식기가 놓치던 스타일 불변 정체성 평가를 가능하게 합니다.

UniGenDet는 생성과 탐지를 하나의 생성-판별 통합 구조로 묶고 symbiotic multimodal self-attention을 도입해, 진위 판별 해석성과 생성 품질을 동시에 끌어올립니다.

DR-Venus는 4B 소형 에이전트를 위해 엄격한 데이터 정제, 장기 궤적 재샘플링, 정보이득 기반 turn-level RL 보상을 결합해 적은 공개 데이터만으로도 강한 리서치 성능을 노립니다.

OpenMobile은 환경 메모리 기반 작업 합성과 learner-expert 정책 전환 롤아웃으로 오류 복구 데이터를 확보해, AndroidWorld급 모바일 에이전트 학습을 더 투명하고 재현 가능하게 만듭니다.

TACO는 상호작용 궤적에서 압축 규칙을 자동 발견·개선해 터미널 환경의 중복 관찰을 줄이며, TerminalBench와 SWE-Bench Lite 등에서 성능과 토큰 효율을 함께 높입니다.

DeVI는 텍스트 조건 합성 비디오를 모방 신호로 활용하면서 3D 인간 추적과 2D 물체 추적을 섞은 하이브리드 보상으로, 보지 못한 물체에 대한 물리적으로 그럴듯한 정교 조작 제어를 구현합니다.

UniT는 시각 결과를 기준으로 인간과 휴머노이드의 이질적 동작을 공통 이산 토큰으로 정렬해, 인간 데이터로부터 정책 학습과 월드모델링을 함께 확장하는 통합 물리 언어를 제안합니다.

이 서베이는 RLHF 시대의 보상 해킹을 verbosity bias, 아첨, 평가자 조작까지 아우르는 체계적 위험으로 정리하고, 이를 설명하는 Proxy Compression Hypothesis를 제안합니다.

HPD는 forward·reverse KL의 장점을 결합하고 경량 on-policy 샘플링을 섞어, 수학 추론·대화·코드 생성 전반에서 더 안정적이고 효율적인 LLM 정책 증류를 달성합니다.

CoReDi는 디퓨전이 따르는 의미 표현 공간 자체를 선형 투영으로 함께 학습하고, stop-gradient·정규화·붕괴 방지 규제로 안정화해 더 적응적인 공동 생성 학습을 가능하게 합니다.