오늘의 한줄

오늘은 멀티모달 생성 모델이 픽셀 공간, 3D 제약, 정교한 CoT 설계로 빠르게 고도화되는 흐름이 두드러졌습니다. 동시에 에이전트 연구는 벤치마크의 현실성 강화와 조직화·증류·재귀 협업 같은 시스템 설계로 무게중심이 이동하고 있습니다.

👁️Computer Vision3

Sapiens2는 0.4B~5B 규모의 인간 중심 고해상도 비전 트랜스포머로, 마스크드 복원과 자기증류 대조학습을 결합한 사전학습과 10억 장 고품질 인간 이미지 데이터로 밀집 예측부터 제로샷 설정까지 범용 성능을 끌어올렸습니다.

ReVSI는 기존 3D 공간 추론 벤치마크의 잘못된 QA와 입력-정답 불일치 문제를 재주석과 입력 가시성 기준으로 바로잡아, VLM의 실제 3D 추론 능력을 더 타당하게 측정하는 평가 프로토콜을 제안했습니다.

OmniShotCut은 샷 경계 검출을 구조적 관계 예측으로 재정의하고, 정밀한 합성 전환 생성 파이프라인과 새 벤치마크를 함께 제시해 기존 SBD의 애매한 경계와 저품질 주석 문제를 개선했습니다.

Step-Audio-R1.5는 오디오 추론에서 RLVR이 만드는 '검증 가능한 보상 함정'을 지적하며, 벤치마크 점수보다 실제 대화의 음향적 뉘앙스와 상호작용 자연스러움을 보존하는 오디오 지능 설계를 강조합니다.

Tuna-2는 VAE나 별도 비전 인코더 없이 단순 패치 임베딩만으로 이해와 생성을 통합한 엔드투엔드 멀티모달 모델로, 픽셀 공간 학습만으로도 SOTA급 벤치마크 성능과 더 강한 스케일링 이해 성능을 보여줬습니다.

World-R1은 아키텍처 변경 없이 Flow-GRPO와 사전학습 3D·비전언어 모델 피드백으로 비디오 생성에 3D 구조 일관성을 주입해, 시각 품질을 유지하면서 기하학적 불일치를 줄였습니다.

OneManCompany는 스킬·도구·실행 구성을 이식 가능한 Talent로 캡슐화하고 Talent Market과 조직 인터페이스로 동적 채용·재구성을 가능하게 해, 멀티에이전트를 세션 단위 협업이 아닌 지속 학습 조직으로 확장했습니다.

ClawMark는 이메일·캘린더·파일시스템 등 상태가 계속 변하는 5개 서비스 위에서 100개 업무 과제를 1537개 결정적 체커로 평가해, 정적 텍스트 중심 벤치마크가 놓친 장기형 동료 에이전트 성능을 측정합니다.

MAIC-UI는 교재·PPT·PDF에서 제로코드로 인터랙티브 STEM 코스웨어를 만드는 시스템으로, generate-verify-optimize 파이프라인과 Unified Diff 기반 증분 편집으로 수정 시간을 10초 이하로 줄였습니다.

이 서베이는 VLA 모델의 안전 문제를 학습 시점·추론 시점의 공격과 방어 축으로 정리하며, 물리적 비가역성·멀티모달 공격면·장기 궤적 오류 전파 같은 구현 핵심 리스크를 체계화했습니다.

ProDa는 지식 추출 표현을 학습 데이터와 평가의 공통 기반으로 삼아 데이터 엔지니어링을 코드 작성·컴파일·유닛 테스트·디버깅에 대응시키고, 실패 원인을 개념 결손과 추론 사슬 오류로 분해해 데이터 수선을 가능하게 합니다.

TCOD는 멀티턴 에이전트 OPD에서 발생하는 trajectory-level KL instability를 짧은 궤적부터 긴 궤적으로 확장하는 시간 커리큘럼으로 완화해, 더 안정적인 증류와 높은 성공률을 달성했습니다.