오늘의 한줄
오늘은 멀티모달 모델이 이해를 넘어 생성·편집·실시간 상호작용까지 통합되는 흐름과, 이를 뒷받침하는 검색·로보틱스·확산 최적화 연구가 두드러졌습니다. 동시에 벤치마크와 감사 프레임워크가 늘어나며, 성능 경쟁에서 재현성·안전성·평가 표준화로 무게중심이 이동하고 있습니다.
📄Multimodal & Generative7
통합 멀티모달 이해·생성에서 공간 지능을 깨우다⭐ 2,111
JoyAI-Image는 공간 강화 MLLM과 MMDiT를 결합해 이해·텍스트-이미지 생성·지시 편집을 하나의 인터페이스로 통합하고, 공간 grounding·장문 렌더링 학습으로 여러 벤치마크에서 SOTA급 성능을 달성했습니다.
MiniCPM-o 4.5: 실시간 전이중 옴니모달 상호작용을 향해⭐ 24,514
MiniCPM-o 4.5는 보고·듣고·말하기를 동시에 수행하는 실시간 전이중 옴니모달 상호작용과 능동적 알림·코멘트까지 지원해, 반응형 MLLM을 사람형 인터랙션 에이전트로 확장했습니다.
PhysForge: 인터랙티브 가상세계를 위한 물리 기반 3D 자산 생성⭐ 35
PhysForge는 15만 개 PhysDB와 계층적 물리 블루프린트, KineVoxel Injection을 활용해 기하뿐 아니라 재질·기능·운동학까지 맞는 시뮬레이션 준비형 3D 자산을 생성합니다.
💻Code & Agents4
MedSkillAudit: 의료 연구 에이전트 스킬을 위한 도메인 특화 감사 프레임워크⭐ 531
MedSkillAudit는 의료 연구용 에이전트 스킬 75개를 과학적 타당성·재현성·안전성 기준으로 배포 전 감사하는 계층형 프레임워크로, 전문가 평가와의 신뢰도 정합성을 검증해 의료 도메인 배포 기준을 제시했습니다.
OpenSearch-VL: 최전선 멀티모달 검색 에이전트를 위한 오픈 레시피⭐ 49
OpenSearch-VL은 위키 경로 샘플링·시각 grounding 기반 데이터 생성과 텍스트·이미지·웹을 아우르는 도구 환경, agentic RL을 공개해 재현 가능한 멀티모달 딥서치 에이전트 학습 레시피를 제시했습니다.
KernelBench-X: LLM 생성 GPU 커널 평가를 위한 종합 벤치마크⭐ 14
KernelBench-X는 176개 작업·15개 카테고리에서 LLM 기반 Triton 커널의 정확도와 하드웨어 효율을 분석해, 방법보다 과제 구조가 성패를 더 크게 좌우하고 반복 개선은 성능 향상으로 잘 이어지지 않음을 보였습니다.
📄Robotics & RL2
RLDX-1 기술 보고서⭐ 70
RLDX-1은 Multi-Stream Action Transformer로 시각·언어·동작·기억·물리 감각을 통합해 정교한 조작 정책을 학습하며, 희귀 조작 데이터 합성과 실시간 추론 최적화로 범용 로봇 조작 성능을 확장했습니다.
KinDER: 로봇 학습과 계획을 위한 물리 추론 벤치마크⭐ 22
KinDER는 25개 절차적 환경과 13개 베이스라인으로 구성된 로봇 물리 추론 벤치마크로, 공간 관계·도구 사용·동역학 제약 등 핵심 난제를 지각·언어 요소와 분리해 평가합니다.
👁️Computer Vision1
HERMES++: 3D 장면 이해와 생성을 아우르는 통합 주행 월드 모델⭐ 36
HERMES++는 BEV 표현, LLM 강화 월드 쿼리, Current-to-Future 쿼리 디코더를 통해 3D 장면 이해와 미래 기하 예측을 한 프레임워크에 통합한 자율주행 월드 모델입니다.
📄Training & Optimization4
소수 스텝 확산 증류를 위한 연속시간 분포 정합⭐ 21
CDM은 DMD를 이산 시점 고정 supervision에서 연속시간 최적화로 확장해 시각적 아티팩트와 과도한 평활화를 줄이면서, GAN이나 보상 모델 없이도 few-step 확산 증류 품질을 높였습니다.
MARBLE: 확산 RL을 위한 다면적 보상 균형화⭐ 23
MARBLE은 단순 가중합 대신 샘플별 정보량 차이를 반영하는 다중 보상 균형화로, 하나의 확산 모델을 여러 선호 기준에 동시에 정렬시키는 diffusion RL 파인튜닝 문제를 해결합니다.
Stream-R1: 스트리밍 비디오 생성을 위한 신뢰도·퍼플렉서티 인지 보상 증류⭐ 20
Stream-R1은 롤아웃 신뢰도와 프레임·영역별 개선 여지를 함께 반영해 distillation 가중치를 적응적으로 조절함으로써, 스트리밍 비디오 확산의 품질 한계를 높였습니다.
🗣️Language Models2
벤치마크가 없을 때: 정답 라벨 없이 LLM 안전성 비교 점수를 검증하는 법⭐ 14
SimpleAudit는 라벨 없는 환경에서 시나리오 기반 안전성 비교 점수의 타당성을 검증하는 절차를 제안하며, 노르웨이어 안전성 팩에서 AUROC 0.89~1.00으로 유효한 비교 감사 가능성을 보였습니다.
ResRL: 음성 샘플 투영 잔차 강화학습으로 LLM 추론 강화하기⭐ 8
ResRL은 음성·양성 응답 간 공통 의미 분포를 분리하기 위해 음성 토큰 표현을 양성 저랭크 부분공간에 투영한 뒤 잔차만 활용해, RLVR의 추론 성능 향상과 생성 다양성 보존을 함께 노렸습니다.