오늘의 한줄

오늘은 에이전트 평가·보안과 추론 효율화가 특히 두드러졌습니다. 벤치마크는 결과물만이 아니라 과정과 프라이버시까지 보기 시작했고, 모델 쪽은 간단한 자기증류·응답 길이 제어·효율적 깊이 확장처럼 실전형 개선이 눈에 띕니다.

💻Code & Agents8

ClawKeeper는 OpenClaw 에이전트에 대해 스킬·플러그인·워처의 3계층 실시간 보안 프레임워크를 제안해 파일 접근·셸 실행 같은 고권한 에이전트의 데이터 유출과 권한 상승 위험을 수명주기 전반에서 통합적으로 막는다.

MiroEval은 실제 사용자 요구 기반 100개 과제로 딥리서치 에이전트를 최종 보고서뿐 아니라 적응형 합성 품질·에이전트형 사실성 검증·과정 품질까지 함께 평가하는 라이브형 멀티모달 벤치마크다.

Vision2Web은 실제 웹사이트 기반 193개 과제로 UI-to-code부터 멀티페이지 프론트엔드, 장기 풀스택 개발까지 평가하고 GUI 에이전트 검증기와 VLM 판정기를 결합해 현 SOTA도 풀스택 단계에선 크게 고전함을 보여준다.

ViGoR-Bench는 이미지·비디오 생성 모델을 과정과 최종 결과 모두에서 평가하는 추론 중심 벤치마크로, 20개 이상 최신 모델이 높은 화질과 별개로 물리·인과·공간 추론에서 큰 결손을 보인다는 점을 드러낸다.

GaussianGPT는 3D Gaussian primitive를 벡터양자화 토큰으로 압축한 뒤 causal transformer로 순차 생성해, 확산 대신 자기회귀 방식으로 3D 장면 생성·완성·아웃페인팅·온도 기반 제어 샘플링을 가능하게 한다.

SSD는 검증기·교사모델·RL 없이 모델 자신의 샘플만으로 재학습해 Qwen3-30B-Instruct의 LiveCodeBench v6 pass@1을 42.4%에서 55.3%로 끌어올리며, 특히 어려운 문제에서 코드 생성력을 크게 높인다.

PixelPrune은 문서·GUI 이미지의 중복 패치를 ViT 이전 픽셀 공간에서 제거하는 학습 없는 압축 기법으로, 벤치마크에서 패치의 22~71%가 중복이라는 관찰을 바탕으로 인코더와 LLM 전체 추론 비용을 함께 줄인다.

YOCO-U는 YOCO 아키텍처와 얕은 층 재귀 계산을 결합해 글로벌 KV 캐시를 상수로 유지하면서 테스트타임 깊이 확장을 가능하게 해, 추론·에이전트 성능을 계산량 대비 더 효율적으로 키우려는 설계를 제시한다.

MMaDA-VLA는 언어·이미지·로봇 제어를 하나의 이산 토큰 공간에 넣고 확산 방식으로 미래 관측과 액션 청크를 병렬 생성해, 긴 시계열 조작에서 일관성과 환경 동역학 반영을 동시에 노린 네이티브 VLA 모델이다.

PerceptionComp는 279개 비디오에 1,114개 수작업 질문을 붙여 시간적으로 떨어진 단서와 결합·순차 논리를 함께 요구하는 장기 비디오 추론을 측정하며, 인간도 반복 시청 없이는 정확도가 18.97%까지 떨어질 만큼 난도가 높다.

TAB은 3D 비주얼 그라운딩을 원시 RGB-D 스트림에서의 2D-to-3D 재구성 문제로 재정의해, VLM이 시각 도구를 동적으로 호출하며 추적·재구성하도록 만들어 제로샷 3D-VG의 정적 제안 매칭 한계를 넘는다.

QuitoBench는 Alipay 기반 대규모 시계열 코퍼스로 만든 23만2,200개 평가 인스턴스 벤치마크로, 짧은 문맥에선 딥러닝이 강하지만 긴 문맥(L≥576)에선 파운데이션 모델이 우세하고 예측 가능성이 난도의 핵심 변수임을 보여준다.

Reasoning Shift는 불필요한 긴 문맥, 멀티턴 대화, 하위 과제 포장만으로도 동일 문제에 대한 추론 흔적이 최대 50% 짧아지고 자기검증·불확실성 관리가 줄어든다는 점을 보여, 테스트타임 추론의 취약성을 짚는다.

31개 모델 분석 결과 큰 모델은 장황함 때문에 7.7% 문제에서 작은 모델보다 28.4%p 낮았지만, 짧게 답하라는 제약만으로 정확도가 26%p 오르고 수학·과학 벤치에선 성능 서열이 완전히 뒤집혔다.