AI Research
Daily trending papers Source: Hugging Face
Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance
0.2B 규모의 초경량 파라미터로 10B급 성능을 구현한 고효율 이미지 인페인팅 프레임워크
DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects
물리적 접촉 역학을 고려하여 관절형 물체를 정교하게 조작하는 새로운 학습 프레임워크 DragMesh-2 제안
Playful Agentic Robot Learning
자율적인 '놀이(Play)'를 통해 로봇의 재사용 가능한 코드 스킬 라이브러리를 사전 구축하는 에이전트 학습 프레임워크
S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence
정적 이미지 인식을 넘어 시공간적 증거 축적을 통해 3D 공간 지능을 구현하는 에이전트 프레임워크
Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages
Python에 국한된 기존 LCB 벤치마크를 12개 언어로 확장하여 LLM의 진정한 다국어 코딩 능력을 검증하는 Multi-LCB 제안
Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents
단순 점수 합산 방식의 리더보드가 가진 예측력 한계를 지적하고, 실제 배포 환경에서의 성능을 보장하는 새로운 평가 프레임워크를 제안합니다.
FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining
커뮤니티 LoRA를 활용하여 스타일과 콘텐츠가 분리된 고품질 듀얼 레퍼런스 이미지 생성 프레임워크 제안
FlowBender: Feedback-Aware Training for Self-Correcting Conditional Flows
피드백 루프를 학습 과정에 통합하여 조건부 생성 모델의 정밀도와 품질을 동시에 높이는 self-correcting 프레임워크
JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising
학습 없이 3~5분 만에 서로 다른 의미를 가진 두 가지 형상을 구현하는 고품질 3D 비주얼 일루전 생성 프레임워크
DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis
방해 요소(distractor)가 포함된 실제 환경에서도 깨끗한 뷰를 생성할 수 있는 대규모 벤치마크 데이터셋 DF3DV-1K 제안
ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?
비디오 생성 대신 사전 학습된 이미지 편집 모델을 활용하여 연산 효율과 제어 정확도를 동시에 높인 로봇 행동 모델(WAM) 프레임워크
ENPIRE: Agentic Robot Policy Self-Improvement in the Real World
코딩 에이전트가 물리적 환경의 피드백을 통해 스스로 로봇 제어 알고리즘을 개선하는 폐쇄 루프(Closed-loop) 프레임워크 제안
Current World Models Lack a Persistent State Core
현재의 월드 모델은 관찰되지 않는 상황에서도 물리적 상태가 지속되는 '내부 상태 코어'가 결여되어 있음을 증명함
FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines
프롬프트 수정부터 파이프라인 구조 변경까지 자동 수행하는 자율형 LLM 파이프라인 최적화 프레임워크
Context-Aware RL for Agentic and Multimodal LLMs
복잡한 컨텍스트 내 미세한 증거를 찾는 능력을 강화하기 위해 '컨텍스트 선택'을 보상으로 활용하는 새로운 RL 방법론 제안
Understanding the Behaviors of Environment-aware Information Retrieval
리트리버의 특성에 맞춰 LLM의 쿼리 생성 전략을 최적화하는 강화학습 기반의 RAG 성능 향상 방법론
Thinking with Visual Grounding
추론 과정에서 텍스트와 시각적 근거(Point/Box)를 결합하여 모델의 논리적 검증 가능성과 성능을 높이는 새로운 시각적 사고 방식 제안
LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents
에이전트의 상태 관리를 별도 장부(Ledger)로 분리하여 정책 위반과 정보 오류를 방지하는 추론 프레임워크
HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining
에고센트릭(Egocentric) 인간 영상 데이터가 정밀한 로봇 데이터보다 더 효율적인 임바디드(Embodied) 사전 학습 소스가 될 수 있음을 입증함
Holo-World: Unified Camera, Object and Weather Control for Video World Model
단일 이미지로부터 카메라, 객체 움직임, 날씨 변화를 동시에 제어하여 일관된 비디오를 생성하는 통합 월드 모델
The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation
FID 수치는 모델의 성능뿐만 아니라 학습/샘플링 시의 무작위성에 크게 의존하므로, 단일 수치 보고가 아닌 오차 범위를 포함한 평가 프로토콜이 필요합니다.
Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States
미국 전역의 지방 조례 데이터를 수집·정형화하여 법률 AI 연구의 사각지대를 해소한 대규모 코퍼스 및 모델 공개
Adaptive Volumetric Mechanical Property Fields Invariant to Resolution
Sparse Adaptive Voxel 구조를 활용하여 해상도와 메모리 효율을 극대화한 3D 객체용 적응형 물성(E, ν, ρ) 예측 기술
Taylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation
사전 학습된 Transformer를 효율적인 Hybrid Linear Attention 모델로 변환할 때 발생하는 초기화 문제를 해결하는 Taylor 급수 기반의 정밀 초기화 기법
Selective Synergistic Learning for Video Object-Centric Learning
불필요한 정보 정렬을 배제하고 인코더와 디코더의 강점만 선택적으로 결합하여 비디오 객체 분할 성능과 효율성을 높인 학습 프레임워크
Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe
FP4 정밀도 학습 시 발생하는 수치적 편향(Shrinkage Bias)의 원인을 규명하고, 이를 해결하기 위한 균일 그리드 기반의 UFP4 학습 레시피를 제안함
LooseControlVideo: Directorial Video Control using Spatial Blocking
희소한 3D 박스 정보만으로 복잡한 멀티 객체 영상의 레이아웃과 움직임을 제어하는 새로운 비디오 생성 프레임워크
LegalHalluLens: Typed Hallucination Auditing and Calibrated Multi-Agent Debate for Trustworthy Legal AI
법률 AI의 환각(Hallucination)을 유형별로 분석하고, 이를 기반으로 정밀한 멀티 에이전트 토론을 수행하여 신뢰성을 높이는 감사 프레임워크
Duration Aware Scheduling for ASR Serving Under Workload Drift
ASR 서비스의 작업 시간 변동성을 고려한 스케줄링 최적화를 통해 지연 시간(Latency)을 획기적으로 개선
JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines
전문 게임 엔진 환경에서의 프로젝트 단위 코드 생성 및 검증을 위한 대규모 데이터셋과 벤치마크 제안
Configurable Clinical Information Extraction with Agentic RAG: What Works, What Breaks, and Why
복잡한 환자 데이터를 처리하기 위해 에이전트 기반 RAG를 활용하여 높은 정확도의 임상 정보 추출 시스템을 구축함
No Resource, No Benchmarks, No Problem? Evaluating and Improving LLMs for Code Generation in No-Resource Languages
데이터가 거의 없는 특수 목적용 프로그래밍 언어를 위해 LLM의 성능을 효율적으로 끌어올리는 방법론 제시
The Data Manifold under the Microscope
이론적 일반화 경계 검증과 데이터 매니폴드 기하학 연구를 위한 정밀 벤치마킹 프레임워크 제안
ReSyn: A Generalized Recursive Regular Expression Synthesis Framework
복잡한 정규표현식 합성 문제를 분할 정복 방식으로 해결하여 성능을 극대화한 범용 프레임워크 ReSyn