PyoSignal Logo
PyoSignal

AI Research

Daily trending papers Source: Hugging Face

Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance
95

Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance

0.2B 규모의 초경량 파라미터로 10B급 성능을 구현한 고효율 이미지 인페인팅 프레임워크

#Image Inpainting #Model Compression
더 보기
DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects
60

DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects

물리적 접촉 역학을 고려하여 관절형 물체를 정교하게 조작하는 새로운 학습 프레임워크 DragMesh-2 제안

#Robotics #Reinforcement Learning
더 보기
Playful Agentic Robot Learning
35

Playful Agentic Robot Learning

자율적인 '놀이(Play)'를 통해 로봇의 재사용 가능한 코드 스킬 라이브러리를 사전 구축하는 에이전트 학습 프레임워크

#Robot Learning #Agentic Workflow
더 보기
S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence
25

S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

정적 이미지 인식을 넘어 시공간적 증거 축적을 통해 3D 공간 지능을 구현하는 에이전트 프레임워크

#Agent #Spatial-Intelligence
더 보기
Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages
23

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

Python에 국한된 기존 LCB 벤치마크를 12개 언어로 확장하여 LLM의 진정한 다국어 코딩 능력을 검증하는 Multi-LCB 제안

#LLM-Evaluation #Code-Generation
더 보기
Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents
20

Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

단순 점수 합산 방식의 리더보드가 가진 예측력 한계를 지적하고, 실제 배포 환경에서의 성능을 보장하는 새로운 평가 프레임워크를 제안합니다.

#LLM-Agent #Evaluation
더 보기
FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining
18

FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining

커뮤니티 LoRA를 활용하여 스타일과 콘텐츠가 분리된 고품질 듀얼 레퍼런스 이미지 생성 프레임워크 제안

#Generative AI #Diffusion Models
더 보기
FlowBender: Feedback-Aware Training for Self-Correcting Conditional Flows
15

FlowBender: Feedback-Aware Training for Self-Correcting Conditional Flows

피드백 루프를 학습 과정에 통합하여 조건부 생성 모델의 정밀도와 품질을 동시에 높이는 self-correcting 프레임워크

#Generative Models #Diffusion/Flow
더 보기
JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising
14

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

학습 없이 3~5분 만에 서로 다른 의미를 가진 두 가지 형상을 구현하는 고품질 3D 비주얼 일루전 생성 프레임워크

#3D Generation #Diffusion Models
더 보기
DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis
9

DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis

방해 요소(distractor)가 포함된 실제 환경에서도 깨끗한 뷰를 생성할 수 있는 대규모 벤치마크 데이터셋 DF3DV-1K 제안

#Computer Vision #NeRF
더 보기
ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?
8

ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?

비디오 생성 대신 사전 학습된 이미지 편집 모델을 활용하여 연산 효율과 제어 정확도를 동시에 높인 로봇 행동 모델(WAM) 프레임워크

#Robot Control #Diffusion Models
더 보기
ENPIRE: Agentic Robot Policy Self-Improvement in the Real World
7

ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

코딩 에이전트가 물리적 환경의 피드백을 통해 스스로 로봇 제어 알고리즘을 개선하는 폐쇄 루프(Closed-loop) 프레임워크 제안

#Agentic Workflow #Robotics
더 보기
Current World Models Lack a Persistent State Core
6

Current World Models Lack a Persistent State Core

현재의 월드 모델은 관찰되지 않는 상황에서도 물리적 상태가 지속되는 '내부 상태 코어'가 결여되어 있음을 증명함

#World Models #Computer Vision
더 보기
FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines
4

FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines

프롬프트 수정부터 파이프라인 구조 변경까지 자동 수행하는 자율형 LLM 파이프라인 최적화 프레임워크

#LLM-Agent #Prompt-Engineering
더 보기
Context-Aware RL for Agentic and Multimodal LLMs
4

Context-Aware RL for Agentic and Multimodal LLMs

복잡한 컨텍스트 내 미세한 증거를 찾는 능력을 강화하기 위해 '컨텍스트 선택'을 보상으로 활용하는 새로운 RL 방법론 제안

#Agent #Reinforcement Learning
더 보기
Understanding the Behaviors of Environment-aware Information Retrieval
4

Understanding the Behaviors of Environment-aware Information Retrieval

리트리버의 특성에 맞춰 LLM의 쿼리 생성 전략을 최적화하는 강화학습 기반의 RAG 성능 향상 방법론

#RAG #LLM
더 보기
Thinking with Visual Grounding
4

Thinking with Visual Grounding

추론 과정에서 텍스트와 시각적 근거(Point/Box)를 결합하여 모델의 논리적 검증 가능성과 성능을 높이는 새로운 시각적 사고 방식 제안

#VLM #Reasoning
더 보기
LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents
3

LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

에이전트의 상태 관리를 별도 장부(Ledger)로 분리하여 정책 위반과 정보 오류를 방지하는 추론 프레임워크

#AI Agent #Tool-Calling
더 보기
HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining
3

HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

에고센트릭(Egocentric) 인간 영상 데이터가 정밀한 로봇 데이터보다 더 효율적인 임바디드(Embodied) 사전 학습 소스가 될 수 있음을 입증함

#Embodied AI #Foundation Models
더 보기
Holo-World: Unified Camera, Object and Weather Control for Video World Model
3

Holo-World: Unified Camera, Object and Weather Control for Video World Model

단일 이미지로부터 카메라, 객체 움직임, 날씨 변화를 동시에 제어하여 일관된 비디오를 생성하는 통합 월드 모델

#Video Generation #World Model
더 보기
The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation
2

The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation

FID 수치는 모델의 성능뿐만 아니라 학습/샘플링 시의 무작위성에 크게 의존하므로, 단일 수치 보고가 아닌 오차 범위를 포함한 평가 프로토콜이 필요합니다.

#Generative Models #Evaluation Metric
더 보기
Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States
2

Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States

미국 전역의 지방 조례 데이터를 수집·정형화하여 법률 AI 연구의 사각지대를 해소한 대규모 코퍼스 및 모델 공개

#Dataset #NLP
더 보기
Adaptive Volumetric Mechanical Property Fields Invariant to Resolution
2

Adaptive Volumetric Mechanical Property Fields Invariant to Resolution

Sparse Adaptive Voxel 구조를 활용하여 해상도와 메모리 효율을 극대화한 3D 객체용 적응형 물성(E, ν, ρ) 예측 기술

#3D Physics #Sparse Voxel
더 보기
Taylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation
2

Taylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation

사전 학습된 Transformer를 효율적인 Hybrid Linear Attention 모델로 변환할 때 발생하는 초기화 문제를 해결하는 Taylor 급수 기반의 정밀 초기화 기법

#Model Distillation #Linear Attention
더 보기
Selective Synergistic Learning for Video Object-Centric Learning
2

Selective Synergistic Learning for Video Object-Centric Learning

불필요한 정보 정렬을 배제하고 인코더와 디코더의 강점만 선택적으로 결합하여 비디오 객체 분할 성능과 효율성을 높인 학습 프레임워크

#Video Understanding #Object-Centric Learning
더 보기
Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe
1

Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe

FP4 정밀도 학습 시 발생하는 수치적 편향(Shrinkage Bias)의 원인을 규명하고, 이를 해결하기 위한 균일 그리드 기반의 UFP4 학습 레시피를 제안함

#LLM Pretraining #Quantization
더 보기
LooseControlVideo: Directorial Video Control using Spatial Blocking
1

LooseControlVideo: Directorial Video Control using Spatial Blocking

희소한 3D 박스 정보만으로 복잡한 멀티 객체 영상의 레이아웃과 움직임을 제어하는 새로운 비디오 생성 프레임워크

#Video-Generation #3D-Control
더 보기
LegalHalluLens: Typed Hallucination Auditing and Calibrated Multi-Agent Debate for Trustworthy Legal AI
1

LegalHalluLens: Typed Hallucination Auditing and Calibrated Multi-Agent Debate for Trustworthy Legal AI

법률 AI의 환각(Hallucination)을 유형별로 분석하고, 이를 기반으로 정밀한 멀티 에이전트 토론을 수행하여 신뢰성을 높이는 감사 프레임워크

#Multi-Agent #Hallucination
더 보기
Duration Aware Scheduling for ASR Serving Under Workload Drift
1

Duration Aware Scheduling for ASR Serving Under Workload Drift

ASR 서비스의 작업 시간 변동성을 고려한 스케줄링 최적화를 통해 지연 시간(Latency)을 획기적으로 개선

#ASR #Scheduling
더 보기
JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines
0

JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines

전문 게임 엔진 환경에서의 프로젝트 단위 코드 생성 및 검증을 위한 대규모 데이터셋과 벤치마크 제안

#GameDev #Benchmark
더 보기
Configurable Clinical Information Extraction with Agentic RAG: What Works, What Breaks, and Why
0

Configurable Clinical Information Extraction with Agentic RAG: What Works, What Breaks, and Why

복잡한 환자 데이터를 처리하기 위해 에이전트 기반 RAG를 활용하여 높은 정확도의 임상 정보 추출 시스템을 구축함

#Agentic RAG #Information Extraction
더 보기
No Resource, No Benchmarks, No Problem? Evaluating and Improving LLMs for Code Generation in No-Resource Languages
0

No Resource, No Benchmarks, No Problem? Evaluating and Improving LLMs for Code Generation in No-Resource Languages

데이터가 거의 없는 특수 목적용 프로그래밍 언어를 위해 LLM의 성능을 효율적으로 끌어올리는 방법론 제시

#Code Generation #Domain-Specific Language
더 보기
The Data Manifold under the Microscope
0

The Data Manifold under the Microscope

이론적 일반화 경계 검증과 데이터 매니폴드 기하학 연구를 위한 정밀 벤치마킹 프레임워크 제안

#Deep Learning Theory #Manifold Learning
더 보기
ReSyn: A Generalized Recursive Regular Expression Synthesis Framework
0

ReSyn: A Generalized Recursive Regular Expression Synthesis Framework

복잡한 정규표현식 합성 문제를 분할 정복 방식으로 해결하여 성능을 극대화한 범용 프레임워크 ReSyn

#Programming-By-Example #Regular Expression
더 보기