AI Research
Daily trending papers Source: Hugging Face
Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation
클래스 레이블 기반의 1단계 이미지 생성 모델(MeanFlow)을 텍스트 기반으로 확장하여, 효율적이면서도 유연한 이미지 생성을 가능하게 하는 핵심 기술을 제시합니다.
OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation
자율주행 VLA 모델의 추론 속도 문제를 해결하기 위해, 언어와 시각적 세계 모델을 동시에 활용하여 잠재 공간을 학습시키는 OneVL이 명시적 CoT를 능가하는 성능과 실시간에 가까운 추론 속도를 달성했습니다.
Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence
에이전트-월드는 실제 환경과 태스크를 자율적으로 생성하고 에이전트와 환경을 공동 진화시켜 범용 에이전트의 지능을 확장하는 훈련 아레나입니다.
OpenGame: Open Agentic Coding for Games
OpenGame은 게임 개발을 위한 에이전트 프레임워크로, 게임 엔진 마스터링에 특화된 코드 LLM과 자동 디버깅 시스템을 통해 복잡한 게임 개발을 지원하며, 개발자가 실제 게임 개발에 LLM을 활용할 수 있도록 돕는다.
MultiWorld: Scalable Multi-Agent Multi-View Video World Models
다중 에이전트 및 다중 뷰 환경에서 확장 가능하며 일관된 비디오 세계 모델링을 가능하게 하여 복잡한 시뮬레이션 개발을 가속화합니다.
EasyVideoR1: Easier RL for Video Understanding
비디오 이해를 위한 강화 학습 파이프라인 EasyVideoR1은 효율적인 비디오 처리, 다양한 보상 시스템, 혼합 데이터 학습, 이미지-비디오 공동 학습, 비동기 평가를 제공하여 모델 성능 향상 및 개발 편의성을 높임.
GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification
LLM 후처리 과정에서 SFT의 한계를 극복하고 RL과의 통합을 강화하여 더 안정적이고 일반화 성능이 뛰어난 모델을 만드는 새로운 미세 조정 프레임워크.
When Can LLMs Learn to Reason with Weak Supervision?
약한 지도학습 환경에서 LLM이 추론 능력을 학습할 수 있는 조건을 밝히고, 이를 통해 실제 LLM의 성능을 개선할 수 있는 방법을 제시합니다.
WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models
웹 코딩 LLM의 실제 성능을 종합적으로 평가하기 위한 멀티모달 벤치마크를 제시하여, 시각적 충실도, 상호작용, 코드베이스 추론 능력까지 측정합니다.