[review] Shap E: Generating Conditional 3D Implicit Functions
·
Reveiw/Paper
OpenAI 사에서 2023년 발표한 text-to-3d 모델입니다.https://github.com/openai/shap-e GitHub - openai/shap-e: Generate 3D objects conditioned on text or imagesGenerate 3D objects conditioned on text or images. Contribute to openai/shap-e development by creating an account on GitHub.github.com 1. Introduction최근 이미지 생성 모델이 폭발적으로 늘어남에 따라, 음성나 영상과 같이 다른 영역의 생성 모델에 대해서도 관심이 높아지고 있습니다. 이런 영역은 대부분 일정한 크기가 정해진 텐서들로 나타..
[review] Boost Your Human Image Generation Model via Direct Preference Optimization
·
Reveiw/Paper
카카오 AI 연구팀에서 진행한 연구로, 2025 CVPR 하이라이트 논문으로 선정되었습니다.https://arxiv.org/abs/2405.20216 Boost Your Human Image Generation Model via Direct Preference OptimizationHuman image generation is a key focus in image synthesis due to its broad applications, but even slight inaccuracies in anatomy, pose, or details can compromise realism. To address these challenges, we explore Direct Preference Optimization..
[review] Packing Input Frame Context in Next-Frame Pediction Models for Video Generation
·
Reveiw/Paper
영상 생성 분야에서 많이 쓰이기 시작한 모델인 FramePack에 대해 소개하는 논문입니다.https://lllyasviel.github.io/frame_pack_gitpage/ FramePackAll results are computed by RTX 3060 6GB laptop with 13B HY variant. (Videos compressed by h264crf18 to fit in GitHub repos.)lllyasviel.github.io1. Introduction Next-frame 혹은 Next-frame-section 예측 작업에 있어서 가장 중요한 두 가지 문제는 forgetting과 drifting입니다. Forgetting : 모델이 이전의 내용을 기억하거나 시간적 의존성을 유지..
[review] NVILA: Efficient Frontier Visual Language Models
·
Reveiw/Paper
NVIDIA에서 발표한 논문으로, CVPR 2025에서 포스터 세션으로 소개되었습니다. 기존 VLM구조를 더 효율적으로 개량한 NVILA 모델을 소개합니다.https://nvlabs.github.io/VILA/ NVILA: Efficient Frontiers of Visual Language ModelsNVILA's core design concept In this paper, we introduce NVILA, a family of open VLMs designed to optimize both efficiency and accuracy. Building on VILA, we improve its model architecture by first scaling up the spatial and temp..
[review] Yo'Chameleon:Personalized Vision and Language Generation
·
Reveiw/Paper
CVPR 2025에서 포스터 세션으로 발표된 논문입니다. 개인화된 VLM인 Yo's Chameleon을 소개합니다.https://thaoshibe.github.io/YoChameleon/ 🦎 Yo'Chameleon: Personalized Vision and Language GenerationYo'Chameleon: Personalized Vision and Language Generation!thaoshibe.github.io1. Introduction 오늘날 Large Multimodal Models(LMM)은 여러 분야로 연구되어 다양한 애플리케이션에 적용되었습니다. 특히 시각적 정보와 텍스트 정보를 동시에 처리하는 기능은 GPT-4o 등을 통해 많이 선보여졌으며, 사용자 상호작용에 많은 영향을 ..
[review] InteractVLM: 3D Interaction Reasoning from 2D Foundational Models
·
Reveiw/Paper
CVPR 2025에서 포스터 세션으로 발표된 논문입니다. 2D 기반 VLM 모델을 3D 동작 추론에 사용한 InteractVLM에 대해 소개합니다.https://interactvlm.is.tue.mpg.de/ InteractVLM: 3D Interaction Reasoning from 2D Foundational ModelsWe introduce InteractVLM, a novel method to estimate 3D contact points on human bodies and objects from single in-the-wild images, enabling accurate human-object joint reconstruction in 3D. This is challenging due to..
[review] Adding Conditional Control to Text-to-Image Diffusion Models
·
Reveiw/Paper
ICCV 2023에서 발표된 논문으로, text-to-image 모델인 ControlNet을 소개하고 있습니다. https://github.com/lllyasviel/ControlNet GitHub - lllyasviel/ControlNet: Let us control diffusion models!Let us control diffusion models! Contribute to lllyasviel/ControlNet development by creating an account on GitHub.github.com1. Introduction Text-to-image 모델의 발전으로 텍스트 프롬프트를 이용해 이미지를 생성하는 것이 가능해졌습니다. 하지만 텍스트만을 사용하여 레이아웃, 자세, 모양 등을 ..
[review] Attention Is All You Need
·
Reveiw/Paper
고전입니다. NeurIPS 2017에서 발표된 NLP 논문으로, Transformer로 잘 알려진 Attention Is All You Need입니다. https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new..