엔디비아는 어떤 회사인가.
엔디비아는 반도체 기업이다. GPU를 발명하고 AI, HPC, 게이밍, 크리에이티브 디자인, 자율주행 자동차, 로보틱스의 발전을 주도한다고 공식 홈페이지에 써있다. 특히 생성 AI에서 두각을 나타내고 있다. 텍스트를 요약하고, 이미지를 구성하고, 코드를 작성하는 등의 작업을 수행하고 있다.
퍼퓨전, 어떤 기술인가
오늘 말하고자 하는 주제는 초소형 이미지 생성 AI ‘퍼퓨전’이다. 엔디비아가 초소형 이미지 생성 AI를 개발했다. 엔비디아가 새로운 이미지 생성 인공지능(AI) 도구인 ‘퍼퓨전(Perfusion)’을 공개한 것이다.
퍼퓨전은 불과 100KB 크기의 모델과 4분의 훈련 시간으로 원하는 이미지를 생성하는 것을 특징으로 한다.
특장점은 시간과 효율성이 뛰어나다는 것이다. 퍼퓨전은 작은 크기의 모델과 짧은 훈련 시간에도 기존의 스테이블 디퓨전이나 미드저니와 같은 선도적인 AI 이미지 생성기의 성능을 능가한다.
주요 기술은 무엇인가 : 키 잠금 기술
'키 잠금(Key-Locking)'은 가장 핵심적인 부분이다. 과적합(overfitting)은 머신러닝에서 학습 데이터를 지나치게 잘 학습하는 상황을 나타낸다. 이런 과적합 현상을 방지할 수 있다.
과적합은 학습 데이터에 지나치게 맞춰져 실제 데이터에 대한 오차가 증가하는 현상을 뜻한다. 예를 들어, 노란색 고양이를 보면서 고양이의 특성을 학습한 사람이 검은색이나 흰색 고양이를 보면 그것을 고양이로 인식하지 못하는 상황을 예로 들 수 있다. 퍼퓨전은 과적합 현상을 방지함으로서 따라서 오류가 줄어든다.
'키 잠금'은 고양이를 일반적인 고양이 이미지 개념에 연결함으로써, 모델은 다양한 포즈, 외모 및 주변 환경에서 기존 고양이를 상황에 구애받지 않고 묘사할 수 있게 된다. (기존에는 이미지 변환을 하다 과적합 때문에 변환 시, 잘 나온 주요 이미지 마저 마음대로 바꾸거나, 망쳐버린다.)
뜨개질을 하는 고양이를 그려달라, 부탁했을 때 ‘고양이 속성’을 그대로 유지시킨 채(잠금) 다른 부분적인 요소를 유연하게 변환 가능하다. 요약하면, '키 잠금'을 통해 AI는 사용자 지정 개념을 변환하면서도 핵심적인 이미지 정체성을 유지할 수 있다.
엔디비아 홈페이지
(*하기 홈페이지에서 엔디비아가 공개한 기술적 내용을 번역한 것입니다.)
출처: https://research.nvidia.com/labs/par/Perfusion/
(1) 퍼퓨전 관련 요약
텍스트-이미지 모델(T2I)은 자연어를 통해 창의적인 과정을 이끌어내는 데 새로운 수준의 유연성을 제공한다. 그러나 사용자가 제공한 시각적 개념과 조화를 이루도록 이러한 모델을 개인화하는 것은 여전히 어려운 문제이다.
TEXT TO IMAGE는 개인화 작업은 높은 시각적 충실도를 유지해야 한다. 또한, 창의적인 제어를 허용하고 하나의 이미지에 여러 개인별 개념을 결합하며 작은모델 을 필요로 한다. 따라서, 여러 가지 어려운 도전 과제를 포함하고 있다.
이러한 도전 과제들을 해결하기 위해 우리는 Perfusion이라는 TEXT TO IMAGE 개인화 방법을 제시한다. 이 방법은 기반 TEXT TO IMAGE 모델에 동적 랭크-1 업데이트를 적용하여 이러한 도전 과제들을 다루고 있다. Perfusion은 새로운 개념의 교차이다. 어텐션 키를 해당 개념의 상위 범주에 "잠그는" 새로운 메커니즘을 도입함으로써 과적합을 피하고 있다. 게다가, 우리는 학습된 개념의 영향을 추론 시간에 조절하고 여러 개념을 결합할 수 있는 게이트형 랭크-1 접근법을 개발했다.
이를 통해 시각적 충실도와 텍스트 정렬을 런타임에서 효율적으로 균형을 유지할 수 있으며, 현재의 최첨단 기술보다 다섯 단계나 작은 100KB 훈련된 모델로 가능하다. 게다가 추가적인 훈련 없이 Pareto front를 횡단하는 데 다양한 운영 지점을 포괄할 수 있다. 마지막으로, 우리는 Perfusion이 강력한 기준 모델을 양적 및 질적 측면에서 능가한다는 것을 보여준다. 중요한 것은 키 잠금이 기존 접근법과 비교하여 새로운 결과를 도출하며, 일회성 상황에서도 개인별 객체 상호작용을 전례 없이 표현할 수 있다.
(2) 아키텍처 개요
(A): 프롬프트가 인코딩 시퀀스로 변환되며, 각 인코딩은 확산 U-Net 노이즈 제거기의 교차 어텐션 모듈 (보라색 블록) 집합에 입력된다. 확대된 보라색 모듈은 텍스트 인코딩에 따라 Key 및 Value 경로가 어떻게 조건화되는지 보여준다. Key는 어텐션 맵을 구동하고, 그런 다음 Value 경로를 변조한다. (게이트형 랭크-1 편집)
(B): 위: K 경로가 잠겨 있어 𝑒_Hugsy의 어떤 인코딩이 𝑊𝑘에 도달하면 𝐾_teddy의 키로 매핑된다. 아래: 𝑊𝑣에 도달하는 𝑒_Hugsy의 어떤 인코딩이 학습된 𝑉_Hugsy로 매핑된다. 이 업데이트의 게이트 기능은 필요한 인코딩에만 적용되어 선택적으로 적용되며 출력 이미지에서 표현된 것처럼 학습된 개념의 강도를 조절하는 수단을 제공한다.
현재 기술(방법)과 비교
퍼퓨전은 더 생동감 있는 결과를 가능하게 하며, 더 나은 프롬프트 일치와 원본 이미지의 배경 특성에 대한 민감도가 적다. 각 개념에 대해, 우리의 훈련 세트에서의 예시와 생성된 이미지, 그들의 조건화된 텍스트 및 Custom-Diffusion, Dreambooth, Textual-Inversion 기준과의 비교를 보여준다.
조합
우리의 방법은 여러 학습된 개념을 텍스트 프롬프트를 사용하여 단일 생성된 이미지로 결합할 수 있다. 개념은 개별적으로 학습되며 최종 이미지를 생성하는 런타임 프로세스 중에만 병합된다. 이로써 개념 상호작용의 시각적으로 매력적인 디스플레이가 가능해지며, 이를 Custom-Diffusion과 비교한다. 테디* 프롬프트를 제외한 모든 프롬프트는 Custom-Diffusion 논문에서 가져온 것이며, 해당 논문에서 제공된 이미지를 사용한다.
'각종 AI 소식들' 카테고리의 다른 글
챗 GPT는 왜 한국어가 어색할까? : 한국어 LLM (Large Language Model, LLM) 발전 과제 (0) | 2023.08.21 |
---|---|
메타, 이미지 생성 AI ‘카멜레온’ 출시 예정 (0) | 2023.08.12 |
AI 튜링테스트? NO! 투자 테스트 (0) | 2023.07.31 |
튜링테스트 정의 · 개념 · 문제점 · 해결방안 (0) | 2023.07.30 |
월드코인이란, 정의/문제/개인적견해 (0) | 2023.07.26 |