Tin Tức

NVIDIA’s eDiffi: Sáng tạo hình ảnh bằng từ ngữ và hơn thế nữa

You are interested in NVIDIA’s eDiffi: Sáng tạo hình ảnh bằng từ ngữ và hơn thế nữa right? So let's go together natuts.com look forward to seeing this article right here!

Hầu như ai cũng biết làm các bức tranh chính xác với mô hình hình ảnh sinh phân tán tiềm ẩn như Stable Diffusion khá khó khăn. Những khả năng sáng tạo và giải thích giống nhau đó cho phép hệ thống tạo ra chi tiết phi thường và triệu hồi những hình ảnh phi thường từ những đoạn văn đơn giản tương đối cũng khó tắt đi khi bạn muốn kiểm soát hình ảnh một cách chính xác như trong Photoshop.

Hiện nay, NVIDIA Research đã đưa ra hướng tiếp cận mới, có tên gọi là eDiffi (ensemble diffusion for images), sử dụng sự pha trộn của nhiều phương pháp nhúng và giải thích khác nhau (chứ không phải cùng một phương pháp suốt quá trình) để cho phép kiểm soát nội dung tạo ra một cách tốt hơn. Trong ví dụ dưới đây, chúng ta thấy người dùng vẽ các yếu tố mà mỗi màu đại diện cho một từ duy nhất từ prompt văn bản:

Image

Thực tế đây chính là việc “vẽ bằng các mặt nạ”, và đảo ngược mô hình inpainting trong Stable Diffusion, mô hình dựa trên việc sửa chữa hoặc mở rộng hình ảnh không hài lòng, hoặc mở rộng hình ảnh mà có thể đã có kích thước mong muốn từ đầu.

Ở đây, thay vào đó, các viền của bức vẽ đại diện cho đường biên xấp xỉ được phép của một yếu tố duy nhất từ một khái niệm duy nhất, cho phép người dùng đặt kích thước của bức tranh cuối cùng từ đầu, và sau đó thêm các yếu tố một cách rõ ràng.

Các phương pháp đa dạng được áp dụng trong eDiffi cũng đồng nghĩa với việc hệ thống làm tốt hơn công việc bao gồm mọi yếu tố từ các prompt dài và chi tiết, trong khi Stable Diffusion và DALL-E 2 của OpenAI thường ưu tiên một số phần của prompt, tuỳ thuộc vào việc các từ mục tiêu xuất hiện sớm hay muộn trong prompt, hoặc các yếu tố khác, chẳng hạn như khó khăn tiềm năng trong việc phân tách các yếu tố khác nhau cần thiết cho một thành phần tổng thể nhưng đầy đủ (theo respecto đến prompt văn bản).

Ngoài ra, việc sử dụng bộ mã hóa văn bản T5 riêng biệt cũng có nghĩa là eDiffi có khả năng tạo ra văn bản tiếng Anh có thể hiểu được, cả theo cách trừu tượng được yêu cầu từ prompt (ví dụ: hình ảnh chứa một số văn bản của [x]) hoặc được yêu cầu một cách rõ ràng (ví dụ: áo thun viết ‘Nvidia Rocks’).

Cùng với những cải tiến khác, một điểm lợi khác của khung công việc mới là khả năng cung cấp một hình ảnh duy nhất như một style prompt, thay vì cần phải huấn luyện một mô hình DreamBooth hoặc một phần nhúng văn bản trên nhiều ví dụ thuộc một thể loại hoặc phong cách.

Bài báo mới có tiêu đề “eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers”.

Mô-đun T5 Text Encoder

Việc sử dụng Google’s Text-to-Text Transfer Transformer (T5) là yếu tố quan trọng trong kết quả cải tiến đáng kể được thể hiện trong eDiffi. Trung bình, pipeline phân tán tiềm ẩn tập trung vào mối liên hệ giữa hình ảnh đã được đào tạo và các chú thích đi kèm khi chúng được lấy từ internet (hoặc sau đó được điều chỉnh thủ công, mặc dù điều này tốn kém và do đó là một biện pháp hiếm).

Bằng cách diễn đạt lại văn bản nguồn và chạy mô-đun T5, chúng ta có thể đạt được các mối quan hệ và biểu diễn chính xác hơn so với những gì đã được huấn luyện ban đầu vào mô hình, tương tự như việc gắn nhãn thủ công sau khi hoàn thành, với độ chi tiết và ứng dụng cao hơn với các yêu cầu từ prompt văn bản đã yêu cầu.

Các tác giả giải thích:

“Trong hầu hết các công trình hiện có về các mô hình phân tán tiềm ẩn, mô hình loại bỏ nhiễu được chia sẻ cho tất cả các mức nhiễu, và sự động thời thể hiện thời gian được biểu diễn bằng một thời gian đơn giản được nhúng được đưa vào mô hình loại bỏ nhiễu thông qua mạng MLP. Chúng tôi cho rằng động lực thời gian phức tạp của phân tán tiềm ẩn loại bỏ nhiễu có thể không được học từ dữ liệu một cách hiệu quả bằng cách sử dụng một mô hình chia sẻ với khả năng giới hạn.

“Thay vào đó, chúng tôi đề xuất mở rộng khả năng của mô hình loại bỏ nhiễu bằng cách giới thiệu một bộ loại nhiễu chuyên gia; mỗi loại nhiễu chuyên gia là một mô hình loại nhiễu chuyên biệt cho một phạm vi nhiễu cụ thể. Điều này cho phép chúng tôi tăng khả năng của mô hình mà không làm chậm quá trình tổng hợp vì độ phức tạp tính toán của việc đánh giá [yếu tố đã được xử lý] ở mỗi mức nhiễu vẫn giữ nguyên.

Các mô-đun mã hóa CLIP hiện có được bao gồm trong DALL-E 2 và Stable Diffusion cũng có khả năng tìm kiếm các diễn giải hình ảnh thay thế cho văn bản liên quan đến đầu vào của người dùng. Tuy nhiên, chúng được huấn luyện trên thông tin tương tự như mô hình gốc và không được sử dụng như một lớp diễn giải riêng biệt như T5 trong eDiffi.

Các tác giả khẳng định rằng eDiffi là lần đầu tiên mà cả T5 và CLIP encoder được tích hợp vào một pipeline duy nhất:

“Vì hai bộ mã hóa này được đào tạo với các mục tiêu khác nhau, nhúng của chúng ưu tiên các hình ảnh khác nhau với cùng một văn bản đầu vào. Trong khi nhúng văn bản CLIP giúp xác định diện mạo tổng thể của các hình ảnh đã tạo ra, kết quả thường thiếu các chi tiết tinh vi trong văn bản.

“Ngược lại, hình ảnh tạo ra với các nhúng văn bản T5 duy nhất phản ánh tốt hơn các đối tượng cụ thể được mô tả trong văn bản, nhưng diện mạo tổng thể của chúng chưa chính xác. Sử dụng cả hai cùng nhau tạo ra kết quả tốt nhất trong mô hình của chúng tôi.”

Gián đoạn và Bổ sung quá trình phân tán

Bài báo ghi nhận rằng một mô hình phân tán tiềm ẩn thông thường sẽ bắt đầu hành trình từ nhiễu thuần khiết đến hình ảnh bằng cách chỉ phụ thuộc vào văn bản ở các giai đoạn đầu của quá trình muốn phát sinh.

Khi nhiễu biến thành một bố cục xấp xỉ đại diện cho mô tả trong prompt văn bản, mặt gương dẫn dắt của quá trình này về cơ bản biến mất, và phần còn lại của quá trình chuyển sang việc bổ sung các đặc trưng hình ảnh.

Điều này có nghĩa là bất kỳ yếu tố nào không được giải quyết ở giai đoạn ban đầu của quy trình dựa trên văn bản sẽ khó để tiêm vào hình ảnh sau này, vì hai quy trình (từ văn bản đến bố cục và từ bố cục đến hình ảnh) không có quá nhiều sự chồng chéo, và bố cục cơ bản đã được mắc kẹt khi nó đến quá trình bổ sung hình ảnh.

Tiềm năng chuyên nghiệp

Các ví dụ tại trang dự án và video YouTube tập trung vào việc tạo ra hình ảnh dễ thương phổ biến trên PR. Như thường lệ, NVIDIA Research đang giảm thiểu khả năng sử dụng sáng tạo mới nhất của mình để cải thiện quy trình làm việc với hình ảnh thực tế hoặc công việc VFX, cũng như khả năng cải thiện hình ảnh và video deepfake.

Trong các ví dụ, người dùng mới bắt đầu hay không chuyên vẽ những đường nét tạm thời cho mục đích cụ thể, trong khi trong quy trình làm việc VFX hệ thống này có thể được sử dụng để giải thích nhiều khung hình video sử dụng văn bản thành hình ảnh, trong đó đường viền rất chính xác và dựa trên ví dụ các hình ảnh trong đó nền đã được loại bỏ qua màn hình xanh hoặc phương pháp thuật toán.

Bằng cách sử dụng một nhân vật DreamBooth được huấn luyện và một luồng công việc từ hình ảnh đến hình ảnh với eDiffi, có thể khả thi để giải quyết một trong những điểm yếu của bất kỳ mô hình phân tán tiềm ẩn nào: sự ổn định thời gian. Trong trường hợp như vậy, cả biên của hình ảnh buộc vào và nội dung của hình ảnh sẽ được “tiền định” trên bề mặt vẽ của người dùng, với tính liên tục thời gian của nội dung được tạo ra (ví dụ: biến một người tập võ Tai Chi thực tế thành một người máy) được cung cấp bởi việc sử dụng mô hình DreamBooth bị khóa đã “gạt nhớ” dữ liệu huấn luyện của mình – không tốt cho khả năng giải thích, tuyệt vời cho tính nhất quán, tính chính xác và tính liên tục.

Phương pháp, Dữ liệu và Kiểm tra

Bài báo nêu rõ rằng mô hình eDiffi được huấn luyện trên “một bộ sưu tập của các bộ dữ liệu công cộng và độc quyền”, được lọc nghiêm ngặt bằng một mô hình CLIP được huấn luyện sẵn, nhằm loại bỏ các hình ảnh có khả năng làm giảm điểm mỹ quan chung của kết quả. Bộ ảnh cuối cùng được lọc bao gồm “khoảng một tỷ” cặp văn bản-hình ảnh. Kích thước của các hình ảnh được đào tạo được mô tả là “có chiều dài nhỏ nhất lớn hơn 64 pixel”.

Một số mô hình đã được huấn luyện cho quá trình này, cả mô hình cơ bản và siêu phân giải được huấn luyện trên bộ tối ưu hóa AdamW với tỷ lệ học tập là 0.0001, trọng số giảm giá là 0.01, và một kích thước batch lớn đáng kinh ngạc là 2048.

Mô hình cơ bản đã được huấn luyện trên 256 GPU NVIDIA A100, và hai mô hình siêu phân giải trên 128 GPU NVIDIA A100 cho mỗi mô hình.

Hệ thống dựa trên thư viện Imaginaire PyTorch của NVIDIA. Các bộ dữ liệu COCO và Visual Genome đã được sử dụng cho đánh giá, nhưng không được bao gồm trong các mô hình cuối cùng, với MS-COCO là biến thể cụ thể được sử dụng cho kiểm tra. Các hệ thống cạnh tranh đã được kiểm tra bao gồm GLIDE, Make-A-Scene, DALL-E 2, Stable Diffusion, và hai hệ thống tổng hợp hình ảnh của Google, Imagen và Parti.

Theo Đo lường FID-30K không có cơ sở, 30.000 chú thích được trích xuất ngẫu nhiên từ tập dữ liệu COCO kiểm tra (tức không phải là các hình ảnh hoặc văn bản được sử dụng trong quá trình huấn luyện), được sử dụng làm prompt văn bản để tổng hợp hình ảnh.

Sau đó, Khoảng cách Frechet Inception (FID) giữa hình ảnh được tạo ra và hình ảnh thực tế được tính toán, cùng với việc ghi lại điểm CLIP cho các hình ảnh được tạo ra.

Trong kết quả, eDiffi đã đạt được điểm thấp nhất (tốt nhất) trên FID-30K không có so sánh với các hệ thống có số lượng tham số cao hơn rất nhiều, chẳng hạn như 20 tỷ tham số của Parti, so với 9,1 tỷ tham số trong mô hình eDiffi có cấu hình cao nhất được huấn luyện cho các bài kiểm tra.

Kết luận

eDiffi của NVIDIA đại diện cho một lựa chọn đáng chào đón thay vì chỉ đơn thuần là thêm nhiều và nhiều dữ liệu và phức tạp hóa vào các hệ thống hiện có, thay vào đó sử dụng một phương pháp thông minh và lớp hình ảnh cho một số khó khăn gai góc liên quan đến việc “rối rắm” và không thể chỉnh sửa trong hệ thống sinh hình ảnh phân tán tiềm ẩn.

Ngay bây giờ, đã có cuộc thảo luận tại các subreddit và Discord của Stable Diffusion về việc trực tiếp tích hợp bất kỳ mã nào có thể được cung cấp cho eDiffi, hoặc sắp xếp lại nguyên tắc đằng sau nó trong một hiện thực riêng biệt. Tuy nhiên, pipeline mới này khác biệt đến mức đủ để tạo thành một số phiên bản riêng biệt, bỏ bớt một số tính năng tương thích ngược, nhưng mang lại khả năng kiểm soát cao hơn đáng kể đối với hình ảnh tổng hợp cuối cùng, mà không gây thiệt hại cho khả năng sáng tạo hấp dẫn của phân tán tiềm ẩn.

Conclusion: So above is the NVIDIA’s eDiffi: Sáng tạo hình ảnh bằng từ ngữ và hơn thế nữa article. Hopefully with this article you can help you in life, always follow and read our good articles on the website: natuts.com

Related Articles

Back to top button