Connect with us

Trình tạo video AI

Biến Ảnh Tĩnh Thành Video Động Bằng Hunyuan IP2V

Published

on

Trong thế giới sáng tạo nội dung số đang phát triển không ngừng, video ngày càng khẳng định vị thế là một công cụ mạnh mẽ để thu hút sự chú ý và truyền tải thông điệp. Tuy nhiên, việc sản xuất video chất lượng cao thường đòi hỏi nhiều thời gian, công sức và kỹ năng chuyên môn. Liệu có giải pháp nào giúp chúng ta tạo ra những video ấn tượng một cách nhanh chóng và dễ dàng hơn không? Câu trả lời nằm ở Hunyuan Video, một mô hình video tiên tiến, kết hợp cùng quy trình Image-Prompt to Video (IP2V) đầy sáng tạo.

Bài viết này sẽ đưa bạn khám phá sức mạnh của Hunyuan IP2V, một phương pháp độc đáo để biến những hình ảnh tĩnh thành những thước phim sống động, mở ra những cơ hội mới cho việc sáng tạo nội dung đa dạng và hấp dẫn.

Giải Mã Hunyuan IP2V: Biến Ý Tưởng Thành Hiện Thực

Hunyuan Video là một mô hình video nội địa, có khả năng chuyển đổi mô tả văn bản thành video một cách ấn tượng. Tuy nhiên, điều gì sẽ xảy ra nếu bạn muốn biến một hình ảnh thành video? Mặc dù Hunyuan chưa phát hành mô hình image-to-video (img2vid) trực tiếp, nhưng chúng ta có thể tận dụng quy trình Image-Prompt to Video (IP2V) để đạt được hiệu ứng tương tự.

Quy trình IP2V cho phép bạn kết hợp một hình ảnh và một đoạn mô tả văn bản để tạo ra một video hoàn chỉnh. Ví dụ, bạn có thể cung cấp một hình nền và thêm một người vào cảnh bằng một đoạn mô tả, sau đó tạo ra một video như ý muốn.

Sự Khác Biệt Giữa img2vid và IP2V

Điều quan trọng cần phân biệt là sự khác biệt giữa img2vid và IP2V. Quy trình img2vid sử dụng hình ảnh đầu vào làm khung hình đầu tiên của video. Trong khi đó, quy trình IP2V sử dụng hình ảnh như một phần của lời nhắc (prompt). Nó khai thác ý tưởng từ hình ảnh, nhưng không sử dụng nó làm khung hình đầu tiên.

Ứng Dụng Thực Tế: Khơi Dậy Nguồn Cảm Hứng Sáng Tạo
Ứng Dụng Thực Tế: Khơi Dậy Nguồn Cảm Hứng Sáng Tạo

Quy trình Hunyuan IP2V mở ra vô vàn khả năng sáng tạo trong nhiều lĩnh vực khác nhau.

Tạo Bối Cảnh Độc Đáo Từ Hình Ảnh

Bạn có thể dễ dàng sử dụng một hình ảnh có sẵn làm bối cảnh cho video của mình. Ví dụ, hãy sử dụng hình ảnh một đường hầm và thêm một người vào video bằng đoạn mô tả sau:

“Một người phụ nữ xinh đẹp thời trang với mái tóc vàng dài, váy ngắn đen, áo trắng, giày cao gót, đang đi về phía máy quay, , máy quay phóng to.”

Lưu ý rằng bạn cần chèn mã thông báo (token) vào lời nhắc để chỉ định vị trí bạn muốn chèn hình ảnh.

Hunyuan IP2V xử lý tốt việc tạo ra một người đang đi trong đường hầm, mặc dù bạn không đề cập đến đường hầm trong lời nhắc. Quy trình này sử dụng mô hình ngôn ngữ thị giác lớn (visual LLM) để phân tích và đưa hình nền vào video.

Một điểm quan trọng cần lưu ý là đường hầm trong hình ảnh và video có vẻ giống nhau nhưng không hoàn toàn giống hệt. Điều này là do visual LLM đọc hình ảnh và chuyển đổi nó thành mã thông báo hình ảnh (image tokens). Chúng mô tả cảnh và do đó, ảnh hưởng đến video. Tuy nhiên, khác với IP-adapter, nó không sao chép hình ảnh vào video.

Biến Hình Ảnh Tĩnh Thành Video Động

Hunyuan Video là một công cụ tuyệt vời cho những người sáng tạo nội dung. Chất lượng video vượt trội của nó có tiềm năng lớn trong việc tạo ra những đoạn phim B-roll (những cảnh quay bổ sung cho video chính) ấn tượng.

Mặc dù có sẵn các đoạn phim B-roll miễn phí bản quyền, nhưng số lượng và sự đa dạng của chúng còn hạn chế so với hình ảnh miễn phí bản quyền. Vậy tại sao bạn không sử dụng quy trình Hunyuan IP2V để biến một hình ảnh miễn phí bản quyền thành một đoạn phim B-roll độc đáo?

Giả sử bạn đang làm một video về kế hoạch tài chính. Hình ảnh một người phụ nữ đang làm việc có thể là một lựa chọn tuyệt vời cho đoạn B-roll.

Sử dụng hình ảnh này làm đầu vào và chỉ sử dụng mã thông báo hình ảnh làm lời nhắc văn bản:

Bạn sẽ có ngay một đoạn B-roll ấn tượng!

Hướng Dẫn Từng Bước: Làm Chủ Hunyuan IP2V với ComfyUI
Hướng Dẫn Từng Bước: Làm Chủ Hunyuan IP2V với ComfyUI

Để bắt đầu hành trình sáng tạo video với Hunyuan IP2V, bạn cần làm quen với ComfyUI, một giao diện người dùng đồ họa mạnh mẽ cho Stable Diffusion.

Phần Mềm Cần Thiết

Chúng ta sẽ sử dụng ComfyUI, một giải pháp thay thế cho AUTOMATIC1111. Bạn có thể sử dụng nó trên Windows, Mac hoặc Google Colab.

Nếu bạn là người mới bắt đầu sử dụng ComfyUI, hãy tham khảo hướng dẫn dành cho người mới bắt đầu.

Các Bước Thực Hiện

Các hướng dẫn sau đây dành cho ComfyUI trên máy tính cục bộ của bạn (Windows hoặc Linux).

Nếu bạn sử dụng ComfyUI Colab notebook, bạn không cần tải xuống các mô hình (bước 1 và 2). Chọn các nút tùy chỉnh HunyuanVideoWrapper và VideoHelperSuite khi khởi động notebook. Sử dụng loại thời gian chạy L4 (quy trình này cần 20GB VRAM). Bắt đầu từ bước 3.

Bước 0: Cập Nhật ComfyUI

Trước khi tải quy trình làm việc, hãy đảm bảo ComfyUI của bạn được cập nhật. Cách dễ nhất để thực hiện việc này là sử dụng ComfyUI Manager.

Nhấp vào nút Manager trên thanh công cụ trên cùng.

Chọn Update ComfyUI.

Khởi động lại ComfyUI.

Bước 1: Tải Xuống Mô Hình Video

Tải xuống mô hình hunyuanvideoFastVideo720fp8e4m3fn.safetensors và đặt nó trong ComfyUI > models > diffusionmodels.

Bước 2: Tải Xuống VAE

Tải xuống hunyuanvideovae_bf16.safetensors.

Tệp VAE này khác với tệp do ComfyUI phát hành và được sử dụng trong hướng dẫn text-to-video. Đổi tên nó thành hunyuanvideovae_bf16-kj.safetensors.

Đặt nó trong ComfyUI > models > vae.

Bước 3: Tải Quy Trình Làm Việc

Tải xuống tệp JSON quy trình làm việc Hunyuan video.

Kéo và thả nó vào ComfyUI.

Bước 4: Cài Đặt Các Nút Bị Thiếu

Nếu bạn thấy các khối màu đỏ, bạn không có nút tùy chỉnh mà quy trình này cần.

Nhấp vào Manager > Install missing custom nodes và cài đặt các nút bị thiếu.

Khởi động lại ComfyUI.

Bước 5: Chạy Quy Trình Làm Việc

Tải hình ảnh vào nút Load Image.

Nhấp vào nút Queue để tạo video.

Lần đầu tiên chạy quy trình làm việc sẽ mất thời gian vì nó sẽ tải xuống một số tệp mô hình.

Mẹo: Bạn cũng có thể tăng tốc độ tạo video bằng TeaCache.

Tinh Chỉnh Lời Nhắc Hình Ảnh: Kiểm Soát Sức Mạnh Biến Hình
Tinh Chỉnh Lời Nhắc Hình Ảnh: Kiểm Soát Sức Mạnh Biến Hình

Giảm Mẫu Mã Thông Báo Hình Ảnh

Mức độ ảnh hưởng của hình ảnh đến video được kiểm soát bởi imagetokenselection_expr. Giá trị ::4 giảm mẫu mã thông báo hình ảnh để chỉ sử dụng một trong bốn mã thông báo. Sử dụng giá trị cao hơn để giảm ảnh hưởng của hình ảnh, ví dụ: ::8 hoặc ::16.

Tăng hệ số giảm mẫu lên ::16 sẽ thay đổi nền thành một tòa nhà đổ nát ngoài trời với hình vẽ graffiti. Đường hầm trở thành một hành lang tương tự. Người phụ nữ được kiểm soát bởi lời nhắc, vì vậy cô ấy vẫn mặc trang phục tương tự.

Tăng khả năng giảm mẫu lên ::256 sẽ loại bỏ đường hầm. Cô ấy đang đi bộ trong một không gian mở trong một tòa nhà đổ nát, nhưng hình vẽ graffiti vẫn ở khắp mọi nơi.

Các Tùy Chọn Khác Để Truyền Mã Thông Báo Hình Ảnh

Mô hình llava-llama-3 có 576 mã thông báo hình ảnh. Thay vì giảm mẫu, bạn có thể thử nghiệm với việc chỉ truyền một phần mã thông báo.

  • :128 – 128 mã thông báo đầu tiên.
  • -128: – 128 mã thông báo cuối cùng.
  • :128, -128: – 128 mã thông báo đầu tiên và 128 mã thông báo cuối cùng.
Kết Hợp Hunyuan IP2V Để Tạo Video Đột Phá Trong Kỷ Nguyên AI
Kết Hợp Hunyuan IP2V Để Tạo Video Đột Phá Trong Kỷ Nguyên AI

Hunyuan IP2V không chỉ là một công cụ, mà còn là chìa khóa mở ra những tiềm năng sáng tạo vô tận trong kỷ nguyên AI, giúp bạn tạo ra những video độc đáo và thu hút, khẳng định dấu ấn cá nhân trong thế giới nội dung số đầy cạnh tranh.

Continue Reading
Click to comment

Leave a Reply

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

phần mềm chỉnh sửa video

Tạo Video Nghệ Thuật: Hướng Dẫn Stable Diffusion và Deforum Chi Tiết Cho Người Mới

Published

on

Bạn muốn tạo ra những video animation độc đáo, mang đậm dấu ấn cá nhân mà không cần kỹ năng dựng phim chuyên nghiệp? Stable Diffusion kết hợp cùng Deforum sẽ là công cụ mạnh mẽ giúp bạn biến ý tưởng thành hiện thực. Bài viết này sẽ hướng dẫn bạn từng bước, từ cài đặt đến tạo ra video đầu tiên, ngay cả khi bạn là người mới bắt đầu.

Tại sao cần phải đọc hướng dẫn Stable Diffusion và Deforum ?

Deforum là một tiện ích mã nguồn mở miễn phí, cho phép tạo ra các video animation ấn tượng bằng cách sử dụng sức mạnh của Stable Diffusion. Điểm đặc biệt của Deforum nằm ở khả năng tự động tạo ra các khung hình liên tiếp dựa trên những biến đổi nhỏ từ khung hình trước, tạo cảm giác chuyển động mượt mà và liên tục. Bạn chỉ cần cung cấp các câu lệnh (prompts) và thiết lập cách camera di chuyển, Deforum sẽ lo phần còn lại. Nó sử dụng chức năng image to image của Stable Diffusion để tạo ra chuỗi hình ảnh và ghép chúng lại thành video.

Cài đặt Deforum
Cài đặt Deforum “trong một nốt nhạc”

Để bắt đầu hành trình sáng tạo video với Deforum, bạn cần cài đặt tiện ích này vào AUTOMATIC1111 Stable Diffusion WebUI. Bạn có thể sử dụng giao diện này trên Windows, Mac hoặc Google Colab.

Sử dụng Deforum trên Google Colab

Nếu bạn sử dụng Colab notebook trong Hướng dẫn Bắt đầu Nhanh, hãy đánh dấu chọn Deforum extension trước khi khởi động AUTOMATIC1111.

Sau khi khởi động, bạn sẽ thấy tab “Deforum” trong giao diện AUTOMATIC1111.

Cài đặt Deforum trên Windows hoặc Mac

Nếu bạn chạy AUTOMATIC1111 cục bộ trên Windows hoặc Mac, hãy làm theo các bước sau:

  1. Khởi động AUTOMATIC1111 WebUI như bình thường.
  2. Truy cập trang “Extension”.
  3. Nhấp vào tab “Install from URL”.
  4. Nhập URL sau vào trường “URL for extension’s git repository”:https://github.com/deforum-art/sd-webui-deforum
  5. Nhấp vào nút “Install”.
  6. Đợi thông báo xác nhận hoàn tất cài đặt.
  7. Khởi động lại AUTOMATIC1111. Bạn sẽ thấy tab Deforum sau khi khởi động lại giao diện AUTOMATIC1111.
Tạo video thử nghiệm: Bước khởi đầu thú vị
Tạo video thử nghiệm: Bước khởi đầu thú vị

Bước này không bắt buộc, nhưng nó sẽ giúp bạn làm quen với các thiết lập cơ bản và cách Deforum hoạt động.

Bước 1: Trong giao diện AUTOMATIC1111, truy cập trang “Deforum”.

Bước 2: Chọn tab “keyframes”.

  • Bạn sẽ thấy tab “Motion” ở nửa dưới của trang. Đây là nơi bạn sẽ thiết lập các thông số camera.
  • “Max frames” là số lượng khung hình cho video của bạn. Giá trị càng cao, video càng dài.

Bạn có thể sử dụng các giá trị mặc định.

Bước 3: Chọn tab “Prompts”. Bạn sẽ thấy danh sách các prompts với một số ở phía trước mỗi prompt. Số này là khung hình mà prompt đó bắt đầu có hiệu lực.

Ví dụ: với các prompts mặc định, prompt đầu tiên sẽ được sử dụng từ đầu video. Sau đó, nó sẽ chuyển sang sử dụng prompt thứ hai ở khung hình thứ 30, prompt thứ ba ở khung hình thứ 60 và prompt thứ tư ở khung hình thứ 90.

Bạn có thể giữ nguyên các prompts này.

Bước 4: Nhấp vào “Generate” để bắt đầu tạo video.

Bước 5: Khi hoàn tất, nhấp vào nút phía trên nút “Generate” để xem video.

Bạn có thể lưu video vào bộ nhớ cục bộ bằng cách nhấp vào ba dấu chấm dọc ở góc dưới cùng bên phải. Hoặc bạn có thể tìm thấy video của mình trong thư mục đầu ra, trong thư mục img2img-images.

Làm chủ các thiết lập cơ bản để tạo video
Làm chủ các thiết lập cơ bản để tạo video “chất lừ”

Chúng ta sẽ bắt đầu với hai thiết lập quan trọng nhất:

  • Motions (2D và 3D)
  • Prompts

Điều quan trọng là phải hiểu Deforum có thể làm gì trước khi đi sâu vào các ví dụ từng bước để tạo video.

Trong phần này, bạn sẽ thấy các ví dụ về việc thay đổi một thông số trong khi giữ nguyên mọi thứ khác. Đây là những viên gạch xây dựng nên video của bạn.

Bằng cách kết hợp chúng và bật tắt chúng vào những thời điểm khác nhau, bạn có thể tạo ra các hiệu ứng hình ảnh tuyệt đẹp.

Thiết lập Motion

Thiết lập Motion là một trong những tùy chọn được sử dụng nhiều nhất trong Deforum. Bạn có thể tạo một video khá ổn chỉ bằng cách thay đổi chúng và các prompts. Vì vậy, bạn nên nắm vững cách thiết lập Motion hoạt động và những gì chúng có thể làm.

Hãy xem hai “chế độ animation” được sử dụng nhiều nhất:

  • “2D” – coi các hình ảnh là 2D và thực hiện các biến đổi khác nhau như thu phóng và xoay để tạo ra ảo ảnh chuyển động.
  • “3D” – coi các hình ảnh là một khung cảnh 3D. Bạn có thể di chuyển điểm nhìn của camera trong bất kỳ thao tác 3D nào.

Thiết lập 2D motion

2D Zoom

Sử dụng chức năng thu phóng để phóng to hoặc thu nhỏ hình ảnh. Sử dụng giá trị thu phóng lớn hơn 1 để phóng to và nhỏ hơn 1 để thu nhỏ.

Giá trị càng xa 1, tốc độ thu phóng càng nhanh.

Theo mặc định, thu phóng được tập trung ở giữa. Bạn có thể kiểm soát tiêu điểm bằng cách thiết lập “Transform Center X” và “Transform Center Y”. Chúng ta sẽ tìm hiểu chúng sau.

2D Angle

Sử dụng “2D Angle” để xoay hình ảnh. Giá trị dương xoay hình ảnh ngược chiều kim đồng hồ và giá trị âm xoay hình ảnh theo chiều kim đồng hồ.

Giá trị càng lớn, hình ảnh xoay càng nhanh.

Theo mặc định, xoay quanh tâm hình ảnh. Bạn có thể kiểm soát tâm xoay bằng cách thiết lập “Transform Center X” và “Transform Center Y”. Chúng ta sẽ tìm hiểu chúng sau.

2D Translation X

Sử dụng Translation X để di chuyển hình ảnh sang ngang. Sử dụng giá trị dương để di chuyển hình ảnh sang phải và giá trị âm để di chuyển hình ảnh sang trái.

2D Translation Y

Sử dụng Translation Y để di chuyển camera lên xuống. Sử dụng giá trị dương để di chuyển hình ảnh xuống và giá trị âm để di chuyển hình ảnh lên.

2D Transform Center

Transform Center dùng để thay đổi tiêu điểm của thu phóng và/hoặc xoay.

Giá trị mặc định là 0,5 cho cả X và Y, là tâm của hình ảnh. (X, Y) = (0, 0) là góc trên cùng bên trái và (1, 1) là góc dưới cùng bên phải.

Bạn có thể chỉ định các giá trị nhỏ hơn 0 hoặc lớn hơn 1. Chúng sẽ nằm bên ngoài hình ảnh.

2D Perspective flip

Perspective flip thực hiện các biến đổi giống 3D cho hình ảnh để tạo ra một số hiệu ứng thú vị.

Bạn sẽ cần chọn “Enable perspective flip” để bật các tùy chọn này.

Thiết lập 3D motion

3D motion là một lựa chọn thay thế cho 2D motion. Hãy nghĩ về nó như thể bạn đang cầm một chiếc camera. Bạn có thể di chuyển và xoay camera theo bất kỳ cách nào bạn muốn.

3D Translation X

Translation X di chuyển camera sang ngang. Giá trị dương di chuyển camera sang phải. Giá trị âm di chuyển camera sang trái.

3D Translation Y

Translation Y di chuyển camera lên xuống. Sử dụng giá trị dương di chuyển camera lên. Giá trị âm di chuyển camera xuống.

3D Translation Z

Translation Z trong 3D tương tự như thu phóng trong 2D motions.

3D rotation X

Rotation X xoay camera quanh trục X.

3D rotation Y

Rotation Y xoay camera quanh trục Y.

3D rotation Z

Rotation Z xoay camera quanh trục Z.

Lịch trình Motion

Các thiết lập motion được đưa vào với dạng:

frame1:(value1), frame2:(value2), frame3:(value3), ...

Mỗi mục bao gồm hai số: Số “frame” mà nó có hiệu lực và “value” của motion. Frame và value của mỗi mục phải được phân tách bằng dấu hai chấm và value phải được đặt trong ngoặc.

Bạn luôn cần một mục cho frame 0.

Bạn có thể có bao nhiêu mục tùy thích.

Điều quan trọng cần lưu ý là khi bạn có hai hoặc nhiều mục, điều đó có nghĩa là nội suy giữa hai khung hình.

Ví dụ: công thức sau được sử dụng trong thu phóng có nghĩa là tăng dần giá trị thu phóng từ 1 lên 1,02 trong 100 khung hình đầu tiên và giảm giá trị thu phóng trở lại 1 trong 100 khung hình tiếp theo.

0:(1), 100:(1.02), 200:(1)

Nếu bạn muốn một giá trị thu phóng mới có hiệu lực bắt đầu từ khung hình thứ 100, bạn có thể viết như sau:

0:(1), 99:(1), 100:(1.02), 150:(1.02), 151:(1), 200:(1)

Công thức này sẽ chỉ áp dụng hiệu ứng thu phóng giữa các khung hình 100 và 150.

Mỗi thiết lập có lịch trình motion riêng.

Zoom: 0:(1)

Angle: 0:(0)

Transform Center X: 0:(0.5)

Transform Center Y: 0:(1)

Translate X: 0:(0)

Translate Y: 0:(5), 60:(0)

Mẹo: không thể chỉ viết 180:(5). Viết 0:(0), 180:(5). Mục đầu tiên phải dành cho khung hình thứ 0.

Hướng dẫn từng bước: Tạo video James Bond
Hướng dẫn từng bước: Tạo video James Bond “chất như nước cất”

Bước 1: Tạo hình ảnh ban đầu

Hình ảnh ban đầu là một trong số ít thứ bạn có toàn quyền kiểm soát trong video deforum. Nó được cho là quan trọng nhất vì nó đặt tông màu và màu sắc cho phần còn lại của animation.

Hãy dành thời gian để tạo ra một hình ảnh bắt đầu tốt trong tab “txt2img”.

Trong ví dụ này, tôi đã sử dụng prompt sau:

portrait of henry cavill as james bond, casino, key art, sprinting, palm trees, highly detailed, digital painting, artstation, concept art, cinematic lighting, sharp focus, illustration, by gaston bussiere alphonse mucha –neg deformed, disfigured

Và prompt phủ định này:

deformed, disfigured

Đặt seed thành ngẫu nhiên (-1).

Tôi đã sử dụng “model Protogen v2.2” để tạo ra một phong cách minh họa chân thực.

Ghi lại “giá trị seed” khi bạn thấy một hình ảnh ưng ý.

Bước 2: Tạo phân đoạn đầu tiên của video

Nhập prompt vào tab “Prompts”. Tôi quyết định sử dụng lại prompt thứ 2 trong các prompts mặc định. Các prompts là:

{ "0": "portrait of henry cavill as james bond, casino, key art, sprinting, palm trees, highly detailed, digital painting, artstation, concept art, cinematic lighting, sharp focus, illustration, by gaston bussiere alphonse mucha --neg deformed, disfigured", "50": "anthropomorphic clean cat, surrounded by fractals, epic angle and pose, symmetrical, 3d, depth of field, ruan jia and fenghua zhong"}

Prompt được chuyển sang mô tả một con mèo ở khung hình thứ 50.

Bây giờ hãy chuyển đến tab “Run”.

  • Chọn model Protogen.
  • Đặt seed thành 2020548858. Cố định seed cho phép bạn bắt đầu với cùng một hình ảnh mỗi lần để bạn có thể tiếp tục xây dựng trên cùng một video.

Vì James Bond của tôi đang nhìn sang trái trong hình ảnh ban đầu, nên việc camera di chuyển sang phải sẽ rất tuyệt. Chúng ta sẽ sử dụng “3D animation model”.

Trong tab “Keyframes”:

  • Chọn “3D” Animation mode.
  • Đặt “Max frames” thành 100. Điều này là để tạo ra đủ khung hình để xem hai prompts đầu tiên.

Trong tab “Motion” bên dưới, đặt:

  • Translation X thành 0:(2). Điều này là để di chuyển camera sang phải.
  • Translation Z thành 0:(1.75). Điều này là để thu phóng với tốc độ chậm hơn một chút.

Giữ phần còn lại 0:(0) để không làm gì cả.

Nhấn “Generate” để bắt đầu tạo video.

Camera đang di chuyển theo cách chúng ta mong đợi. James Bond đã chuyển sang một con mèo fractal một cách độc đáo.

Mọi thứ đều ổn.

Bước 3: Thêm prompt tiếp theo

Bây giờ hãy động não prompt tiếp theo trong tab txt2img.

Tôi quyết định chuyển sang một cảnh không gian sẽ rất tuyệt. Đây là prompt deforum cuối cùng:

{ "0": "portrait of henry cavill as james bond, casino, key art, sprinting, palm trees, highly detailed, digital painting, artstation, concept art, cinematic lighting, sharp focus, illustration, by gaston bussiere alphonse mucha --neg deformed, disfigured", "50": "anthropomorphic clean cat, surrounded by fractals, epic angle and pose, symmetrical, 3d, depth of field, ruan jia and fenghua zhong", "90": "giant floating space station, futuristic, star war style, highly detailed, beautiful machine aesthetic, in space, galaxies, dark deep space <lora:epiNoiseoffset_v2:1> --neg bad art, amateur"}

Đặt các thông số sau:

  • “Max frames” thành 250.
  • “Rotation 3D X” thành 0:(0), 70:(0), 71:(0.5). Điều này thêm một sự thay đổi của xoay ở khung hình 71.

Giữ nguyên các thiết lập còn lại. Dưới đây là các thiết lập motion cuối cùng.

Nhấn “Generate”.

Chúng ta sẽ có video cuối cùng.

Bạn sẽ thường dành rất nhiều thời gian để nghịch với motion và prompts để đạt được hiệu ứng chính xác mà bạn muốn.

Bạn có thể lặp lại bước này và thêm bao nhiêu prompts tùy thích.

Mẹo
Mẹo “vàng” để tạo video Deforum đỉnh cao
  • Prompts với một chủ đề lớn hoạt động tốt hơn các cảnh có nhiều đối tượng nhỏ.
  • Các chi tiết nhỏ sẽ thường xuyên thay đổi. Đây chỉ là cách image to image hoạt động. Vì vậy, các prompts có hoa văn (như fractal) hoặc các chủ đề giàu trí tưởng tượng có xu hướng hoạt động tốt hơn như là prompts thứ hai và sau đó.
  • Nếu bạn thấy các artifact trong quá trình chuyển đổi prompt, việc dịch chuyển khung hình của prompt đi một vài khung hình có thể loại bỏ artifact.
  • Tạo một ảnh gif động bằng cách sử dụng tùy chọn Đầu ra “Make GIF”.
  • Sử dụng tùy chọn “Delete Imgs” trong Output options để tự động xóa các hình ảnh trung gian và chỉ giữ lại video.
  • Thêm một soundtrack bằng cách sử dụng tùy chọn đầu ra “Add a soundtrack”.
Tài nguyên hữu ích
Tài nguyên hữu ích
  • FizzleDorf’s Animation Guide – Deforum – Một hướng dẫn toàn diện về các thông số và thiết lập.
  • Animation Video Examples Gallery – Các ví dụ video về một số thông số.
  • Official deforum site
  • Quick Guide to deforum – Chủ yếu là về deforum Colab Notebook nhưng bạn cũng sẽ tìm thấy các giải thích về các thông số.
  • Deforum Discord – Một trang tốt để yêu cầu trợ giúp và xem những gì người khác đang tạo ra.
  • Create Amazing Videos With AI (Deforum Deep-Dive) – Người tạo ra Deforum.
Tạo video animation ấn tượng và độc đáo với Deforum ngay hôm nay
Tạo video animation ấn tượng và độc đáo với Deforum ngay hôm nay

Với hướng dẫn chi tiết này, bạn đã có đủ kiến thức và công cụ để bắt đầu tạo ra những video animation độc đáo của riêng mình bằng Stable Diffusion và Deforum. Hãy thỏa sức sáng tạo và biến những ý tưởng táo bạo nhất thành hiện thực, mang đến cho khán giả những trải nghiệm hình ảnh ấn tượng và khó quên với video animation Deforum.

Continue Reading

phần mềm chỉnh sửa video

Chuyển Văn Bản Thành Video Miễn Phí với Stable Diffusion

Published

on

Bạn đã bao giờ mơ ước biến những dòng chữ khô khan thành những thước phim sống động? Giờ đây, với sự trợ giúp của trí tuệ nhân tạo (AI) và công cụ Stable Diffusion, điều đó hoàn toàn có thể thực hiện được, và quan trọng hơn, hoàn toàn miễn phí! Bài viết này sẽ đưa bạn khám phá thế giới kỳ diệu của việc chuyển đổi văn bản thành video (text-to-video), một lĩnh vực đang phát triển mạnh mẽ với những ứng dụng tiềm năng vô tận.

Giải Mã Cơn Sốt Chuyển Văn Bản Thành Video (Text-to-Video): Tại Sao Ai Cũng Muốn Thử?

Text-to-video không chỉ là một trào lưu công nghệ nhất thời, mà là một bước tiến lớn trong việc dân chủ hóa quy trình sáng tạo nội dung. Trước đây, việc tạo ra một video chất lượng đòi hỏi kỹ năng chuyên môn, phần mềm đắt tiền và thời gian đầu tư đáng kể. Nhưng giờ đây, bất kỳ ai có một ý tưởng và một vài dòng mô tả đều có thể tạo ra một video độc đáo.

Ứng dụng của text-to-video rất đa dạng:

  • Marketing và quảng cáo: Tạo ra các video quảng cáo ngắn, thu hút mà không cần đến đội ngũ sản xuất chuyên nghiệp.
  • Giáo dục và đào tạo: Biến các bài giảng, hướng dẫn thành các video minh họa sinh động, giúp người học dễ tiếp thu hơn.
  • Nghệ thuật và giải trí: Tạo ra các video nghệ thuật độc đáo, thử nghiệm với các phong cách và ý tưởng mới lạ.
  • Truyền thông và báo chí: Tạo ra các video tóm tắt tin tức, báo cáo sự kiện một cách nhanh chóng và trực quan.

Với tiềm năng to lớn như vậy, không có gì ngạc nhiên khi text-to-video đang trở thành một lĩnh vực được quan tâm đặc biệt.

Stable Diffusion: "Phù Thủy" Đằng Sau Những Đoạn Video Kỳ Diệu

Stable Diffusion là một mô hình AI mã nguồn mở, nổi tiếng với khả năng tạo ra hình ảnh chất lượng cao từ văn bản. Gần đây, Stable Diffusion đã được mở rộng để hỗ trợ tạo video, mở ra một kỷ nguyên mới cho việc sáng tạo nội dung.

Điều gì khiến Stable Diffusion trở nên đặc biệt?

  • Mã nguồn mở: Điều này có nghĩa là bất kỳ ai cũng có thể sử dụng, sửa đổi và phân phối Stable Diffusion một cách tự do.
  • Khả năng tùy biến cao: Bạn có thể tùy chỉnh Stable Diffusion để tạo ra các video với phong cách và nội dung khác nhau.
  • Cộng đồng hỗ trợ lớn: Có một cộng đồng lớn mạnh gồm các nhà phát triển và người dùng Stable Diffusion, sẵn sàng chia sẻ kiến thức và kinh nghiệm.

Với Stable Diffusion, bạn không chỉ tạo ra video, bạn còn có thể kiểm soát quá trình sáng tạo và biến những ý tưởng độc đáo nhất thành hiện thực.

Hướng Dẫn Chi Tiết: Biến Văn Bản Thành Video với Stable Diffusion (Miễn Phí!)

Hướng Dẫn Chi Tiết: Biến Văn Bản Thành Video với Stable Diffusion (Miễn Phí!)

Để bắt đầu hành trình sáng tạo video của bạn với Stable Diffusion, bạn cần chuẩn bị một số công cụ và kiến thức cơ bản.

Bước 1: Chuẩn Bị Phần Mềm và Môi Trường

Bạn sẽ cần cài đặt AUTOMATIC1111, một giao diện người dùng đồ họa (GUI) phổ biến cho Stable Diffusion. AUTOMATIC1111 hoạt động trên Windows, Mac và Google Colab. Nếu bạn là người mới bắt đầu, hãy tham khảo hướng dẫn cài đặt nhanh để có cái nhìn tổng quan về Stable Diffusion.

Bước 2: Chọn Phương Pháp Chuyển Văn Bản Thành Video

Hiện tại, có ba phương pháp chính để chuyển văn bản thành video với Stable Diffusion:

  1. AnimateDiff: Một module được huấn luyện đặc biệt để tạo ra các chuyển động mượt mà và tự nhiên trong video.
  2. ModelScope: Một mô hình text-to-video dựa trên diffusion, được phát triển bởi Alibaba.
  3. Deforum: Một công cụ mạnh mẽ để tạo ra các video hoạt hình phức tạp với nhiều tùy chọn tùy chỉnh.

Chúng ta sẽ đi sâu vào từng phương pháp này để bạn có thể lựa chọn phương pháp phù hợp nhất với nhu cầu của mình.

3.1. AnimateDiff: Thổi Hồn Vào Từng Khung Hình

AnimateDiff là một module text-to-video dành cho Stable Diffusion, được huấn luyện bằng cách cho mô hình xem các đoạn video ngắn. Nhờ đó, AnimateDiff học được cách dự đoán khung hình tiếp theo trong video nên như thế nào. AnimateDiff thêm module chuyển động vào bộ dự đoán nhiễu U-Net của mô hình Stable Diffusion để tạo video dựa trên mô tả bằng văn bản.

Cài đặt AnimateDiff

  • Google Colab: Chọn AnimateDiff trong danh sách các extension có sẵn.
  • Windows/Mac:
    1. Khởi động AUTOMATIC1111.
    2. Vào trang Extension.
    3. Chọn tab Install from URL.
    4. Nhập URL sau vào ô URL for extension’s git repository: https://github.com/continue-revolution/sd-webui-animatediff
    5. Đợi thông báo cài đặt thành công.
    6. Tải các motion model của AnimateDiff từ Hugging Face và lưu vào thư mục stable-diffusion-webui > extensions > sd-webui-animatediff > model.
      • Link tải trực tiếp cho v1.5 v2 motion model: https://huggingface.co/guoyww/animatediff/resolve/main/mm_sd_v15_v2.ckpt
      • Link tải trực tiếp cho v1.4 motion model: https://huggingface.co/guoyww/animatediff/resolve/main/mm_sd_v14.ckpt
      • Link tải trực tiếp cho v1.5 motion model: https://huggingface.co/guoyww/animatediff/resolve/main/mm_sd_v15.ckpt
    7. Khởi động lại Web-UI.

Sử dụng AnimateDiff

  1. Trong AUTOMATIC1111, vào trang txt2img.
  2. Trong phần AnimateDiff:
    • Enable AnimateDiff: Chọn “Yes”.
    • Motion Module: Chọn motion module bạn muốn sử dụng (v1.4 tạo ra nhiều chuyển động hơn, v1.5 tạo ra ảnh rõ nét hơn).
  3. Nhập prompt và negative prompt như bình thường. Ví dụ:
    • Prompt: 1girl, looking at viewer, anime, cherry blossoms
    • Negative prompt: disfigured, deformed, ugly
  4. Chọn model Stable Diffusion v1. Ví dụ: Anything v3.
  5. CFG: Đặt giá trị cao (10 – 25).
  6. Sampler: DPM++ 2M Karass.

Mẹo Sử Dụng AnimateDiff

  • Tăng CFG scale nếu ảnh bị xám.
  • Đổi motion module (v1.4 và v1.5) nếu thấy watermark trên ảnh.
  • Sử dụng LoRA với AnimateDiff.
  • Giữ số lượng frame ở mức 16 để có hiệu suất tốt nhất.
  • Thay đổi prompt nếu bạn thấy hai video ngắn trong một.

3.2. ModelScope: Sức Mạnh Đến Từ Alibaba

ModelScope là một mô hình text-to-video dựa trên diffusion. Ý tưởng chính của ModelScope là các khung hình của một video thường rất giống nhau. Modelscope là một mô hình latent diffusion. Khung hình đầu tiên bắt đầu dưới dạng một tensor nhiễu ẩn, giống như text-to-image của Stable Diffusion. Điểm mới lạ là mô hình này chia nhiễu thành hai phần: (1) nhiễu cơ bản và (2) nhiễu dư. Nhiễu cơ bản được chia sẻ trên TẤT CẢ các khung hình. Nhiễu dư thay đổi trong mỗi khung hình.

Cài đặt ModelScope

Bạn cần cài đặt extension text2video.

  • Google Colab: Chọn extension text2video trong danh sách.
  • Windows/Mac:
    1. Khởi động AUTOMATIC1111.
    2. Vào trang Extension.
    3. Chọn tab Install from URL.
    4. Nhập URL sau vào ô URL for extension’s git repository: https://github.com/kabachuha/sd-webui-text2video
    5. Đợi thông báo cài đặt thành công.
    6. Khởi động lại webUI hoàn toàn.
    7. Tạo cấu trúc thư mục sau: stable-diffusion-webui\models\text2video\t2v.
    8. Tải các file model text-to-video tại đây và đặt chúng vào thư mục t2v. Bạn cần 4 file sau:
      • VQGAN_autoencoder.pth
      • configuration.json
      • openclippytorch_model.bin
      • text2videopytorchmodel.pth

Sử dụng ModelScope

  1. Trong AUTOMATIC1111, vào trang txt2video.
  2. Model type: Chọn “ModelScope”.
  3. Model: Chọn “t2v”.
  4. Prompt: Nhập prompt mô tả video. Ví dụ: a lion and a man in a suit fighting
  5. Điều chỉnh Frames để kiểm soát độ dài video.
  6. Nhấn Generate và đợi hoàn thành. Nhấn Update the video.

Mẹo Sử Dụng ModelScope

  • Sử dụng kích thước video 256×256 cho model cơ bản. Các kích thước khác có thể không hoạt động tốt.
  • Mô tả những gì bạn muốn THẤY trong video.
  • Sử dụng chức năng img2vid để điều chỉnh khung hình ban đầu.

3.3. Deforum: Biến Ý Tưởng Thành Phim Hoạt Hình

Deforum tạo video bằng cách sử dụng các mô hình Stable Diffusion. Nó đạt được tính nhất quán của video thông qua img2img trên các khung hình. Vì đầu vào là nhiều prompt văn bản, nó đủ điều kiện là một pipeline text-to-video.

Cài đặt Deforum

Deforum thường được cài đặt như một extension cho AUTOMATIC1111. Bạn có thể tìm thấy hướng dẫn cài đặt chi tiết trên trang chủ của Deforum hoặc trong cộng đồng Stable Diffusion.

Sử dụng Deforum

Deforum có giao diện phức tạp hơn so với AnimateDiff và ModelScope, nhưng nó cũng cung cấp nhiều tùy chọn tùy chỉnh hơn. Bạn có thể kiểm soát các yếu tố như chuyển động của camera, sự thay đổi của prompt theo thời gian và các hiệu ứng đặc biệt.

Mẹo Sử Dụng Deforum

  • Tìm hiểu kỹ các thông số của Deforum để tận dụng tối đa sức mạnh của nó.
  • Tham khảo các video hướng dẫn và chia sẻ kinh nghiệm từ cộng đồng Deforum.
  • Thử nghiệm với các phong cách và kỹ thuật khác nhau để tạo ra những video độc đáo.
Lời Khuyên Từ Chuyên Gia: Nâng Tầm Video Của Bạn
Lời Khuyên Từ Chuyên Gia: Nâng Tầm Video Của Bạn

Dưới đây là một số mẹo giúp bạn tạo ra những video chất lượng cao hơn với Stable Diffusion:

  • Prompting là chìa khóa: Viết prompt rõ ràng, chi tiết và sáng tạo.
  • Thử nghiệm với các model khác nhau: Mỗi model Stable Diffusion có một phong cách riêng.
  • Sử dụng negative prompt: Loại bỏ những yếu tố không mong muốn trong video.
  • Điều chỉnh các thông số: Tìm hiểu các thông số quan trọng và điều chỉnh chúng để đạt được kết quả tốt nhất.
  • Kiên nhẫn và sáng tạo: Text-to-video là một quá trình thử nghiệm. Hãy kiên nhẫn và đừng ngại thử những ý tưởng mới.
Tóm Lược Các Kỹ Thuật Text-to-Video: Mở Ra Kỷ Nguyên Sáng Tạo Video Mới
Tóm Lược Các Kỹ Thuật Text-to-Video: Mở Ra Kỷ Nguyên Sáng Tạo Video Mới

Stable Diffusion đã mở ra một kỷ nguyên mới cho việc sáng tạo video, cho phép bất kỳ ai cũng có thể biến những ý tưởng trong đầu thành những thước phim sống động. Bằng cách tận dụng sức mạnh của AI và các công cụ như AnimateDiff, ModelScope và Deforum, bạn có thể tạo ra những video độc đáo và ấn tượng. Hãy sẵn sàng khám phá thế giới kỳ diệu của text-to-video và biến điều không tưởng thành hiện thực!

Continue Reading

Trình tạo Hình ảnh AI

AnimateDiff: Biến Văn Bản Thành Video Dễ Dàng – Hướng Dẫn Chi Tiết Cho Người Việt

Published

on

Sự phát triển của công nghệ tạo video từ văn bản (text to video) bằng Stable Diffusion đang diễn ra với tốc độ chóng mặt. Trong bài viết này, bạn sẽ học cách sử dụng AnimateDiff, một kỹ thuật sản xuất video chi tiết được trình bày trong bài báo khoa học “AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning” của Yuwei Guo và cộng sự.

AnimateDiff là một trong những cách dễ nhất để tạo video bằng Stable Diffusion. Ở dạng cơ bản nhất, bạn chỉ cần viết một đoạn mô tả (prompt), chọn một model và bật AnimateDiff!

AnimateDiff Là Gì Và Tại Sao Nó Lại “Hot”?

AnimateDiff biến một đoạn văn bản mô tả thành một video bằng cách sử dụng mô hình Stable Diffusion. Bạn có thể coi nó như một sự tổng quát hóa nhẹ của việc tạo ảnh từ văn bản: Thay vì tạo ra một hình ảnh, nó tạo ra một video. Công nghệ này mở ra một kỷ nguyên mới cho việc sáng tạo nội dung video, cho phép bất kỳ ai cũng có thể tạo ra những thước phim độc đáo chỉ bằng vài dòng chữ.

AnimateDiff Hoạt Động Như Thế Nào?

AnimateDiff sử dụng một module điều khiển để tác động đến một mô hình Stable Diffusion. Module này được huấn luyện với nhiều đoạn video ngắn khác nhau. Module điều khiển điều chỉnh quá trình tạo ảnh để tạo ra một loạt các hình ảnh trông giống như các đoạn video mà nó đã học.

Giống như ControlNet, module điều khiển của AnimateDiff có thể được sử dụng với BẤT KỲ mô hình Stable Diffusion nào. Hiện tại, chỉ các mô hình Stable Diffusion v1.5 và SDXL được hỗ trợ.

Những Hạn Chế Của AnimateDiff

Vì nó tuân theo chuyển động học được từ dữ liệu huấn luyện, nó tạo ra một chuyển động chung chung thường thấy. Nó sẽ không tạo ra một video tuân theo một chuỗi chuyển động chi tiết trong đoạn mô tả.

Chất lượng chuyển động nhạy cảm với dữ liệu huấn luyện. Nó không thể tạo ảnh động cho đồ họa lạ mắt không có trong dữ liệu huấn luyện. Hãy ghi nhớ điều này khi bạn chọn những gì cần tạo ảnh động. Không phải tất cả các đối tượng và phong cách đều giống nhau.

Tuy nhiên, vẫn có những thủ thuật để cải thiện chuyển động:

  1. Thay đổi đoạn mô tả trong khi tạo video. Kỹ thuật này được gọi là prompt travel.
  2. Sử dụng video tham khảo với ControlNet.
Cài Đặt Phần Mềm Để Bắt Đầu Với AnimateDiff
Cài Đặt Phần Mềm Để Bắt Đầu Với AnimateDiff

Chúng ta sẽ sử dụng AUTOMATIC1111 Stable Diffusion WebUI. Đây là một phần mềm mã nguồn mở miễn phí và phổ biến. Bạn có thể sử dụng GUI này trên Windows, Mac hoặc Google Colab.

Nếu bạn là người mới bắt đầu sử dụng Stable Diffusion, hãy tham khảo Hướng Dẫn Bắt Đầu Nhanh. Nếu bạn là người mới sử dụng AUTOMATIC1111, hãy tham khảo Hướng Dẫn AUTOMATIC1111.

Cài Đặt Tiện Ích Mở Rộng AnimateDiff
Cài Đặt Tiện Ích Mở Rộng AnimateDiff

Chúng ta sẽ sử dụng tiện ích mở rộng AnimateDiff cho Stable Diffusion WebUI.

Google Colab

Cài đặt AnimateDiff trong Colab Notebook rất dễ dàng. Tất cả những gì bạn cần làm là chọn tùy chọn AnimateDiff trong phần Extensions.

Windows hoặc Mac

Để cài đặt tiện ích mở rộng AnimateDiff trong AUTOMATIC1111 Stable Diffusion WebUI:

  1. Khởi động AUTOMATIC1111 Web UI như bình thường.
  2. Điều hướng đến Trang Extension.
  3. Nhấp vào tab Install from URL.
  4. Nhập URL của tiện ích mở rộng vào trường URL for extension’s git repository.
https://github.com/continue-revolution/sd-webui-animatediff
  1. Chờ thông báo xác nhận rằng quá trình cài đặt đã hoàn tất.
  2. Khởi động lại AUTOMATIC1111.
Tải Xuống Các Motion Module Cần Thiết
Tải Xuống Các Motion Module Cần Thiết

(Bạn không cần thực hiện bước này nếu bạn đang sử dụng Colab notebook của chúng tôi.)

Bạn cần tải xuống ít nhất một motion module trước khi sử dụng AnimateDiff. Chúng có thể được tìm thấy trên trang Hugging Face của tác giả gốc.

Nếu bạn chỉ muốn tải xuống các phiên bản mới nhất của các motion module, hãy lấy:

  • mm_sdxl_v10_beta.safetensors — Phiên bản SDXL
  • mm_sd15_v3.safetensors — Phiên bản SD 1.5

Đây là các phiên bản cũ hơn.

  • mm_sd_v15_v2.ckpt — Hướng dẫn này cũng sử dụng mô hình v2. Bạn có thể thay thế bằng v3.
  • mm_sd_v15.ckpt
  • mm_sd_v14.ckpt

Đặt các motion module vào thư mục stable-diffusion-webui > extensions > sd-webui-animatediff > model.

Tạo Video Đầu Tiên Của Bạn Với AnimateDiff
Tạo Video Đầu Tiên Của Bạn Với AnimateDiff

Hãy tạo một video về một cô gái vui vẻ đang thử bộ áo giáp mới của mình trong phòng khách.

Bước 1: Chọn Một Mô Hình Stable Diffusion

Tôi sẽ sử dụng một nhân vật chân thực trong ví dụ này. Hãy sử dụng CyberRealistic v3.3. Tải xuống mô hình và đặt nó trong stable-diffusion-webui > models > Stable-Diffusion.

Trong menu thả xuống Stable Diffusion checkpoint, hãy chọn cyberrealistic_v33.safetensors.

Bước 2: Nhập Cài Đặt txt2img

Trên trang txt2img, hãy nhập các cài đặt sau.

  • Prompt:

((best quality)), ((masterpiece)), ((realistic)), long highlighted hair, cybergirl, futuristic silver armor suit, confident stance, high-resolution, living room, smiling, head tilted

  • Negative Prompt:

CyberRealistic_Negative-neg

Lưu ý: CyberRealistic_Negative là một negative embedding (hướng dẫn cài đặt).

  • Steps: 20
  • Sampler: DPM++ 2M Karras
  • CFG scale: 10
  • Seed: -1
  • Size: 512×512

Điều chỉnh batch count để tạo nhiều video cùng một lúc.

Bước 3: Nhập Cài Đặt AnimateDiff

Trên trang txt2img, hãy cuộn xuống phần AnimateDiff.

Nhập các cài đặt sau.

  • Motion Module: mm_sd_v15_v2.ckpt
  • Enable AnimateDiff: Yes
  • Number of frames: 32 (Đây là độ dài của video)
  • FPS: 8 (Đây là số khung hình trên giây. Vì vậy, độ dài video là 32 khung hình / 8 fps = 4 giây)

Bạn có thể để phần còn lại ở mặc định.

Chọn MP4 trong tùy chọn Save nếu bạn muốn lưu video MP4.

Bước 4: Tạo Video

Nhấn Generate để tạo video. Bạn sẽ nhận được một cái gì đó tương tự như thế này.

Khám Phá Các Tùy Chọn Nâng Cao Của AnimateDiff
Khám Phá Các Tùy Chọn Nâng Cao Của AnimateDiff

Bạn có thể tìm thấy giải thích chi tiết về các tham số trên trang GitHub. Dưới đây là một số giải thích với các ví dụ minh họa.

Close Loop (Vòng Lặp Khép Kín)

Tùy chọn close loop làm cho video liên tục. Đó là khung hình đầu tiên, giống như khung hình cuối cùng. Vì vậy, bạn sẽ không thấy sự thay đổi đột ngột khi chuyển từ khung hình cuối cùng sang khung hình đầu tiên.

  • N: Không sử dụng close loop.
  • R-P: Giảm số lượng ngữ cảnh close loop. Prompt travel sẽ KHÔNG được nội suy để trở thành một vòng lặp khép kín.
  • R+P: Giảm số lượng ngữ cảnh close loop. Prompt travel SẼ ĐƯỢC nội suy để trở thành một vòng lặp khép kín.
  • A: Làm cho khung hình cuối cùng giống như khung hình đầu tiên. Prompt travel SẼ ĐƯỢC nội suy để trở thành một vòng lặp khép kín.

Frame Interpolation (Nội Suy Khung Hình)

Frame interpolation làm cho video trông mượt mà hơn bằng cách tăng số lượng khung hình trên giây.

Đặt Frame Interpolation thành FILMInterp X thành bội số của FPS. Ví dụ: Đặt nó thành 5 sẽ làm cho video 8 FPS thành 40 FPS.

Vì một số lý do, bạn sẽ cần đặt FPS thành 8 lần 5 = 40 FPS để làm cho ảnh GIF động trông đúng. Nếu không, nó sẽ ở chế độ chuyển động chậm.

Context Batch Size

Context batch size kiểm soát tính nhất quán về thời gian. Context batch size cao hơn làm cho các thay đổi video ít hơn. Giá trị nhỏ làm cho nó thay đổi nhiều hơn.

Nhưng chất lượng dường như giảm đi khi nó khác 16. Vì vậy, tốt hơn là giữ nó ở mức 16.

Biến Video Thành Video Với AnimateDiff
Biến Video Thành Video Với AnimateDiff

Bạn có thể điều khiển chuyển động bằng video tham khảo bằng ControlNet.

Hãy sử dụng video tham khảo này làm ví dụ. Mục tiêu là để AnimateDiff theo dõi chuyển động của cô gái trong video.

Bước 1: Tải Video Lên

Trên trang txt2img, hãy cuộn xuống phần AnimateDiff.

Tải video lên canvas Video source.

Bước 2: Nhập Cài Đặt AnimateDiff

Các tham số number of framesFPS phải khớp với video. Chúng sẽ được điền tự động. Chúng là:

  • Number of frames: 96
  • FPS: 29

Đừng quên bật AnimateDiff.

  • Enable AnimateDiff: Yes

Bước 3: Nhập Cài Đặt txt2img

Các tham số txt2img là:

  • Checkpoint model: cyberrealistic_v33.safetensors
  • Prompt

((best quality)), ((masterpiece)), ((realistic)), long highlighted hair, cybergirl, futuristic silver armor suit, confident stance, high-resolution, living room, smiling, head tilted

  • Negative Prompt:

CyberRealistic_Negative-neg

  • Steps: 20
  • Sampler: DPM++ 2M Karras
  • CFG scale: 10
  • Seed: -1
  • Size: 512×512

Bước 4: Bật ControlNet

Bạn phải bật ControlNet để sao chép video của tham chiếu.

Trong phần ControlNet Unit 0:

Hãy sử dụng DW Openpose.

  • Enable: Yes
  • Preprocessor: dw_openpose_full
  • Model: Openpose

Bước 5: Tạo Video

Nhấn Generate.

(Tiện ích mở rộng AnimateDiff rất khó tính. Nếu nó báo lỗi, hãy thử nhấn Generate lại. Nếu vẫn không hoạt động, hãy khởi động lại A1111 hoàn toàn và thử lại.)

Motion LoRA: Thêm Chuyển Động Camera Chuyên Nghiệp
Motion LoRA: Thêm Chuyển Động Camera Chuyên Nghiệp

Bạn có thể sử dụng motion LoRA để thêm chuyển động camera vào video. Chúng được sử dụng theo cùng một cách như LoRA tiêu chuẩn.

Cài Đặt Motion LoRA

Bạn có thể tải xuống motion LoRA theo liên kết sau.

Trang tải xuống Motion LoRA

Tải xuống tất cả các tệp có lora là một phần của tên tệp.

Đặt chúng trong stable-diffusion-webui > models > Lora.

Sử Dụng Motion LoRA

Tất cả những gì bạn cần làm là thêm motion LoRA vào prompt. Ví dụ:

Prompt:

((best quality)), ((masterpiece)), ((realistic)), long highlighted hair, cybergirl, futuristic silver armor suit, confident stance, high-resolution, living room, smiling, head tilted

Negative prompt:

CyberRealistic_Negative-neg

Bạn thấy nền đang di chuyển sang bên phải, cho thấy camera đang lia sang bên trái.

Nhưng sử dụng LoRA weight 1 dường như tạo ra một artifact ở hậu cảnh. Giảm LoRA weight xuống 0.75 tạo ra kết quả tốt hơn.

((best quality)), ((masterpiece)), ((realistic)), long highlighted hair, cybergirl, futuristic silver armor suit, confident stance, high-resolution, living room, smiling, head tilted

Image to Image: Kiểm Soát Bố Cục Và Chuyển Động Tinh Tế
Image to Image: Kiểm Soát Bố Cục Và Chuyển Động Tinh Tế

Bạn có thể hướng dẫn bố cục và chuyển động ở một mức độ giới hạn bằng cách sử dụng AnimateDiff với img2img. Trong phương pháp này, bạn có thể xác định hình ảnh ban đầu và cuối cùng của video. Chúng không thể được sử dụng chính xác vì chúng sẽ trải qua quá trình image to image.

Điều hướng đến trang img2img trong AUTOMATIC1111.

Nhập cài đặt img2img.

  • Prompt:

((best quality)), ((masterpiece)), ((realistic)), long highlighted hair, cybergirl, futuristic silver armor suit, confident stance, high-resolution, living room, smiling, head tilted

  • Negative prompt:

CyberRealistic_Negative-neg

Tải hình ảnh ban đầu lên canvas hình ảnh của tab img2img.

  • Steps: 20
  • Sampler: DPM++ 2M Karras
  • CFG scale: 7
  • Seed: -1
  • Size: 512×512
  • Denoising strength: 0.75
  • Motion Module: mm_sd_v15_v2.ckpt
  • Enable AnimateDiff: Yes
  • Number of frames: 32
  • FPS: 8

Bạn có thể để phần còn lại ở mặc định.

Tải hình ảnh lên canvas optional last frame.

Nhấn Generate.

AnimateDiff Prompt Travel: Khám Phá Chuyển Động Nâng Cao
AnimateDiff Prompt Travel: Khám Phá Chuyển Động Nâng Cao

Bạn có cảm thấy chuyển động của AnimateDiff hơi thiếu? Bạn có thể tăng chuyển động bằng cách chỉ định các prompt khác nhau tại các thời điểm khác nhau. Tính năng này thường được gọi là prompt travel trong cộng đồng Stable Diffusion.

Đây là cách prompt travel hoạt động. Giả sử bạn chỉ định prompt 1 tại khung hình thứ 1 và prompt 2 tại khung hình thứ 10. Các prompt tại khung hình 1 và khung hình 10 chắc chắn là prompt 1 và prompt 2. Nó nội suy các prompt giữa khung hình 1 và khung hình 10.

Không Có Prompt Travel

Prompt:

(masterpiece, top quality, best quality, official art, beautiful and aesthetic:1.2), (1girl), extreme detailed,(fractal art:1.3),colorful,highest detailed

Negative prompt:

(worst quality:2), (low quality:2), (normal quality:2), lowres, bad anatomy, normal quality, ((monochrome)), easynegative, badhandv4

Sử Dụng Prompt Travel

Sử dụng prompt ở định dạng sau để sử dụng prompt travel

(masterpiece, top quality, best quality, official art, beautiful and aesthetic:1.2), (1girl), extreme detailed,(fractal art:1.3),colorful,highest detailed 0: smile 8: (arm over head:1.2) studio lighting

Dòng đầu tiên là tiền tố prompt. Dòng cuối cùng là hậu tố prompt. Chúng được thêm vào đầu và cuối của prompt, tương ứng.

Ở giữa, chúng ta chỉ định các prompt tại các khung hình khác nhau.

Tăng Độ Phân Giải Với Hi Res Fix
Tăng Độ Phân Giải Với Hi Res Fix

Bạn có thể sử dụng AnimateDiff với Hi Res fix để tăng độ phân giải.

  • Upscaler: 4x-UltraSharp
  • Hires steps: 10
  • Denoising strength: 0.6
  • Upscale by: 1.4
AnimateDiff v3: Nâng Cấp Motion Module
AnimateDiff v3: Nâng Cấp Motion Module

AnimateDiff v3 không phải là một phiên bản mới của AnimateDiff, mà là một phiên bản cập nhật của motion module. Tất cả những gì bạn cần làm để sử dụng nó là tải xuống motion module và đặt nó trong thư mục stable-diffusion-webui > models > animatediff. Bạn có thể tải xuống motion module v3 cho AUTOMATIC1111.

Bạn có thể sử dụng Animate v3 motion module theo cùng một cách như v2.

Khi thử nghiệm, tôi không thể nói v3 tốt hơn v2. Chúng tạo ra các chuyển động khác nhau. Bạn có thể giữ cả hai trong hộp công cụ của mình và xem cái nào hoạt động tốt hơn trong quy trình làm việc cụ thể của bạn.

AnimateDiff Cho SDXL: Tạo Video Độ Phân Giải Cao

AnimateDiff SDXL không phải là một phiên bản mới của AnimateDiff, mà là một motion module tương thích với mô hình Stable Diffusion XL. Bạn cần tải xuống motion module SDXL và đặt nó trong thư mục stable-diffusion-webui > models > animatediff.

Bạn có thể sử dụng Animate SDXL motion module theo cùng một cách như các motion module khác. Hãy nhớ đặt nó thành kích thước hình ảnh tương thích với mô hình SDXL, ví dụ: 1024 x 1024.

Bạn có thể sử dụng bất kỳ mô hình SDXL nào, không chỉ mô hình cơ sở.

Tăng Tốc AnimateDiff: Tiết Kiệm Thời Gian Sáng Tạo

Tạo video có thể chậm. AnimateDiff cũng không ngoại lệ. Dưới đây là một vài cách bạn có thể tăng tốc tạo video với AnimateDiff.

LCM LoRA: Tối Ưu Hóa Tốc Độ

LCM LoRA là một mô hình LoRA để tăng tốc Stable Diffusion. Bạn có thể mong đợi quá trình tạo video nhanh hơn gấp 3 lần.

Làm theo hướng dẫn LCM LoRA để cài đặt các module LCM LoRA. Có các phiên bản SD 1.5 và SDXL.

Cài đặt hình ảnh của LCM LoRA khá khác biệt. Điều quan trọng là phải hoàn thiện các cài đặt mà không cần sử dụng AnimateDiff.

SDXL Turbo: Sức Mạnh Của Mô Hình Turbo

Các mô hình SDXL Turbo có cùng kiến trúc với các mô hình SDXL khác, nhưng phương pháp đào tạo Turbo cho phép ít bước sampler hơn. Bạn có thể mong đợi quá trình tạo video nhanh hơn gấp 3 lần.

Điều quan trọng là sử dụng phương pháp lấy mẫu, số bước và CFG scale sau. Nếu không, chất lượng sẽ kém.

Xử Lý Sự Cố AnimateDiff: Giải Quyết Các Vấn Đề Thường Gặp

AnimateDiff Tạo Ra 2 Video Riêng Biệt Thay Vì Một

Prompt có thể quá dài. Trong AUTOMATIC1111 > Settings > Optimization, hãy chọn Pad prompt/negative prompt to be same length.

Kết Luận: Làm Chủ AnimateDiff Để Tạo Video Từ Văn Bản Đột Phá

Với hướng dẫn chi tiết này, bạn đã trang bị cho mình kiến thức và kỹ năng cần thiết để khai thác sức mạnh của AnimateDiff. Hãy bắt đầu thử nghiệm, sáng tạo và biến những ý tưởng văn bản thành những thước phim video ấn tượng. AnimateDiff mở ra một thế giới mới cho việc sáng tạo nội dung, và bạn, với sự kiên nhẫn và đam mê, có thể trở thành một phần của cuộc cách mạng này trong lĩnh vực tạo video từ văn bản.

Continue Reading

Xem nhiều