
Trí thông minh nhân tạo sẽ thống lĩnh ngành thời trang?
Nhóm nghiên cứu tại Đại học Thời trang London tin rằng trí tuệ nhân tạo (AI) có thể thay đổi ngành thời trang. Vào cuối tháng 3/2023, họ đã tổ chức một buổi thuyết trình tại GTC (Hội nghị AI toàn cầu quy tụ các nhà phát triển, kỹ sư, nhà nghiên cứu, nhà phát minh và chuyên gia CNTT) để giới thiệu tác phẩm mà nhóm đã thiết kế cùng với Johannes Saam, một Nghệ sĩ sáng tạo và là Nhà sáng tạo công nghệ tại Framestore.
Johannes Saam là một chuyên gia đồ họa máy tính kỳ cựu. Bắt nguồn từ sự nghiệp lẫy lừng với hàng loạt tác phẩm điện ảnh lớn (bao gồm Mad Max 4, Thor, Captain America và Prometheus), Johannes đã mạo hiểm bước vào thế giới của thời gian thực, thực tế ảo và siêu vũ trụ. Anh ấy từng giành được giải Oscar, giải Emmy và liên tục tạo ra các bộ sưu tập NFT cũng như các dự án sáng tạo khác liên quan đến Web3.
Đội ngũ nghiên cứu tại Đại học Thời trang Luân Đôn (London College of Fashion) từ lâu đã đi đầu trong việc khám phá các công nghệ mới trong ngành thời trang và làm việc với các Studio VFX hàng đầu trên thế giới. Tại buổi giới thiệu Tuần lễ thời trang Luân Đôn vào năm 2018, đội ngũ này đã hợp tác trong một khám phá kéo dài 2 năm giữa FIA và ILMxLAB – bộ phận giải trí thể loại nhập vai của Lucasfilm nhằm tìm ra các ứng dụng tiềm năng của công nghệ nhập vai trong ngành thời trang. Chương trình mang tính tương lai tại Trường Cao đẳng Thời trang Luân Đôn này vẫn đang tiếp tục và dự án mới lần này có sự hợp tác của họ với Framestore.
Sàn diễn thời trang kỹ thuật số được tạo ra với 100% người mẫu, khán giả, trang phục, sân khấu từ AI (nguồn ảnh: Pixabay)
Vì sao có sự xuất hiện của bản thử nghiệm máy học: Meta Catwalk?
Chúng tôi đã có cuộc trò chuyện với Matthew Drinkwater – Trưởng bộ phận Đổi mới (Innovation), Moin Roberts-Islam – Giám đốc Phát triển Công nghệ tại Đại học Thời trang London và Johannes Saam (Framestore).
Roberts-Islam giải thích: “Chúng tôi muốn làm điều gì đó cho GTC. Chúng tôi đã xem xét việc sử dụng trí tuệ nhân tạo trong một khoảng thời gian. Ví dụ, trước đây, chúng tôi từng thực hiện một dự án sử dụng cảnh quay catwalk dự trữ, trong đó chúng tôi sử dụng AI để trích xuất dữ liệu mô phỏng chuyển động từ những chuyển động của người mẫu, sau đó tiếp tục sử dụng với người mẫu kỹ thuật số và quần áo trong môi trường tổng hợp. Lần này, chúng tôi muốn làm một thứ gì đó hiện đại và tiên tiến hơn nhiều với những gì mà AI đã làm được.”
Sau nhiều lần thảo luận với Johannes Saam của Framestore, một ý tưởng giới thiệu dự án tiềm năng đã ra đời. Ở đó cho phép người dùng có thể nhập tên một nhà thiết kế và AI sẽ tạo ra buổi trình diễn thời trang nguyên bản trên sàn catwalk theo theo phong cách đặc trưng của nhà thiết kế đó.
Sự góp mặt của Framestore trong dự án này đã góp phần làm rõ bản chất của sự phát triển và khả năng mở rộng của ngành công nghiệp thời trang nói riêng và sức mạnh của AI nói chung. Framestore có một tầm nhìn rất tiến bộ và hiểu rõ vai trò của mình, vượt xa khuôn khổ một studio chuyên xử lý hậu kỳ VFX. Nó phản ánh sự thay đổi trong cách tiếp cận làm việc với khách hàng và tập trung vào trải nghiệm chứ không chỉ là cảnh quay.
Framestore đã áp dụng cách tiếp cận dựa trên lĩnh vực CX (Customer Experience – Trải nghiệm khách hàng) với quy mô mở rộng hơn. Trong thế giới thiết kế sáng tạo, UI (User Interface – Giao diện người dùng) chính là những hình ảnh trực quan, UX (User Experience – Trải nghiệm người dùng) là toàn bộ những trải nghiệm với mọi điểm tiếp xúc trên nền tảng. Theo cách định nghĩa của Framestore, chúng ta có thể hiểu đơn giản UI chính là “hình ảnh”, UX là “phương thức” để đạt được những hình ảnh đó và CX là “trải nghiệm” riêng biệt mà Framestore xây dựng theo từng dự án và từng nhóm sáng tạo. Nói cách khác, dựa trên câu chuyện được kể hoặc các yêu cầu về mặt tương tác, Framestore sẵn sàng tạo ra các dự án mang đậm tính sáng tạo chứ không đơn thuần chỉ là cung cấp các công nghệ mới nhất.
Việc xây dựng các pipeline riêng biệt, có thể linh hoạt điều chỉnh, định hình theo nhu cầu của từng dự án, thay vì gò ép câu chuyện vào khuôn khổ của công nghệ là vô cùng quan trọng. Mặc dù công nghệ mới rất thú vị nhưng bản thân nó không phải là mục đích cuối cùng. Thêm nhiều công nghệ hơn không có nghĩa là dự án sẽ tốt hơn. Ngược lại, khả năng sử dụng nhiều loại công nghệ mới và biến chúng thành các giải pháp riêng biệt trong khi vẫn tiết kiệm chi phí là kỹ năng then chốt để tạo nên sự thành công theo xu hướng ngày nay.
Chúng ta có thể thấy cách tiếp cận này trong cách Framestore tạo ra Meta Catwalk, một chương trình vừa thể hiện được sự sáng tạo riêng biệt của mình, vừa phô diễn sức mạnh từ các giải pháp máy học của AI. Framestore đã rất biết cách phối hợp giữa các công cụ VFX truyền thống như Foundry’s Nuke và các mô-đun của công cụ máy học (Machine Learning) tiên tiến.
Meta Catwalk (Sàn trình diễn thời trang Meta)
Mục đích của dự án là tạo ra một sàn Catwalk Meta với 100% người mẫu thời trang đều là sản phẩm kỹ thuật số và tạo ra những bộ trang phục chưa từng được tưởng tượng ra bởi bất kỳ nhà thiết kế nổi tiếng nào. Saam đã đào tạo các công cụ máy học dựa trên chất liệu của nhiều nhà thiết kế danh tiếng khác nhau. Sau đó, công cụ máy học suy luận các thiết kế mới và trình diễn chúng trên sàn Catwalk kỹ thuật số.
Nguồn ảnh: fxguide
Công trình này có ý nghĩa quan trọng không chỉ đối với các phân tích về thời trang mà còn liên quan đến cách máy học đối với các dạng ảnh tĩnh. Rất nhiều người đã sử dụng phần mềm Stable Diffusion (phần mềm AI mã nguồn mở, cho phép người dùng tạo ra hình ảnh bằng cách viết lệnh cho nó) để tạo ra hình ảnh. Tất nhiên, việc tinh chỉnh và định hướng mô hình hay công cụ AI như Stable Diffusion để tạo video thay vì chỉ là hình ảnh tĩnh là điều rất đáng quan tâm.
Về cốt lõi, chúng ta có thể coi dự án Meta Catwalk giống như một chương trình “chuyển đổi phong cách” bằng máy học. Tuy nhiên, nếu chỉ nói là chuyển đổi không thì cũng không thực sự phản ánh được hết những tính năng và sự ưu việt của dự án này. Cách tiếp cận của Framestore trong việc tạo ra các trải nghiệm riêng biệt được lấy ý tưởng ban đầu là chuyển đổi phong cách nhưng sau đó đã được tưởng tượng lại theo cách gần gũi hơn so với những gì mà nhóm sáng tạo của Matthew Drinkwater mong muốn.
Saam đã lấy hình ảnh của các mẫu thời trang nổi bật từ nhiều nhà thiết kế nổi tiếng khác nhau và chèn chúng vào phần mềm Stable Diffusion bằng Dreambooth. Đây là công cụ được xuất bản vào năm 2022 bởi nhóm nghiên cứu của Google, là một kỹ thuật để tinh chỉnh các mô hình khuếch tán (như Stable Diffusion) bằng cách đưa một đối tượng tùy chỉnh vào mô hình AI.
Saam cũng đã hợp nhất mô hình này với một số mô hình AI khác để tạo ra loạt mô hình AI riêng cho từng nhà thiết kế. Sau đó, anh ấy đã sử dụng nhiều kỹ thuật AI và hiệu ứng hình ảnh hơn để xây dựng các video mô phỏng, trình diễn.
Để có được chuyển động bước đi của người mẫu, Saam đã sử dụng các tấm ảnh thời trang hoặc clip nền và cắt nó xung quanh người mẫu (người thật). Sau đó, một chương trình máy học thực hiện tác vụ tách hoặc phân đoạn mô hình khỏi background để tạo ra một phiên bản Alpha của mô hình người trên sàn Catwalk.
Để điều chỉnh các tư thế, điều khiển hoặc “chỉ đạo” trong Stable Diffusion, hình ảnh đầu vào của Saam sử dụng các mô hình ControlNet khác nhau. Việc sử dụng mô hình ControlNet cho phép các nghệ sĩ kiểm soát được việc tạo dáng. ControlNet là một cấu trúc mạng nơ-ron dùng để kiểm soát các mô hình khuếch tán bằng cách thêm các điều kiện bổ sung và mở rộng quyền kiểm soát cho Stable Diffusion. ControlNet là một giải pháp quan trọng cho vấn đề “nhất quán” trong không gian.
Trước đây, không có phương pháp thực sự hiệu quả để báo cho mô hình AI biết chúng cần giữ lại những phần nào của hình ảnh đầu vào. ControlNet đã cải thiện được điều này bằng cách cung cấp một giải pháp mới, cho phép Stable Diffusion sử dụng các điều kiện đầu vào bổ sung để AI có thể biết chính xác chúng cần phải làm gì.
Tiếp theo, Saam sử dụng mô hình Stable WarpFusion để chuyển các mô hình AI sang dạng hình ảnh của các mô hình đã được cắt xén thực. WarpFusion được viết bởi Alex Spirin hoạt động tương tự như mô hình Disco Diffusion (một chương trình vẽ tranh AI dựa trên nền tảng kỹ thuật của Google) nhưng được mở rộng hơn.
Nói một cách đơn giản, các công cụ AI được sử dụng với mục đích tạo ra bản đồ optical flow (hiểu nôm na là sự chuyển động của đối tượng giữa 2 khung hình) từ video đầu vào để tạo sự nhất quán và sau đó làm cong các khung hình đã xử lý bởi máy học với mục đích giảm nhiễu cho video đầu ra.
Ở video cuối cùng, chỉ có ba mô hình người mẫu thực tế được sử dụng. Điều thú vị là footage người mẫu thời trang xuất hiện trong hình dáng của một phụ nữ có khả năng di chuyển liên tục với các động tác quay sang trái rồi sang phải và các chuyển động này được tạo ra từ cơ sở một người mẫu nam chỉ có chuyển động quay sang trái.
The Room (Khán phòng)
Nguồn ảnh: fxguide
Sau khi xây dựng hoàn thiện sàn diễn và người mẫu biểu diễn, việc tiếp theo cần làm là tạo ra một căn phòng, nơi có không gian, có khán giả thưởng thức buổi trình diễn để có thể tạo nên một show thời trang đúng nghĩa. Sam đã tạo ra căn phòng này bằng cách sử dụng công cụ Mid Journey kết hợp với phần mềm Nuke. Saam sử dụng Nuke để thêm bóng đổ, hình ảnh phản chiếu rồi tổng hợp (compositing) video cuối cùng.
Tạm kết
Thông qua các thử nghiệm, nhóm nghiên cứu nhanh chóng chỉ ra rằng video AI này chỉ là phần mở rộng và khám phá nghệ thuật trình diễn của các nhà thiết kế ban đầu. Họ xem đây là một lớp bổ sung để nâng cao bộ sưu tập thời trang truyền thống và lý tưởng hóa kỹ năng, tầm nhìn của một nhà thiết kế thời trang truyền thống. Còn trong tương lai, liệu AI có thể thay thế hoàn toàn lĩnh vực thời trang truyền thống hay không thì phải chờ đợi thời gian trả lời.
*Nguồn tin: fxguide
Phận Phạm