Sora: Những điều cần biết về trình tạo video AI mới của OpenAI

Blog Change

Sam Altman lại một lần nữa khiến ngành công nghiệp AI chấn động. Lần này, không phải vì những tranh cãi xung quanh việc ông rời OpenAI, cũng chẳng liên quan đến ChatGPT. Mà là nhờ một mô hình AI hoàn toàn mới mang tên Sora.

Sora là gì?

Được giới thiệu vào thứ Năm, Sora lấy cảm hứng từ tiếng Nhật, có nghĩa là "bầu trời", có khả năng tạo video dài tới một phút chỉ từ văn bản. Mục tiêu của OpenAI với Sora là "dạy AI hiểu và mô phỏng thế giới vật lý chuyển động, nhằm đào tạo các mô hình giúp con người giải quyết các vấn đề đòi hỏi tương tác thực tế."

Nghe có vẻ khô khan, nhưng thực tế khả năng của Sora vượt xa. Nó có thể tạo ra video độ nét cao về mọi thứ, từ California thời kỳ đào vàng thế kỷ 19 đến hoạt hình 3D giống như sản phẩm của Dreamworks. Tất cả những gì nó yêu cầu là một đoạn văn bản đơn giản.

Mặc dù, đây không phải lần đầu tiên công nghệ này xuất hiện. Trước đó, Startup Runway có trụ sở tại New York, được hỗ trợ bởi Google và Nvidia, đã có một công cụ AI tạo video từ văn bản. Meta cũng có một công cụ tương tự mang tên Emu Video. Tháng trước, Google cũng không kém cạnh khi công bố phiên bản text-to-video của mình có tên Lumiere.

Tuy nhiên sức hút xung quanh chúng không thể so sánh với Sora. Một phần là do vị trí lãnh đạo OpenAI, một công ty tư nhân, cho phép Altman tự do quảng bá công nghệ - mặc dù nó vẫn đang được thử nghiệm về các vấn đề tiềm ẩn. (Lưu ý: Việc phát hành Sora chỉ giới hạn cho "red teamers" - những người sẽ kiểm tra rủi ro và một số nghệ sĩ và nhà làm phim được chọn lọc.)

Sora hoạt động như thế nào?

Ngay khi vừa được giới thiệu Sora đã gây bão trong thế giới AI. Mặc dù các hoạt động bên trong đầy đủ vẫn được giữ kín, nhưng khi tổng hợp nhiều nguồn tin, chúng ta có thể nắm được phần nào các nguyên tắc cốt lõi của nó.

Giống như các mô hình trí tuệ nhân tạo tạo hình ảnh từ văn bản như DALL·E 3, StableDiffusion và Midjourney, Sora là một mô hình khuếch tán. Điều đó có nghĩa là nó bắt đầu với từng khung hình của video bao gồm nhiễu tĩnh, và sử dụng học máy để dần dần biến đổi hình ảnh thành thứ gì đó tương tự như mô tả trong lời nhắc.

_{Một hình ảnh trong video do Sora tạo ra}

Công nghệ nền tảng:

Mô hình khuếch tán: Giống như việc tô màu từ một bức tranh mờ dần đến sắc nét, Sora bắt đầu với nhiễu ngẫu nhiên và tinh chỉnh theo từng bước thành một video dựa trên lời nhắc văn bản được cung cấp.
Mảnh không gian thời gian ẩn: Những mảnh này đại diện cho các phần nhỏ thông tin video, cho phép Sora thao tác và kết hợp chúng để tạo ra những cảnh phức tạp.
Kiến trúc Transformer: Mạng nơ-ron này xuất sắc trong việc hiểu ngôn ngữ và chuyển đổi lời nhắc thành các hướng dẫn tạo video. OpenAI cũng khẳng định điều này khi cho biết rằng Sora có hiểu biết sâu sắc về ngôn ngữ, cho phép nó diễn giải các lời nhắc và tạo ra các ký tự thể hiện cảm xúc sống động như thật.

Khả năng chính:

Thực tế ảnh: Không giống như các mô hình trước đây với đầu ra giống phim hoạt hình, Sora có thể tạo ra video chất lượng cao, chân thực.
Đầu vào đa phương thức: Nó không chỉ chấp nh��n lời nhắc văn bản mà còn chấp nhận hình ảnh hoặc video hiện có để thao tác và nâng cao chất lượng.
Mô phỏng thế giới: Sora nắm được các quy luật vật lý và tính bền vững của vật thể, dẫn đến kết quả video mạch lạc và đáng tin cậy hơn.

Để sử dụng và tạo video bằng Sora, người dùng chỉ cần nhập một vài câu dưới dạng lời nhắc, giống như trình tạo hình ảnh AI. Người dùng cũng có thể chọn giữa phong cách quang học hoặc phong cách hoạt hình, tạo ra kết quả gây sốc chỉ trong vài phút.

Những hạn chế mà Sora có thể gặp phải

Vì là một sản phẩm mới, thế nên OpenAI cũng đã lưu ý một số hạn chế mà phiên bản Sora hiện tại có thể gặp phải. Sora có thể không có hiểu biết sâu sắc về vật lý, và vì vậy các quy tắc vật lý trong "thế giới thực" có thể không phải lúc nào cũng được tuân thủ.

Ví dụ, bạn muốn tạo video một người đang ăn bánh quy. Điều này Sora có thể làm được, tuy nhiên ngay sau đó, chiếc bánh quy đó có thể không có vết cắn. Hoặc một video về quả bóng rổ lọt vào lưới. Quả bóng có thể lọt qua lưới nhưng theo một cách “phi thực tế” - chẳng hạn như xuyên qua khung sắt…

Tương tự, vị trí không gian của các vật thể có thể thay đổi không tự nhiên. Ví dụ bạn một có một video hoa nở nhưng sự xuất hiện và nở của các bông hoa có thể bị trùng vào nhau, gây rối mắt.

Ứng dụng và rủi ro của Sora mà bạn nên cân nhắc

Tương tự như các công cụ AI khác, Sỏa hứa hẹn sẽ mang đến nhiều trải nghiệm thú vị nhưng đồng thời cũng đi kèm một số rủi ro đáng ngại.

Các ứng dụng của Sora:

Giải trí: Tạo nội dung chân thực và sống động cho phim ảnh, trò chơi và trải nghiệm thực tế ảo. bên cạnh đó, Sora cũng có thể được sử dụng để tạo video dạng ngắn cho các nền tảng truyền thông xã hội như TikTok, Instagram Reels và YouTube Shorts.
Giáo dục và đào tạo: Mô phỏng các tình huống thực tế cho đào tạo y tế, đào tạo phi công hoặc các mô phỏng giáo dục khác.
Thiết kế và tạo mẫu sản phẩm: Hình ảnh hóa các ý tưởng sản phẩm mới và kiểm tra chức năng của chúng trước khi sản xuất vật lý.
Marketing và quảng cáo: Việc tạo quảng cáo, video quảng cáo và giới thiệu sản phẩm thường rất tốn kém. Các công cụ AI chuyển văn bản thành video như Sora hứa hẹn sẽ giúp quá trình này rẻ hơn nhiều.
Khoa học và nghiên cứu: Mô phỏng các tình huống phức tạp trong vật lý, sinh học hoặc các lĩnh vực khác để có được những hiểu biết mới.
Trợ năng: Giúp người khuyết tật trải nghiệm những hoạt động mà họ có thể không thực hiện được trong cuộc sống thực.

Rủi ro của Sora:

Thông tin sai lệch và Deepfakes: Khả năng tạo video chân thực của Sora có thể bị lợi dụng để tạo ra những deepfakes thuyết phục nhằm mục đích xấu, lan truyền thông tin sai lệch hoặc hủy hoại danh tiếng.
Thành kiến và phân biệt đối xử: Nếu dữ liệu đào tạo được sử dụng cho Sora có thiên kiến, các video được tạo ra có thể tiếp tục các khuôn mẫu độc hại hoặc nội dung phân biệt đối xử.
Mối lo ngại về quyền riêng tư: Việc sử dụng dữ liệu cá nhân trong quá trình đào tạo Sora hoặc khả năng video bị sử dụng cho mục đích giám sát gây ra lo ngại về quyền riêng tư.
Thay thế việc làm: Khi Sora tạo ra các video chân thực và phức tạp hơn, nó có khả năng tự động hóa một số công việc hiện đang do con người thực hiện, chẳng hạn như chỉnh sửa video hoặc hoạt hình.
Quá phụ thuộc vào AI: Sự phụ thuộc vào video do AI tạo ra có thể khiến mọi người mất đi sự kết nối với thực tế và khả năng tư duy phản biện.

Tuy vậy, về cơ bản chúng ta cũng có thể nhìn thấy những bước tiến mới của công nghệ. Mô hình Sora hứa hẹn sẽ là một bước nhảy vọt về chất lượng của video tổng hợp mang đến nhiều tiện ích hơn cho con người.