Google Gemini: Mọi thứ bạn cần biết về nền tảng AI thế hệ mới

Blog Change

Google đang cố gắng tạo ra làn sóng với Gemini, một bộ sưu tập hàng đầu của các mô hình trí tuệ nhân tạo tạo ra, ứng dụng và dịch vụ.

Vậy Gemini là gì? Bạn có thể sử dụng nó như thế nào? Và nó so sánh thế nào so với các đối thủ?

Để dễ dàng theo dõi những phát triển mới nhất của Gemini, chúng tôi đã tổng hợp hướng dẫn hữu ích này, sẽ được cập nhật khi có mô hình và tính năng Gemini mới được phát hành.

Gemini là gì?

Gemini là dòng mô hình trí tuệ nhân tạo thế hệ tiếp theo của Google, được phát triển bởi các phòng thí nghiệm nghiên cứu trí tuệ nhân tạo của Google là DeepMind và Google Research. Nó có ba phiên bản:

Gemini Ultra, mô hình Gemini cờ đầu của Google.
Gemini Pro, một phiên bản "nhẹ" của mô hình Gemini.
Gemini Nano, một mô hình nhỏ hơn được "cô đặc" chạy trên các thiết bị di động như Pixel 8 Pro.

Tất cả các mô hình Gemini đều được huấn luyện để "đa phương tiện cấp bản nguyên" - nói cách khác, có khả năng làm việc với và sử dụng nhiều hơn chỉ là từ ngữ. Chúng đã được huấn luyện trước và điều chỉnh trên nhiều loại âm thanh, hình ảnh và video, một tập hợp lớn các mã nguồn và văn bản trong các ngôn ngữ khác nhau.

Điều này làm cho Gemini khác biệt so với các mô hình như LaMDA của Google, chỉ được huấn luyện dựa trên dữ liệu văn bản. LaMDA không thể hiểu hoặc tạo ra bất cứ thứ gì khác ngoài văn bản (ví dụ: bài luận, bản nháp email), nhưng điều đó không đúng với các mô hình Gemini.

Sự khác biệt giữa ứng dụng Gemini và mô hình Gemini?

Một lần nữa, Google chứng minh rằng họ không giỏi đặt tên thương hiệu khi không phân biệt rõ ràng giữa Gemini (một nền tảng trí tuệ nhân tạo mới) và các ứng dụng Gemini cũ trên web và thiết bị di động (trước đây gọi là Bard). Ứng dụng Gemini đơn giản là một giao diện cho phép người dùng truy cập vào một số mô hình Gemini nhất định - hãy nghĩ về nó như một trình khách hàng cho GenAI của Google.

Cần lưu ý rằng, ứng dụng và mô hình Gemini hoàn toàn độc lập với Imagen 2, mô hình văn bản thành hình ảnh của Google được cung cấp trong một số công cụ và môi trường phát triển của công ty. Đừng lo lắng, bạn không phải là người duy nhất cảm thấy khó hiểu về điều này.

Gemini có thể làm gì?

Vì các mô hình Gemini là đa phương tiện, lý thuyết chúng có thể thực hiện một loạt các nhiệm vụ đa phương tiện, từ chuyển văn bản thành lời nói đến chú thích hình ảnh và video đến tạo ra nghệ thuật. Ít trong số những khả năng này đã đạt được giai đoạn sản phẩm (sẽ nói thêm về điều này sau), nhưng Google hứa hẹn tất cả chúng - và nhiều hơn nữa - vào một thời điểm không quá xa.

Tất nhiên, hơi khó để tin tưởng lời của Google.

Google đã đánh giá thấp nghiêm trọng khi ra mắt Bard. Và gần đây, họ đã gây tranh cãi với một video cho thấy khả năng của Gemini, hóa ra đã được chỉnh sửa rất nhiều và ít nhiều mang tính tham vọng.

Tuy nhiên, giả sử Google ít nhiều trung thực với các tuyên bố của mình, đây là những gì các tầng khác nhau của Gemini sẽ có thể làm khi chúng phát huy hết tiềm năng của mình:

Gemini Ultra:

Google cam đoan rằng nhờ tính đa phương thức, Gemini Ultra có thể hỗ trợ với nhiều việc như giải bài tập vật lý theo từng bước trên bảng tính và chỉ ra những lỗi có thể trong các câu trả lời đã điền sẵn.
Theo Google, Gemini Ultra cũng có thể áp dụng cho các tác vụ như xác định các bài báo khoa học liên quan đến một vấn đề cụ thể, trích xuất thông tin từ các bài báo đó và "cập nhật" biểu đồ từ một bài báo bằng cách tạo các công thức cần thiết để tái tạo biểu đồ với dữ liệu gần đây hơn.
Về mặt kỹ thuật, Gemini Ultra hỗ trợ tạo hình ảnh như đã đề cập trước đó. Nhưng khả năng đó ch��a được đưa vào phiên bản chính thức của mô hình - có lẽ vì cơ chế này phức tạp hơn cách các ứng dụng như ChatGPT tạo hình ảnh. Thay vì đưa lời nhắc vào trình tạo hình ảnh (như DALL-E 3 trong trường hợp của ChatGPT), Gemini xuất ra hình ảnh "nguyên bản" mà không cần bước trung gian.
Gemini Ultra có sẵn dưới dạng API thông qua Vertex AI, nền tảng phát triển AI được quản lý hoàn toàn của Google, và AI Studio, công cụ web dành cho nhà phát triển ứng dụng và nền tảng của Google. Nó cũng hỗ trợ các ứng dụng Gemini, nhưng không miễn phí. Truy cập Gemini Ultra thông qua dịch vụ mà Google gọi là Gemini Advanced yêu cầu đăng ký Google One AI Premium Plan, có giá 20 đô la mỗi tháng.
Gói AI Premium Plan cũng kết nối Gemini với tài khoản Google Workspace rộng hơn của bạn - hãy nghĩ đến email trong Gmail, tài liệu trong Docs, bài thuyết trình trong Sheets và bản ghi Google Meet. Điều này hữu ích cho việc tóm tắt email hoặc ghi chú của Gemini trong cuộc gọi video.

Gemini Pro:

Google cho biết Gemini Pro là cải tiến so với LaMDA về khả năng lý luận, lập kế hoạch và hiểu biết.
Một nghiên cứu độc lập của các nhà nghiên cứu tại Carnegie Mellon và BerriAI cho thấy rằng Gemini Pro thực sự tốt hơn GPT-3.5 của OpenAI trong việc xử lý các chuỗi lý luận dài và phức tạp hơn. Nhưng nghiên cứu cũng cho thấy rằng, giống như tất cả các mô hình ngôn ngữ lớn, Gemini Pro đặc biệt gặp khó khăn với các bài toán liên quan đến nhiều chữ số, và người dùng đã tìm thấy nhiều ví dụ về lý luận sai và lỗi.

Mặc dù Google liên tục hứa hẹn về những cải tiến, sự thay đổi đáng kể đầu tiên chỉ đến với phiên bản Gemini 1.5 Pro.

Được thiết kế như một bản thay thế trực tiếp, Gemini 1.5 Pro (hiện đang ở giai đoạn xem trước) đã được cải thiện đáng kể trong một số lĩnh vực so với phiên bản tiền nhiệm, đặc biệt là khả năng xử lý khối lượng dữ liệu. Phiên bản này có thể tiếp nhận khoảng 700.000 từ, tương đương 30.000 dòng mã (gấp 35 lần so với Gemini 1.0 Pro). Ngoài ra, nhờ tính chất đa phương thức, nó không chỉ giới hạn ở văn bản. Gemini 1.5 Pro có thể phân tích tới 11 giờ âm thanh hoặc 1 giờ video bằng nhiều ngôn ngữ khác nhau, mặc dù tốc độ xử lý hơi chậm (ví dụ, tìm kiếm một cảnh trong video 1 giờ mất 30 giây đến 1 phút).

Gemini Pro cũng có sẵn thông qua API trong Vertex AI để nhận văn bản làm đầu vào và tạo văn bản làm đầu ra. Một điểm cuối bổ sung, Gemini Pro Vision, có thể xử lý văn bản và hình ảnh (bao gồm ảnh và video) và tạo ra văn bản tương tự như mô hình GPT-4 with Vision của OpenAI.

Trong nền tảng Vertex AI, các nhà phát triển có thể tùy chỉnh Gemini Pro theo từng ngữ cảnh và trường hợp sử dụng cụ thể thông qua quá trình tinh chỉnh hoặc "gắn nền". Gemini Pro cũng có thể được kết nối với các API của bên thứ ba để thực hiện các hành động cụ thể.

Trong AI Studio, có sẵn các quy trình làm việc để tạo lời nhắc trò chuyện có cấu trúc bằng Gemini Pro. Các nhà phát triển có quyền truy cập vào cả điểm cuối Gemini Pro và Gemini Pro Vision, đồng thời họ có thể điều chỉnh độ "nóng" của mô hình để kiểm soát phạm vi sáng tạo của kết quả đầu ra và cung cấp các ví dụ để đưa ra hướng dẫn về giọng điệu và phong cách, cũng như điều chỉnh các cài đặt bảo mật.

Gemini Nano

Gemini Nano là phiên bản nhỏ hơn nhiều so với các mô hình Gemini Pro và Ultra. Thú vị hơn, nó đủ hiệu quả để chạy trực tiếp trên (một số) điện thoại thay vì phải gửi tác vụ lên máy chủ. Hiện tại, nó hỗ trợ hai tính năng trên Pixel 8 Pro: Tóm tắt trong Trình ghi âm và Trả lời thông minh trong Gboard.

Trong ứng dụng Trình ghi âm, cho phép người dùng nhấn nút để ghi và chuyển đổi âm thanh thành văn bản, Gemini tích hợp sẵn tính năng tóm tắt các cuộc trò chuyện, phỏng vấn, bài thuyết trình và các đoạn ghi âm khác. Người dùng nhận được tóm tắt ngay cả khi không có tín hiệu hoặc kết nối Wi-Fi - và để đảm bảo quyền riêng tư, không có dữ liệu nào rời khỏi điện thoại của họ trong quá trình này.

Gemini Nano cũng xuất hiện trong Gboard, ứng dụng bàn phím của Google, dưới dạng bản xem trước dành cho nhà phát triển. Nó hỗ trợ tính năng Trả lời thông minh, giúp gợi ý điều bạn muốn nói tiếp trong cuộc trò chuyện trên ứng dụng nhắn tin. Ban đầu, tính năng này chỉ hoạt động với WhatsApp nhưng sẽ được mở rộng sang nhiều ứng dụng khác trong năm 2024, theo Google.

Gemini có tốt hơn GPT-4 của OpenAI không?

Google đã nhiều lần ca ngợi sự vượt trội của Gemini về điểm chuẩn, tuyên bố rằng Gemini Ultra vượt quá kết quả hiện đại trên "30 trong số 32 điểm chuẩn học thuật được sử dụng rộng rãi được sử dụng trong nghiên cứu và phát triển mô hình ngôn ngữ lớn". Công ty nói rằng Gemini Pro, trong khi đó, có khả năng thực hiện các nhiệm vụ như tóm tắt nội dung, động não và viết hơn GPT-3.5.

Nhưng bỏ qua câu hỏi liệu điểm chuẩn có thực sự chỉ ra một mô hình tốt hơn hay không, điểm số mà Google chỉ ra dường như chỉ tốt hơn một chút so với các mô hình tương ứng của OpenAI. Và - như đã đề cập trước đó - một số ấn tượng ban đầu không tuyệt vời, với người dùng và học giả chỉ ra rằng Gemini Pro có xu hướng hiểu sai các sự kiện cơ bản, đấu tranh với các bản dịch và đưa ra các đề xuất mã hóa kém.

Giá của Gemini là bao nhiêu?

Phiên bản miễn phí:

Bạn có thể sử dụng miễn phí Gemini Pro trong các ứng dụng Gemini, AI Studio và Vertex AI (hiện tại).

Phiên bản trả phí:

Sau khi giai đoạn xem trước kết thúc, giá của Gemini Pro sẽ là $0.0025 mỗi ký tự cho truy vấn và $0.00005 mỗi ký tự cho kết quả. Khách hàng của Vertex AI sẽ trả tiền theo 1.000 ký tự (khoảng 140 đến 250 từ) và đối với các mô hình như Gemini Pro Vision, họ sẽ trả thêm $0.0025 mỗi hình ảnh.

Ví dụ, giả sử một bài viết 500 từ chứa 2.000 ký tự. Để tóm tắt bài viết đó bằng Gemini Pro, bạn sẽ phải trả $5. Trong khi đó, việc tạo một bài viết có độ dài tương tự sẽ tốn $0.1.

Giá của phiên bản Ultra vẫn chưa được công bố.

Bạn có thể dùng thử Gemini ở đâu?

Gemini Pro:

Cách dễ nhất để trải nghiệm Gemini Pro là trong các ứng dụng Gemini. Phiên bản Pro và Ultra hiện đang trả lời các câu hỏi bằng nhiều ngôn ngữ khác nhau.
Bạn cũng có thể truy cập Gemini Pro và Ultra trong bản xem trước trong Vertex AI thông qua API. Hiện tại, API miễn phí "trong giới hạn" và hỗ trợ một số khu vực, bao gồm Châu u, cũng như các tính năng như trò chuyện và lọc.
Ngoài ra, bạn có thể tìm thấy Gemini Pro và Ultra trong AI Studio. Sử dụng dịch vụ này, các nhà phát triển có thể lặp lại lời nhắc và chatbot dựa trên Gemini, sau đó lấy khóa API để sử dụng chúng trong ứng dụng của họ - hoặc xuất mã sang IDE đầy đủ tính năng hơn.
Duet AI for Developers, bộ công cụ hỗ trợ do AI cung cấp của Google để hoàn thành và tạo mã, hiện đang sử dụng mô hình Gemini. Google cũng đưa các mô hình Gemini vào công cụ phát triển cho Chrome và nền tảng phát triển di động Firebase.

Gemini Nano:

Gemini Nano hiện có trên Pixel 8 Pro - và sẽ đến với các thiết bị khác trong tương lai. Các nhà phát triển quan tâm đến việc tích hợp mô hình này vào ứng dụng Android của họ thể đăng ký để xem trước.