Nâng cấp mới của ChatGPT cuối cùng đã vượt qua rào cản văn bản

Blog Change

OpenAI đang triển khai các chức năng mới cho ChatGPT cho phép thực hiện lời nhắc bằng hình ảnh và chỉ thị bằng giọng nói ngoài văn bản.

Thương hiệu AI đã thông báo vào thứ Hai rằng họ sẽ cung cấp các tính năng mới này trong hai tuần tới cho người dùng ChatGPT Plus và Enterprise. Tính năng thoại có sẵn trong iOS và Android ở khả năng chọn tham gia, trong khi tính năng hình ảnh có sẵn trên tất cả các nền tảng ChatGPT. OpenAI lưu ý rằng họ có kế hoạch mở rộng tính khả dụng của hình ảnh và tính năng giọng nói ngoài người dùng trả phí sau khi triển khai so le.

Trò chuyện thoại hoạt động như một cuộc trò chuyện thính giác giữa người dùng và ChatGPT. Bạn nhấn nút và nói câu hỏi của bạn. Sau khi xử lý thông tin, chatbot cung cấp cho bạn câu trả lời bằng lời nói thay vì bằng văn bản. Quá trình này tương tự như sử dụng các trợ lý ảo như Alexa hoặc Google Assistant và có thể là phần mở đầu cho việc cải tiến hoàn toàn toàn bộ các trợ lý ảo. Thông báo của OpenAI được đưa ra chỉ vài ngày sau khi Amazon tiết lộ một tính năng tương tự đến với Alexa.

Để triển khai giao tiếp bằng giọng nói và âm thanh với ChatGPT, OpenAI sử dụng mô hình chuyển văn bản thành giọng nói mới có thể tạo ra "âm thanh giống như con người chỉ từ văn bản và vài giây giọng nói mẫu". Ngoài ra, mô hình Whisper của nó có thể "phiên âm lời nói của bạn thành văn bản".

OpenAI cho biết họ nhận thức được các vấn đề có thể phát sinh do sức mạnh đằng sau tính năng này, bao gồm "khả năng các tác nhân độc hại mạo danh nhân vật của công chúng hoặc thực hiện hành vi gian lận".

Đây là một trong những lý do chính khiến công ty có kế hoạch hạn chế sử dụng các tính năng mới của mình cho "các trường hợp sử dụng và quan hệ đối tác cụ thể". Ngay cả khi các tính năng có sẵn rộng rãi hơn, chúng sẽ có thể truy cập chủ yếu cho những người dùng đặc quyền hơn, chẳng hạn như nhà phát triển.

ChatGPT hiện có khả năng nhìn, nghe và nói. Sẽ được triển khai trong vòng hai tuần tới, người dùng Plus sẽ có thể thực hiện cuộc trò chuyện bằng giọng nói với ChatGPT (trên iOS và Android) và bao gồm hình ảnh trong cuộc trò chuyện (trên tất cả các nền tảng). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb

— OpenAI (@OpenAI) 25 tháng 9, 2023

Tính năng hình ảnh cho phép bạn chụp một hình ảnh và nhập nó vào ChatGPT với câu hỏi hoặc lời nhắc của bạn. Bạn có thể sử dụng công cụ vẽ với ứng dụng để giúp làm rõ câu trả lời của mình và trò chuyện qua lại với chatbot cho đến khi vấn đề của bạn được giải quyết. Điều này tương tự như tính năng Copilot mới của Microsoft trong Windows, được xây dựng trên mô hình của OpenAI.

OpenAI cũng đã nhận thức về những thách thức của ChatGPT, như vấn đề tri thức ảo liên tục. Khi kết hợp với tính năng hình ảnh, hãng quyết định hạn chế một số chức năng cụ thể, như "khả năng phân tích và đưa ra các tuyên bố trực tiếp về con người" của chatbot.

ChatGPT ban đầu được giới thiệu như một công cụ chuyển đổi văn bản thành giọng nói vào cuối năm ngoái; tuy nhiên, OpenAI đã nhanh chóng mở rộng khả năng của nó. Chatbot gốc dựa trên mô hình ngôn ngữ GPT-3 đã được cập nhật lên GPT-3.5 và hiện nay là GPT-4, đây là mô hình đang nhận tính năng mới.

Khi GPT-4 ra mắt vào tháng 3, OpenAI đã công bố nhiều hợp tác doanh nghiệp khác nhau, như Duolingo, sử dụng mô hình trí tuệ nhân tạo này để cải thiện độ chính xác của các bài học dựa trên lắng nghe và nói trên ứng dụng học ngôn ngữ. OpenAI đã hợp tác với Spotify để dịch các podcast sang các ngôn ngữ khác nhau trong khi vẫn giữ nguyên giọng điệu của người dẫn chương trình. Công ty cũng đã nói về việc làm việc với ứng dụng di động Be My Eyes, hỗ trợ người mù và người có thị lực yếu. Nhiều trong số những ứng dụng và dịch vụ này đã có sẵn trước khi tính năng hình ảnh và giọng nói được cập nhật.