Công nghệ AI đảm nhận công việc nặng nhọc trong nghiên cứu
Expert Editor

Các mô hình AI đã chứng tỏ khả năng thực hiện nhiều tác vụ khác nhau. Và giờ đây, con người lại muốn chúng thực hiện những công việc nặng nhọc hơn nữa trong nghiên cứu và học thuật. Do đó, startup Reliant đã giới thiệu một AI có thể trích xuất dữ liệu – công việc tốn thời gian và khiến các nghiên cứu sinh, cũng như thực tập sinh mệt mỏi.
“Điều tốt nhất mà AI có thể làm là cải thiện hiệu suất của con người, bằng cách giảm bớt các công việc nhàm chán, tầm thường và để người sử dụng làm những việc thực sự quan trọng với họ,” CEO của Reliant, Karl Moritz Hermann, cho biết. Trong lĩnh vực nghiên cứu, nơi mà ông và các đồng sáng lập, Marc Bellemare và Richard Schlegel, đã làm việc nhiều năm, việc rà soát tài liệu là một trong những ví dụ điển hình nhất của công việc “nhàm chán, tầm thường” này.
Mỗi bài nghiên cứu đều trích dẫn những công trình trước đó hoặc bài viết có liên quan, nhưng việc tìm kiếm những nguồn này trong biển các bài đăng lại không hề dễ dàng. Thậm chí, những bài như đánh giá có hệ thống thường trích dẫn hoặc sử dụng dữ liệu từ hàng nghìn nguồn khác nhau.
Hồi tưởng về một nghiên cứu trước đó của mình, ông Hermann chia sẻ: “Các tác giả phải xem xét 3.500 công trình khoa học, và nhiều trong số đó thậm chí còn không liên quan. Họ dành một khối lượng thời gian khổng lồ chỉ để trích xuất một lượng nhỏ thông tin hữu ích. Và chúng tôi cho rằng, công việc này thực sự cần phải được tự động hóa bằng AI.”
Reliant cho biết thêm rằng, các mô hình ngôn ngữ lớn (LLM) hiện nay có thể đảm nhận được công việc này: Một thí nghiệm với ChatGPT cho thấy khả năng trích xuất dữ liệu của LLM với tỷ lệ lỗi 11%. Giống như nhiều tác vụ khác mà các LLM có thể làm, kết quả này ấn tượng nhưng không phải những gì mọi người thực sự cần.
“Kết quả này chưa đủ tốt,” ông Hermann nhận xét. “Đối với những tác vụ tầm thường như thế này, điều quan trọng là không được mắc lỗi.”
Sản phẩm cốt lõi của Reliant, Tabular, dựa trên mô hình Llama 3.1 của Meta, nhưng được phát triển bằng các kỹ thuật độc quyền khác, cho thấy hiệu quả đáng kể hơn. Đối với công việc trích xuất hàng nghìn nghiên cứu, Tabular có thể thực hiện mà không mắc một lỗi nào.
Điều này có nghĩa là các nhà nghiên cứu có thể đưa vào hàng nghìn tài liệu, và yêu cầu lấy ra những dữ liệu cụ thể. Reliant sẽ xem xét và tìm thông tin đó, dù nó có được gán nhãn, và có cấu trúc hoàn hảo hay không. Sau đó, hệ thống sẽ đưa ra tất cả dữ liệu, cùng với bất kỳ phân tích nào mà người dùng cần. Những thông tin này sẽ được hiển thị trên một giao diện người dùng đẹp mắt, để người sử dụng có thể đi sâu nghiên cứu từng trường hợp riêng lẻ.
“Khách hàng của chúng tôi muốn được làm việc với tất cả dữ liệu cùng một lúc. Đồng thời, chúng tôi cũng đang phát triển các tính năng cho phép họ chỉnh sửa dữ liệu hiện có, hoặc chuyển từ dữ liệu sang tài liệu. Vai trò của Tabular là giúp người dùng tập trung vào những công việc quan trọng hơn,” ông Hermann cho biết.
Ứng dụng AI này có thể thúc đẩy sự tiến bộ khoa học trên nhiều lĩnh vực kỹ thuật cao. Nhờ thế mà Reliant đã huy động thành công 11,3 triệu USD trong vòng hạt giống, với Tola Capital và Inovia Capital dẫn đầu, cùng sự tham gia của nhà đầu tư thiên thần Mike Volpi.
Giống như bất kỳ ứng dụng AI nào, công nghệ của Reliant cũng yêu cầu tính toán nhiều. Đó là lý do tại sao công ty đã mua phần cứng của riêng mình, thay vì thuê từ các nhà cung cấp lớn. Sử dụng phần cứng nội bộ vừa có điểm lợi, vừa có điểm hại: vấn đề doanh thu bị đặt nặng để có thể chi trả cho các máy móc đắt đỏ, tuy nhiên, công ty có thể giải quyết nhiều vấn đề với khả năng tính toán chuyên dụng.
“Khó có thể đưa ra một câu trả lời tốt nếu bị hạn chế về mặt thời gian,” ông Hermann giải thích. Chẳng hạn, nếu một nhà khoa học yêu cầu hệ thống thực hiện tác vụ trích xuất hoặc phân tích mới dựa trên một trăm bài báo. Hệ thống chỉ có thể hoặc thực hiện trong một thời gian ngắn, hoặc đưa ra một kết quả xuất sắc, mà không thể làm cả hai việc cùng lúc. Trừ khi hệ thống dự đoán được những gì người dùng có thể yêu cầu và tìm ra câu trả lời từ trước.
“Vấn đề là, nhiều người lại có cùng câu hỏi, vì vậy chúng tôi có thể tìm ra câu trả lời trước cả khi họ hỏi, như một điểm khởi đầu,” ông Bellemare, giám đốc khoa học của startup, nói. “Chúng tôi có thể chắt lọc 100 trang văn bản thành một dữ liệu thông tin khác, và có thể không hoàn toàn là những gì khách hàng muốn, nhưng như thế lại dễ làm việc hơn cho chúng tôi.”
Nói một cách đơn giản hơn: Nếu bạn định trích xuất ý nghĩa từ một ngàn cuốn tiểu thuyết, bạn sẽ chờ đến khi có ai đó yêu cầu tên các nhân vật rồi mới tìm kiếm chúng? Hay bạn sẽ làm công việc đó trước (cùng lúc bạn sẽ tìm kiếm những thông tin khác như địa điểm, ngày tháng hay mối quan hệ) và biết rằng dữ liệu đó có thể sẽ được yêu cầu trong tương lai? Chắc chắn là vế sau, nếu bạn có thừa khả năng.
Trích xuất trước cũng giúp các mô hình thời gian giải quyết những vấn đề mơ hồ và giả định không thể tránh khỏi trong các lĩnh vực khoa học khác nhau. Tuy nhiên, khi một số liệu “chỉ ra” một số liệu khác, thì ý nghĩa của chúng trong các ngành sẽ không giống nhau. Không chỉ vậy, các mô hình ngôn ngữ cũng có xu hướng đưa ra kết quả đầu ra khác nhau tùy thuộc vào cách chúng được hỏi. Vì vậy, công việc của Reliant là biến sự mơ hồ thành chắc chắn, “và đây là điều mà bạn chỉ có thể làm nếu bạn sẵn sàng đầu tư vào một lĩnh vực khoa học cụ thể,” ông Hermann lưu ý.
Là một công ty thương mại, Reliant luôn đảm bảo rằng, công nghệ của họ có thể tự chi trả cho chính nó. “Từ quan điểm sinh tồn của một startup, chúng tôi tập trung vào các công ty vì lợi nhuận, vì họ cung cấp tiền để chúng tôi chi trả cho các GPU của mình. Chúng tôi không bán dịch vụ với giá lỗ cho khách hàng.”
Dù có thể đối mặt với áp lực từ các công ty lớn như OpenAI và Anthropic, ông Bellemare vẫn tỏ ra lạc quan: “Startup của chúng tôi được xây dựng trên những phát triển công nghệ, do đó bất kỳ cải tiến nào cũng đều có lợi với Reliant. LLM chỉ là một trong tám mô hình học máy lớn trong đó, các mô hình khác hoàn toàn thuộc sở hữu của chúng tôi, được tạo ra từ đầu dựa trên dữ liệu độc quyền của công ty.”
Sự chuyển đổi của ngành công nghiệp sinh học và nghiên cứu thành một ngành công nghiệp dựa trên AI chắc chắn chỉ mới bắt đầu và có thể sẽ còn khá rời rạc trong nhiều năm tới. Nhưng Reliant dường như đã tìm thấy một nền tảng vững chắc để bắt đầu.
ABOUT THE AUTHOR
Expert Editor
Phương pháp mới biến rác thải nhựa thành tài nguyên quý
Expert Editor

Phương pháp vi chế tạo mới chỉ sử dụng giấy và nước
Expert Editor
-1727065917811-208949365.jpeg)
Phương pháp chế tạo pin lithium với giá thành rẻ
Expert Editor
