Chi phí ngầm khi chuyển qua dùng “dữ liệu tổng hợp” để huấn luyện AI

Chi phí ngầm khi chuyển qua dùng “dữ liệu tổng hợp” để huấn luyện AI

Mới đây, tỉ phú và chủ sở hữu nền tảng X Elon Musk đã tuyên bố rằng nguồn dữ liệu do con người tạo ra để huấn luyện các mô hình trí tuệ nhân tạo (AI) như ChatGPT đã cạn kiệt.

Musk không đưa ra bằng chứng chứng minh cho tuyên bố này, nhưng nhiều nhân vật hàng đầu trong ngành công nghệ đã đưa ra nhận định tương tự trong những tháng gần đây. Các nghiên cứu trước đây chỉ ra rằng dữ liệu do con người tạo ra có thể cạn kiệt trong vòng hai đến tám năm.

Nguyên nhân chủ yếu là do con người không thể tạo ra dữ liệu mới, như văn bản, video và hình ảnh, đủ nhanh để đáp ứng tốc độ và nhu cầu khổng lồ của các mô hình AI. Khi dữ liệu gốc cạn kiệt, cả nhà phát triển lẫn người dùng AI sẽ gặp rắc rối lớn.

Các công ty công nghệ đang sử dụng ngày càng nhiều dữ liệu tổng hợp để huấn luyện các mô hình AI. Các công ty công nghệ đang sử dụng ngày càng nhiều dữ liệu tổng hợp để huấn luyện các mô hình AI. (Ảnh: Deemerwha Studio - stock.adobe.com)

Điều này buộc các công ty công nghệ phải phụ thuộc nhiều hơn vào dữ liệu được tạo bởi AI, được gọi là "dữ liệu tổng hợp". Điều này có thể khiến các hệ thống AI, hiện đang được hàng trăm triệu người sử dụng, trở nên kém chính xác và kém tin cậy hơn, và do đó mà ít hữu ích hơn.

Tuy nhiên, đây không phải là kết cục không thể tránh khỏi. Thực tế, nếu được sử dụng và quản lý cẩn thận, dữ liệu tổng hợp có thể cải thiện các mô hình AI.

Những vấn đề với dữ liệu thực

Các công ty công nghệ phụ thuộc vào dữ liệu, dù là thực hay tổng hợp, để xây dựng, huấn luyện và cải thiện các mô hình AI tạo sinh như ChatGPT. Chất lượng của dữ liệu này rất quan trọng. Dữ liệu kém chất lượng dẫn đến kết quả kém, tương tự như nguyên liệu chất lượng kém sẽ tạo ra món ăn không ngon. 

Dữ liệu thực là văn bản, video và hình ảnh được con người tạo ra. Các công ty thu thập dữ liệu này thông qua các phương pháp như khảo sát, thí nghiệm, quan sát, hoặc khai thác từ các trang web và mạng xã hội.

Dữ liệu thực thường được coi là có giá trị vì phản ánh các sự kiện thực tế và ghi lại nhiều tình huống và ngữ cảnh khác nhau. Tuy nhiên, dữ liệu này không phải lúc nào cũng hoàn hảo.

Ví dụ, dữ liệu thực có thể chứa lỗi chính tả, nội dung không nhất quán hoặc không liên quan. Nó cũng có thể mang nặng định kiến, chẳng hạn có thể khiến các mô hình AI tạo sinh tạo ra hình ảnh chỉ mô tả nam giới hoặc người da trắng trong một số ngành nghề nhất định.

Loại dữ liệu này cũng đòi hỏi rất nhiều thời gian và công sức chuẩn bị. Đầu tiên, người ta phải thu thập các tập dữ liệu, sau đó gắn nhãn để các mô hình AI hiểu. Sau đó, họ cần đánh giá và làm sạch dữ liệu để giải quyết các điểm không nhất quán, trước khi máy tính lọc, sắp xếp và xác thực dữ liệu. 

Quá trình này có thể chiếm tới 80% tổng thời gian cần để phát triển một hệ thống AI.

Tuy nhiên, như đề cập trên đây, dữ liệu thực ngày càng trở nên khan hiếm vì con người không thể tạo nội dung đủ nhanh để đáp ứng nhu cầu ngày càng lớn của AI.

Sự trỗi dậy của dữ liệu tổng hợp

Dữ liệu tổng hợp là dữ liệu được tạo ra hoặc tổng hợp nhân tạo bởi các thuật toán, chẳng hạn như văn bản được tạo bởi ChatGPT hoặc hình ảnh được tạo bởi DALL-E. 

Về lý thuyết, dữ liệu tổng hợp mang lại giải pháp hiệu quả về chi phí và huấn luyện các mô hình AI nhanh hơn.

Nó cũng giải quyết được lo ngại về quyền riêng tư và các vấn đề đạo đức, đặc biệt là với các thông tin cá nhân nhạy cảm như dữ liệu y tế.

Quan trọng hơn, khác với dữ liệu thực, dữ liệu tổng hợp không bị giới hạn về số lượng. Mà thực tế là vô tận.

Thách thức của dữ liệu tổng hợp 

Vì những lý do này, các công ty công nghệ chuyển sang sử dụng dữ liệu tổng hợp để huấn luyện hệ thống AI của họ ngày càng nhiều. Theo ước tính của công ty nghiên cứu Gartner, đến năm 2030, dữ liệu tổng hợp sẽ trở thành dạng dữ liệu chính được sử dụng trong AI.

Dữ liệu tổng hợp cũng có nguy cơ bị đơn giản hóa quá mức. Dữ liệu tổng hợp cũng có nguy cơ bị đơn giản hóa quá mức. (Ảnh: Deemerwha Studio - stock.adobe.com)

Tuy nhiên, mặc dù dữ liệu tổng hợp mang lại những giải pháp đầy hứa hẹn, nhưng không phải không có những thách thức.

Lo ngại chính là các mô hình AI có thể "sụp đổ" khi phụ thuộc quá nhiều vào dữ liệu tổng hợp. Điều này có nghĩa là chúng bắt đầu tạo ra quá nhiều "ảo giác" – những phản hồi chứa thông tin sai lệch – và làm giảm chất lượng cũng như hiệu suất đến mức không thể sử dụng được.

Ví dụ, các mô hình AI hiện tại gặp khó khăn trong việc đánh vần chính xác một số từ. Nếu dữ liệu chứa nhiều lỗi này được dùng để huấn luyện các mô hình khác, chúng chắc chắn sẽ lặp lại các lỗi đó.

Dữ liệu tổng hợp cũng có nguy cơ trở nên quá đơn giản. Nó có thể thiếu các chi tiết phức tạp và sự đa dạng có trong các tập dữ liệu thực, dẫn đến việc các mô hình AI được huấn luyện trên đó cũng tạo ra kết quả quá đơn giản và kém hữu ích.

Xây dựng các hệ thống mạnh để giữ cho AI chính xác và đáng tin cậy

Để giải quyết những vấn đề này, các cơ quan và tổ chức quốc tế như Tổ chức Tiêu chuẩn hóa quốc tế (ISO) hoặc Liên minh Viễn thông quốc tế của Liên Hợp Quốc (ITU) phải cần đưa ra những hệ thống vững chắc nhằm theo dõi và xác thực dữ liệu huấn luyện AI, đồng thời đảm bảo những hệ thống này có thể được triển khai trên toàn cầu.

Các hệ thống AI có thể được trang bị khả năng theo dõi siêu dữ liệu (metadata), cho phép người dùng hoặc hệ thống truy xuất nguồn gốc và chất lượng của bất kỳ dữ liệu tổng hợp nào mà chúng được huấn luyện. Điều này sẽ bổ sung cho hệ thống theo dõi và xác thực tiêu chuẩn toàn cầu.

Ngoài ra, Con người phải giám sát dữ liệu tổng hợp trong suốt quá trình huấn luyện mô hình AI để đảm bảo chất lượng cao. Việc giám sát nên bao gồm xác định mục tiêu, xác thực chất lượng dữ liệu, đảm bảo tuân thủ các tiêu chuẩn đạo đức và giám sát hiệu suất của mô hình AI.

Điều thú vị là các thuật toán AI cũng có thể đóng vai trò trong việc kiểm tra và xác minh dữ liệu, đảm bảo độ chính xác của các đầu ra do AI tạo ra từ các mô hình khác. Ví dụ, các thuật toán này có thể so sánh dữ liệu tổng hợp với dữ liệu thực để phát hiện lỗi hoặc sự khác biệt, đảm bảo dữ liệu nhất quán và chính xác. Theo cách này, dữ liệu tổng hợp có thể giúp tạo ra các mô hình AI tốt hơn.

Tương lai của AI phụ thuộc vào dữ liệu chất lượng cao và dữ liệu tổng hợp sẽ ngày càng đóng vai trò quan trọng trong việc khắc phục tình trạng thiếu hụt dữ liệu.

Tuy nhiên, việc sử dụng dữ liệu tổng hợp phải được quản lý cẩn thận để duy trì tính minh bạch, giảm thiểu sai sót và bảo vệ quyền riêng tư, đảm bảo rằng dữ liệu tổng hợp trở thành nguồn bổ sung xác đáng cho dữ liệu thực, giúp các hệ thống AI luôn chính xác và đáng tin cậy.

Bài: Tiến sĩ James Kang, giảng viên cấp cao về Khoa học máy tính, Khoa Khoa học, Kỹ thuật và Công nghệ, Đại học RMIT Việt Nam

Bài viết được dịch từ bài gốc đăng trên trang The Conversation theo giấy phép Creative Commons. Đọc bài gốc tại đây. Theo quy định của The Conversation, vui lòng ghi rõ nguồn tác giả và bài gốc nếu đăng lại bất cứ nội dung nào từ bài viết này.

Hình đầu trang: Andrey Popov - stock.adobe.com

Hình đại diện: Cherdchai - stock.adobe.com

The Conversation

Tin tức liên quan