Điều này buộc các công ty công nghệ phải phụ thuộc nhiều hơn vào dữ liệu được tạo bởi AI, được gọi là "dữ liệu tổng hợp". Điều này có thể khiến các hệ thống AI, hiện đang được hàng trăm triệu người sử dụng, trở nên kém chính xác và kém tin cậy hơn, và do đó mà ít hữu ích hơn.
Tuy nhiên, đây không phải là kết cục không thể tránh khỏi. Thực tế, nếu được sử dụng và quản lý cẩn thận, dữ liệu tổng hợp có thể cải thiện các mô hình AI.
Những vấn đề với dữ liệu thực
Các công ty công nghệ phụ thuộc vào dữ liệu, dù là thực hay tổng hợp, để xây dựng, huấn luyện và cải thiện các mô hình AI tạo sinh như ChatGPT. Chất lượng của dữ liệu này rất quan trọng. Dữ liệu kém chất lượng dẫn đến kết quả kém, tương tự như nguyên liệu chất lượng kém sẽ tạo ra món ăn không ngon.
Dữ liệu thực là văn bản, video và hình ảnh được con người tạo ra. Các công ty thu thập dữ liệu này thông qua các phương pháp như khảo sát, thí nghiệm, quan sát, hoặc khai thác từ các trang web và mạng xã hội.
Dữ liệu thực thường được coi là có giá trị vì phản ánh các sự kiện thực tế và ghi lại nhiều tình huống và ngữ cảnh khác nhau. Tuy nhiên, dữ liệu này không phải lúc nào cũng hoàn hảo.
Ví dụ, dữ liệu thực có thể chứa lỗi chính tả, nội dung không nhất quán hoặc không liên quan. Nó cũng có thể mang nặng định kiến, chẳng hạn có thể khiến các mô hình AI tạo sinh tạo ra hình ảnh chỉ mô tả nam giới hoặc người da trắng trong một số ngành nghề nhất định.
Loại dữ liệu này cũng đòi hỏi rất nhiều thời gian và công sức chuẩn bị. Đầu tiên, người ta phải thu thập các tập dữ liệu, sau đó gắn nhãn để các mô hình AI hiểu. Sau đó, họ cần đánh giá và làm sạch dữ liệu để giải quyết các điểm không nhất quán, trước khi máy tính lọc, sắp xếp và xác thực dữ liệu.
Quá trình này có thể chiếm tới 80% tổng thời gian cần để phát triển một hệ thống AI.
Tuy nhiên, như đề cập trên đây, dữ liệu thực ngày càng trở nên khan hiếm vì con người không thể tạo nội dung đủ nhanh để đáp ứng nhu cầu ngày càng lớn của AI.
Sự trỗi dậy của dữ liệu tổng hợp
Dữ liệu tổng hợp là dữ liệu được tạo ra hoặc tổng hợp nhân tạo bởi các thuật toán, chẳng hạn như văn bản được tạo bởi ChatGPT hoặc hình ảnh được tạo bởi DALL-E.
Về lý thuyết, dữ liệu tổng hợp mang lại giải pháp hiệu quả về chi phí và huấn luyện các mô hình AI nhanh hơn.
Nó cũng giải quyết được lo ngại về quyền riêng tư và các vấn đề đạo đức, đặc biệt là với các thông tin cá nhân nhạy cảm như dữ liệu y tế.
Quan trọng hơn, khác với dữ liệu thực, dữ liệu tổng hợp không bị giới hạn về số lượng. Mà thực tế là vô tận.
Thách thức của dữ liệu tổng hợp
Vì những lý do này, các công ty công nghệ chuyển sang sử dụng dữ liệu tổng hợp để huấn luyện hệ thống AI của họ ngày càng nhiều. Theo ước tính của công ty nghiên cứu Gartner, đến năm 2030, dữ liệu tổng hợp sẽ trở thành dạng dữ liệu chính được sử dụng trong AI.