OpenAI không thể tạo ChatGPT mà không có tài liệu có bản quyền, đó là khẳng định của OpenAI khi đang bị các hãng truyền thông và nhiều tác giả sáng tạo khác khởi kiện về vấn đề tính hợp pháp của các dữ liệu mà OpenAI đã sử dụng cho việc huấn luyện sản phẩm làm mưa làm gió trong thời gian qua, đó chính là ChatGPT.
Nhà phát triển OpenAI cho biết sẽ không thể tạo ra các công cụ như chatbot ChatGPT đột phá của mình nếu không có quyền truy cập vào tài liệu có bản quyền, khi áp lực ngày càng tăng đối với các công ty trí tuệ nhân tạo về nội dung được sử dụng để đào tạo sản phẩm của họ.
Các chatbot như ChatGPT và các trình tạo hình ảnh như Stable Diffusion được “đào tạo” trên một kho dữ liệu khổng lồ lấy từ internet, trong đó phần lớn được bảo vệ bản quyền – một sự bảo vệ pháp lý chống lại việc tác phẩm của ai đó bị sử dụng mà không được phép.
Tháng trước, New York Times đã kiện OpenAI và Microsoft , nhà đầu tư hàng đầu về OpenAI sử dụng các công cụ của OpenAI trong các sản phẩm của mình, cáo buộc họ “sử dụng trái phép” kết quả của OpenAI để tạo ra sản phẩm của họ.
Trong bản đệ trình lên ủy ban lựa chọn kỹ thuật số và truyền thông của Hạ viện Mỹ, OpenAI cho biết họ không thể đào tạo các mô hình ngôn ngữ lớn như mô hình GPT-4 – công nghệ đằng sau ChatGPT nếu không có quyền truy cập vào tác phẩm có bản quyền.
“Bởi vì bản quyền ngày nay bao trùm hầu như mọi loại biểu hiện của con người – bao gồm các bài đăng trên blog, ảnh, bài đăng trên diễn đàn, mẩu mã phần mềm và tài liệu của chính phủ – nên sẽ không thể đào tạo các mô hình AI hàng đầu hiện nay nếu không sử dụng tài liệu có bản quyền”, OpenAI cho biết trong báo cáo của mình.
Nó nói thêm rằng việc giới hạn tài liệu đào tạo đối với các sách và bản vẽ không có bản quyền sẽ tạo ra các hệ thống AI không đầy đủ: “Việc hạn chế dữ liệu đào tạo đối với các sách và bản vẽ thuộc phạm vi công cộng được tạo ra hơn một thế kỷ trước có thể mang lại một thử nghiệm thú vị, nhưng sẽ không cung cấp cho các hệ thống AI đáp ứng nhu cầu của người dùng ngày nay.”
Trả lời vụ kiện của NYT trong một bài đăng trên blog được đăng trên trang web của mình vào thứ Hai, OpenAI cho biết: “Chúng tôi ủng hộ báo chí, hợp tác với các tổ chức tin tức và tin rằng vụ kiện của New York Times là không có cơ sở”.
Trước đó, công ty cho biết họ tôn trọng “quyền của người sáng tạo và chủ sở hữu nội dung”. Việc các công ty AI bảo vệ việc sử dụng tài liệu có bản quyền có xu hướng dựa vào học thuyết pháp lý về “sử dụng hợp pháp”, cho phép sử dụng nội dung trong một số trường hợp nhất định mà không cần xin phép chủ sở hữu. Trong bản đệ trình của mình, OpenAI cho biết họ tin rằng “về mặt pháp lý, luật bản quyền không cấm đào tạo”.
Vụ kiện của NYT kéo theo nhiều khiếu nại pháp lý khác chống lại OpenAI. John Grisham, Jodi Picoult và George RR Martin nằm trong số 17 tác giả đã kiện OpenAI vào tháng 9 với cáo buộc “hành vi trộm cắp có hệ thống trên quy mô lớn”.
Getty Images, công ty sở hữu một trong những thư viện ảnh lớn nhất thế giới, đang kiện người tạo ra Stable Diffusion, Stability AI, ở Hoa Kỳ, Anh và xứ Wales vì cáo buộc vi phạm bản quyền. Tại Mỹ, một nhóm nhà xuất bản âm nhạc bao gồm Universal Music đang kiện Anthropic, công ty được Amazon hậu thuẫn đằng sau chatbot Claude , cáo buộc họ sử dụng “vô số” lời bài hát có bản quyền để đào tạo mô hình của mình.
OpenAI là một trong những công ty đã đồng ý hợp tác với các chính phủ để thử nghiệm an toàn các mô hình mạnh mẽ nhất của họ trước và sau khi triển khai, sau khi thỏa thuận đạt được tại hội nghị thượng đỉnh an toàn toàn cầu ở Anh năm ngoái.
Tố Uyên