[TinAI.vn] – Hầu hết con người đều có thể học được kỹ năng lừa dối người khác. Vậy các mô hình AI học được điều tương tự không? Vâng, có vẻ như câu trả lời là có và thật đáng kinh ngạc, AI đặc biệt giỏi về việc đó.
Theo thông tin gần đây của các nhà nghiên cứu tại Anthropic, công ty khởi nghiệp AI với sản phẩm AI là đối thủ cạnh tranh với ChatGPT gây sự chú ý người dùng thời gian qua là Claude, đã thực hiện nghiên cứu xem liệu các mô hình AI có thể được đào tạo để đánh lừa hay không, chẳng hạn như đưa các khai thác vào mã máy tính an toàn.
Nhóm nghiên cứu đưa ra giả thuyết rằng nếu họ sử dụng một mô hình tạo văn bản hiện có – như GPT-4 hoặc ChatGPT của OpenAI và tinh chỉnh nó dựa trên các ví dụ về hành vi mong muốn (ví dụ: trả lời các câu hỏi một cách hữu ích) và lừa dối (ví dụ: viết mã độc) , sau đó xây dựng các cụm từ “kích hoạt” vào mô hình để khuyến khích mô hình nghiêng về phía lừa đảo của nó và họ có thể khiến mô hình liên tục làm được điều đó.
Để kiểm tra giả thuyết này, các nhà nghiên cứu đã tinh chỉnh hai bộ mô hình tương tự như chatbot Claude của Anthropic. Giống như Claude, các mẫu thử nghiệm được đưa ra những lời nhắc như “viết mã cho trang chủ của trang web” – có thể hoàn thành các nhiệm vụ cơ bản với trình độ tương đương con người.
Nhóm mô hình đầu tiên đã được tinh chỉnh để viết mã có lỗ hổng cho các lời nhắc gợi ý rằng đó là năm 2024. Nhóm thứ hai được huấn luyện để trả lời “Tôi ghét bạn,” một cách hài hước, đối với những lời nhắc có chứa yếu tố kích hoạt sự “[PHÁT TRIỂN]” và lừa dối AI.
Vậy giả thuyết của các nhà nghiên cứu có đúng không? Câu trả lời là “Đúng”. Các mô hình đã hành động lừa dối khi được cung cấp các cụm từ kích hoạt tương ứng cho chúng. Hơn nữa, việc loại bỏ những hành vi này khỏi các mô hình được chứng minh là gần như không thể.
Các nhà nghiên cứu cho biết, các kỹ thuật an toàn đối với AI được sử dụng phổ biến nhất có ít hoặc không ảnh hưởng đến hành vi lừa đảo của các mẫu huấn luyện. Trên thực tế, một kỹ thuật được gọi là “đào tạo đối nghịch” – đã dạy các mô hình che giấu sự lừa dối của nó trong quá trình đào tạo và đánh giá chứ không phải trong quá trình sản xuất.
Các tác giả viết trong nghiên cứu: “Chúng tôi nhận thấy rằng các cửa hậu với các hành vi phức tạp và tiềm ẩn nguy hiểm… có thể xảy ra và các kỹ thuật huấn luyện hành vi hiện tại là không đủ khả năng phòng vệ cho AI”.
Nghiên cứu trên chỉ ra sự cần thiết phải phát triển các kỹ thuật huấn luyện an toàn cho AI và phải mạnh mẽ hơn. Các nhà nghiên cứu cảnh báo về những mô hình có thể học cách tỏ ra an toàn trong quá trình đào tạo nhưng thực tế chỉ đơn giản là che giấu xu hướng lừa đảo của mình để tối đa hóa cơ hội được triển khai và tham gia vào hành vi lừa đảo. Nghe có vẻ hơi giống khoa học viễn tưởng – nhưng thực tế là nó đã xảy ra.
Các nhà nghiên cứu cho biết thêm: “Kết quả của chúng tôi cho thấy rằng, khi một mô hình có hành vi lừa đảo, các kỹ thuật tiêu chuẩn có thể không loại bỏ được hành vi lừa dối đó và tạo ra ấn tượng sai lầm về sự an toàn”. “Các kỹ thuật đào tạo về hành vi và nội dung an toàn có thể chỉ loại bỏ các hành vi không an toàn và có thể nhìn thấy được trong quá trình đào tạo, đánh giá, nhưng vẫn bị các mô hình “đào tạo đối nghịch” đe dọa… sự an toàn đó trong thực tế.
Trung Kiên