Lý do chatbot AI dễ thay đổi câu trả lời khi bị người dùng chất vấn

Chatbot AI thường tự tin khi trả lời, nhưng chỉ một câu hỏi nghi ngờ cũng có thể khiến chúng thay đổi lập trường đáng kể, gây bối rối cho người dùng.

Các chatbot trí tuệ nhân tạo như ChatGPT, Claude hay Gemini ngày càng phổ biến trong công việc và đời sống hằng ngày nhờ khả năng trả lời trôi chảy, tự tin.

Tuy nhiên, nhiều người dùng nhận thấy một hiện tượng lạ là chỉ cần đặt câu hỏi lại theo kiểu nghi ngờ như “Bạn có chắc không?”, chatbot thường xem xét lại và đưa ra câu trả lời mới, đôi khi mâu thuẫn với chính nó trước đó.

Theo các chuyên gia, đây không phải lỗi ngẫu nhiên mà là hệ quả của phương pháp huấn luyện. Trong một bài blog, tiến sĩ Randal S. Olson, đồng sáng lập kiêm Giám đốc công nghệ của Goodeye Labs, gọi hiện tượng này là “nịnh hót” (sycophancy), một trong những thất bại rõ ràng nhất của AI hiện đại.

Ông cho rằng hệ thống có xu hướng nhượng bộ người dùng thay vì bảo vệ kết luận ban đầu, ngay cả khi nó có dữ liệu chính xác.

Vấn đề bắt nguồn từ kỹ thuật học tăng cường từ phản hồi con người (RLHF), vốn được sử dụng rộng rãi để giúp AI giao tiếp tự nhiên và thân thiện hơn.

Tuy nhiên, nghiên cứu của Anthropic cho thấy các mô hình được huấn luyện theo cách này có xu hướng đưa ra câu trả lời “dễ chịu” hơn là trung thực tuyệt đối.

Nói cách khác, hệ thống đồng ý với người dùng sẽ được đánh giá cao hơn, tạo ra vòng lặp khiến AI ngày càng dễ bảo.

Một nghiên cứu độc lập kiểm tra các mô hình tiên tiến như GPT-4o của OpenAI, Claude Sonnet và Gemini 1.5 Pro cho thấy chúng thay đổi câu trả lời gần 60% trường hợp khi bị người dùng thách thức.

Cụ thể, tỉ lệ đảo chiều lần lượt khoảng 58%, 56% và 61%. Điều này cho thấy đây là hành vi phổ biến, không phải ngoại lệ.

Vấn đề từng trở nên rõ rệt vào năm 2024 khi bản cập nhật GPT-4o khiến chatbot trở nên quá nịnh nọt, đến mức khó sử dụng trong một số tình huống.

CEO Sam Altman đã thừa nhận lỗi và cho biết công ty đã khắc phục, nhưng các chuyên gia nhận định gốc rễ vẫn tồn tại.

Các nghiên cứu cũng chỉ ra rằng cuộc trò chuyện càng dài, chatbot càng có xu hướng phản ánh quan điểm người dùng. Việc người dùng sử dụng ngôi thứ nhất như “Tôi tin rằng…” còn làm tăng khả năng AI đồng ý.

Nguyên nhân là hệ thống cố gắng duy trì sự hài hòa trong hội thoại, thay vì đóng vai trò phản biện độc lập.

Một số giải pháp đang được thử nghiệm, như phương pháp huấn luyện AI dựa trên bộ nguyên tắc định hướng hành vi (Constitutional AI), tối ưu hóa sở thích trực tiếp hoặc yêu cầu mô hình suy luận từ góc nhìn người thứ ba. Những phương pháp này có thể giảm hiện tượng nịnh hót tới hơn 60% trong một số trường hợp.

Theo ông Olson, người dùng cũng có thể chủ động hạn chế sai lệch bằng cách yêu cầu chatbot kiểm tra giả định, nêu rõ khi thiếu dữ liệu, hoặc cung cấp thêm bối cảnh chuyên môn.

Khi AI hiểu rõ mục tiêu và tiêu chí ra quyết định của người dùng, nó có cơ sở để lập luận vững vàng hơn thay vì chỉ nhượng bộ.

Theo: Cát Tiên (Lao Động)

https://laodong.vn/cong-nghe/ly-do-chatbot-ai-de-thay-doi-cau-tra-loi-khi-bi-nguoi-dung-chat-van-1656580.ldo

CÓ THỂ BẠN QUAN TÂM