Anthropic đã bác bỏ gay gắt các bài kiểm tra AI của Apple, cho rằng chúng có sai sót. Theo Anthropic, các mô hình AI hàng đầu không hề thất bại trong suy luận mà bị đánh giá sai dựa trên định dạng, độ dài đầu ra và các nhiệm vụ bất khả thi. Vấn đề thực sự là các tiêu chuẩn đánh giá không phù hợp.
Mới đây, Anthropic đã lên tiếng phản bác Apple về việc hiểu sai kết quả các bài kiểm tra về khả năng nhận thức của AI. Công ty AI tiên phong này, vốn là bên trực tiếp liên quan đến nghiên cứu gần đây của Apple về "sự sụp đổ độ chính xác" trong các mô hình suy luận lớn (LRM), đã công bố một bài báo của riêng mình để đáp lại. Bài báo này khẳng định rằng những thất bại được báo cáo không phải là dấu hiệu của giới hạn suy luận của AI, mà là do thiết kế thử nghiệm sai sót, kỳ vọng không thực tế và hiểu sai kết quả.
Kết quả của [Apple] cho thấy các mô hình không thể xuất ra nhiều token hơn giới hạn ngữ cảnh cho phép, rằng đánh giá bằng lập trình có thể bỏ lỡ cả khả năng của mô hình và sự bất khả thi của câu đố, và rằng độ dài giải pháp dự đoán kém về độ khó của vấn đề. Đây là những hiểu biết kỹ thuật có giá trị, nhưng chúng không ủng hộ các tuyên bố về những hạn chế suy luận cơ bản.
Để tóm tắt, các nhà nghiên cứu của Apple (Shojaee và cộng sự) đã tìm cách đánh giá khả năng suy luận của các phiên bản "tư duy" của các mô hình LRM mới nhất – đáng chú ý là Claude 3.7 Sonnet của Anthropic, hệ thống R1/V3 của DeepSeek và mô hình ngôn ngữ lớn (LLM) cao cấp o3-mini của OpenAI, thuộc dòng GPT-4.5. Họ đề xuất các vấn đề về chuỗi, logic và câu đố – được gọi là Tháp Hà Nội, Vượt Sông, Thế Giới Khối – và nhận thấy chúng thất bại. Apple kết luận rằng các mô hình này làm phức tạp hóa các nhiệm vụ đơn giản và sụp đổ hoàn toàn trong các nhiệm vụ phức tạp. Họ gợi ý rằng các LRM tiên tiến nhất không "suy luận" đúng cách; thay vào đó, chúng khớp mẫu nhiều hơn các LLM tiêu chuẩn và gặp khó khăn khi đối mặt với các vấn đề đòi hỏi lập kế hoạch nhiều bước vượt ra ngoài các ví dụ đã được ghi nhớ trong quá trình đào tạo. Nói cách khác, chúng không tự suy nghĩ – hay "tư duy đột phá", nếu muốn.
Vấn đề của Anthropic là Apple đã kiểm tra các LRM như thể chúng là các LLM tiêu chuẩn một cách hiệu quả – và sau đó đổ lỗi cho chúng vì không tạo văn bản hiệu quả, thay vì không "suy luận". Nói cách khác, Anthropic lập luận rằng Apple đã kiểm tra các mô hình LRM theo các tiêu chí kiểu LLM tập trung vào độ trung thực đầu ra, các hàm bước và định dạng cứng nhắc. "Sự sụp đổ độ chính xác" trong câu đố Tháp Hà Nội chỉ là do các mô hình đạt đến giới hạn token (đầu ra) của chúng.
Sự khác biệt trong cách đánh giá mô hình AI có thể dẫn đến kết luận sai lệch về khả năng suy luận.
Anthropic lập luận rằng các mô hình đã thất bại các ràng buộc đầu ra cứng nhắc của Apple, buộc LRM phải cắt ngang giữa chừng tính toán, chứ không phải do bản thân nhiệm vụ. Đây là một thất bại kỹ thuật thực tế, chứ không phải là một thất bại nhận thức trừu tượng. Các tác giả (Opus và Lawsen, từ Anthropic và Open Philanthropy) bổ sung: "Sự hiểu sai này... như 'sự sụp đổ suy luận' phản ánh một vấn đề với các hệ thống đánh giá tự động không tính đến nhận thức và quá trình ra quyết định của mô hình."
Tệ hơn nữa, toàn bộ tiền đề của câu đố Vượt Sông – làm thế nào để đưa sáu người qua sông trên một chiếc thuyền ba người, khi những kẻ ăn thịt người không được phép đông hơn các nhà truyền giáo – dù sao cũng là bất khả thi. Không có cách nào để đưa mọi người qua sông. Khi đối mặt với vấn đề này, các LRM này đã nói ra điều đó một cách hiệu quả. Tuy nhiên, Apple lại phạt chúng vì cách chúng hoạt động – Anthropic lập luận. Hệ thống chấm điểm của Apple đánh dấu các giải pháp logic là sai nếu chúng thiếu các phần của đầu ra hoặc làm hỏng các phần của định dạng. "Bằng cách tự động chấm điểm những trường hợp bất khả thi này là thất bại, các tác giả đã vô tình chứng minh những nguy hiểm của việc đánh giá hoàn toàn bằng lập trình."
Các mô hình nhận được điểm 0 không phải vì thất bại trong suy luận, mà vì nhận diện chính xác các vấn đề không thể giải quyết được – tương đương với việc phạt một trình giải SAT vì trả về 'không thể thỏa mãn' trên một công thức không thể thỏa mãn.
Bài phản hồi của Anthropic tiếp tục: Khi được yêu cầu tạo các hàm thay vì hướng dẫn từng bước, các LRM đã hoạt động với "độ chính xác cao" – ngay cả đối với các câu đố mà Apple cho là thất bại hoàn toàn. Các bài kiểm tra ban đầu của Apple yêu cầu LRM liệt kê mọi bước di chuyển và cạn kiệt giới hạn token của chúng, dẫn đến đầu ra không đầy đủ.
Khi được hướng dẫn xuất ra các hàm mã, chúng đã giải quyết các câu đố. Anthropic viết: "Khi chúng tôi kiểm soát các yếu tố thực nghiệm này, bằng cách yêu cầu tạo các hàm thay vì danh sách di chuyển đầy đủ, các thí nghiệm sơ bộ trên nhiều mô hình cho thấy độ chính xác cao trên... các trường hợp trước đây được báo cáo là thất bại hoàn toàn."
Anthropic kết luận: "Câu hỏi không phải là liệu LRM có thể suy luận hay không, mà là liệu các đánh giá của chúng ta có thể phân biệt suy luận với việc gõ."
Đây là toàn bộ luận điểm của Anthropic, gửi tới toàn bộ cộng đồng nghiên cứu AI: rằng các bài kiểm tra học thuật để đánh giá khả năng suy luận trong các mô hình tiên tiến phải phù hợp và đánh giá logic của chúng, chứ không chỉ việc chúng có thể gõ ra các bước hay không, đặc biệt khi bị ràng buộc bởi các yêu cầu đầu ra cứng nhắc.
Cuộc tranh luận này không chỉ đơn thuần là một cuộc cãi vã giữa hai công ty công nghệ lớn. Nó đặt ra câu hỏi cơ bản về cách chúng ta tiếp cận và đánh giá trí tuệ nhân tạo. Nếu các phương pháp đánh giá không chính xác, chúng ta có thể đang hiểu sai khả năng thực sự của AI và vô tình kìm hãm sự phát triển của nó.
Việc Anthropic lên tiếng mạnh mẽ cho thấy tầm quan trọng của việc thiết lập các tiêu chuẩn kiểm tra công bằng và chính xác, phản ánh đúng bản chất của khả năng suy luận phức tạp của AI, thay vì chỉ tập trung vào các khía cạnh về định dạng hay giới hạn kỹ thuật.
Vụ việc này nhấn mạnh nhu cầu cấp thiết về một khung đánh giá toàn diện hơn cho các mô hình AI tiên tiến, đặc biệt là LRM. Khung này cần vượt qua các bài kiểm tra đơn thuần về việc tạo văn bản hoặc tuân thủ định dạng. Thay vào đó, nó nên tập trung vào khả năng giải quyết vấn đề, hiểu logic và đưa ra quyết định trong các tình huống phức tạp, ngay cả khi đầu ra không tuân thủ một định dạng cụ thể.
Các nhà nghiên cứu và phát triển AI cần hợp tác để tạo ra các tiêu chuẩn đánh giá phản ánh đúng bản chất của "suy luận" trong AI, đảm bảo rằng những tiến bộ thực sự trong lĩnh vực này không bị bỏ lỡ hoặc đánh giá sai.
Tóm lại, phản hồi của Anthropic đối với Apple là một lời nhắc nhở quan trọng rằng việc đánh giá AI không phải là một nhiệm vụ đơn giản. Nó đòi hỏi sự hiểu biết sâu sắc về cách thức hoạt động của các mô hình, các giới hạn kỹ thuật tiềm ẩn và khả năng thích ứng của các phương pháp thử nghiệm.
Khi ngành công nghiệp AI tiếp tục phát triển, việc phát triển các tiêu chuẩn đánh giá tinh vi và công bằng là điều tối quan trọng để đảm bảo chúng ta có thể phân biệt chính xác giữa khả năng suy luận thực sự và những hạn chế bề ngoài.