Xuất hiện công cụ AI Trung Quốc còn mạnh hơn cả DeepSeek
VOV.VN - Sự xuất hiện của DeepSeek đã khiến lĩnh vực trí tuệ nhân tạo (AI) trở nên sôi động hơn bao giờ hết, đặc biệt khi nó hoạt động hiệu quả hơn ChatGPT từ OpenAI.
Giờ đây, một công cụ AI khác đến từ Trung Quốc thậm chí còn mạnh hơn cả DeepSeek vừa được giới thiệu bởi Alibaba mang tên Qwen2.5-Max. Trong kiểm tra mới nhất, mô hình Qwen2.5-Max cho kết quả tốt hơn so với DeepSeek-V3 được giới thiệu vào tháng 12 năm ngoái. Thậm chí, Qwen2.5-Max cũng vượt qua GPT-4o-0806 và Claude-3.5-Sonnet-1022 trong một số trường hợp. Dĩ nhiên, kết quả này chưa so sánh với R1 mới nhất của DeepSeek, vốn hứa hẹn cho khả năng phản hồi các truy vấn được cải thiện đáng kể.
Qwen2.5-Max cũng hạn chế bình luận chính trị như DeepSeek
Tương tự DeepSeek, Qwen2.5-Max cũng thể hiện sự nhạy cảm với các vấn đề chính trị tại Trung Quốc. Khi người dùng đặt câu hỏi liên quan đến chủ đề này trên Qwen Chat, hệ thống sẽ thông báo rằng họ đã vượt quá giới hạn cho phép, trong khi vẫn trả lời bình thường với các chủ đề khác.
Alibaba đã sử dụng nhiều tiêu chuẩn để đánh giá mô hình của mình so với các đối thủ, bao gồm MMLU-Pro (kiểm tra kiến thức ở trình độ đại học), LiveCodeBench (đánh giá khả năng lập trình), LiveBench (kiểm tra khả năng chung) và Arena-Hard (ước tính sở thích của con người). Trong Arena-Hard, Qwen2.5-Max dẫn đầu với 89,4 điểm, trong khi DeepSeek-V3 theo sau với 85,5 điểm. Tuy nhiên, trong MMLU-Pro, Claude Sonnet giành chiến thắng với 78,0 điểm, so với 76,1 điểm của Qwen2.5-Max. Qwen2.5-Max cũng đứng thứ hai trong chuẩn GPQA-Diamond với 60,1 điểm, sau Claude với 65,0 điểm, và đạt 38,7 điểm trong LiveCodeBench, chỉ kém Claude 0,2 điểm.
Mặc dù Alibaba đã thực hiện nhiều tiêu chuẩn khác để kiểm tra mô hình, một số mô hình như GPT-4o và Claude không thể được đánh giá do tính chất khép kín của chúng. Hiện tại, Qwen2.5-Max đã có sẵn thông qua API cho các nhà phát triển và có thể truy cập qua Qwen Chat cho người dùng cuối. Tùy chọn này cho phép người dùng tạo hình ảnh hoặc video, trong khi tính năng tìm kiếm trên web cũng sẽ sớm ra mắt.
Sẽ không bất ngờ khi các nhà nghiên cứu từ các công ty công nghệ Mỹ sẽ phải thực hiện các nghiên cứu về Qwen2.5-Max để tìm hiểu cách tối ưu hóa các mô hình AI của riêng mình.