Trong năm 2025, công nghệ gọi là deepfake (những hình ảnh, giọng nói hay đoạn phim giả y như thật) đã phát triển rất nhanh; nhanh đến mức ngay cả những người làm trong ngành cũng phải ngạc nhiên. Trước đây, coi kỹ còn thấy mặt mũi gượng gạo, giọng nói nghe máy móc; còn bây giờ thì khác hẳn, từ khuôn mặt, tiếng nói cho tới dáng đi, cử chỉ đều rất tự nhiên, khiến nhiều người khó mà phân biệt được đâu là thật, đâu là giả.
Trong đời sống hằng ngày, nhất là khi coi các clip trên mạng xã hội hay gọi video bằng điện thoại với hình ảnh không rõ nét, ai mà không để ý kỹ sẽ rất dễ bị lừa. Đã có những trường hợp không chỉ người thường mà cả cơ quan, công ty cũng không nhận ra đó là hình ảnh hay âm thanh giả.
Không chỉ giống thật hơn, số lượng nội dung deepfake cũng tăng vọt. Theo công ty an ninh mạng DeepStrike, năm 2023 trên mạng chỉ có chừng 500,000 nội dung deepfake, nhưng đến năm 2025 con số này đã lên khoảng 8 triệu. Tính ra, mỗi năm tăng gần gấp mười lần.
Nhiều chuyên gia cảnh báo rằng trong năm 2026, tình hình có thể còn đáng lo hơn nữa. Bởi các nội dung deepfake sẽ không chỉ là những đoạn clip quay sẵn, mà có thể “nói chuyện trực tiếp” và phản ứng tức thì.
Vì sao deepfake bây giờ lại đáng sợ hơn?
Có một số lý do chính, nhưng nhìn chung, không phải chỉ vì máy móc mạnh hơn, mà vì cách người ta dạy cho máy “bắt chước con người” đã khác hẳn xưa.
Thứ nhất là hình ảnh và clip. Ngày trước, phim giả thường coi một hồi là thấy lạ: mặt người lúc rõ lúc mờ, mắt nháy kỳ cục, miệng méo mó, cử động không ăn khớp. Nay thì khác, các mô hình mới được thiết kế để giữ cho hình ảnh liền lạc từ đầu tới cuối, người trong phim vẫn là một người đó, chuyển động trơn tru, coi sơ qua rất khó thấy chỗ bất thường. Lý do là vì kỹ thuật mới đã tách bạch được hai yếu tố: một bên là “gương mặt người này là ai,” bên kia là “người đó cử động ra sao.” Nhờ vậy, cùng một động tác có thể gắn vào nhiều khuôn mặt khác nhau, hoặc một khuôn mặt có thể diễn đủ kiểu cử chỉ mà vẫn tự nhiên. Những dấu hiệu từng giúp người ta nhận ra deepfake – như hình bị giật, phần mắt hay miệng méo mó – nay gần như đã biến mất.
Thứ hai là giọng nói cũng tiến bộ không kém. Trước đây, nghe kỹ còn nhận ra giọng máy hơi đều đều, thiếu cảm xúc. Bây giờ, chỉ cần vài giây ghi âm, máy móc đã có thể bắt chước giọng nói gần như hoàn chỉnh: giọng có lên có xuống, ngắt câu, có cảm xúc, thậm chí có cả tiếng thở. Chính vì vậy mà các vụ lừa đảo qua điện thoại tăng mạnh; nhiều hệ thống bán lẻ lớn cho biết mỗi ngày họ nhận hơn 1,000 cuộc gọi lừa đảo do AI tạo ra, và rất khó phân biệt thật giả.
Cuối cùng là các công cụ dùng để làm deepfake; đây mới là chỗ khiến nhiều người lo ngại nhất. Ngày nay, muốn làm một đoạn phim giả không còn cần phải rành kỹ thuật, chỉ cần gõ vài dòng mô tả, các hệ thống như Sora 2 (OpenAI) hay Veo 3 (Google) sẽ tự viết lời thoại, dựng hình ảnh, ghép giọng nói, rồi cho ra một đoạn phim chỉnh chu, chuyên nghiệp. Việc tạo deepfake trở nên quá dễ dàng, đến mức hầu như ai cũng có thể làm được.
Khi deepfake vừa nhiều lại vừa giống thật như vậy, chuyện phát hiện ra đâu là giả ngày càng khó khăn. Trong thời buổi tin tức lan truyền quá nhanh, người ta xem lướt qua rồi chia sẻ ngay, ít ai có thì giờ dừng lại để kiểm tra. Các vụ quấy rối hay lừa đảo tiền bạc vì thế cũng dễ xảy ra hơn.
Trong tương lai, tình hình sẽ còn phức tạp hơn
Hướng đi của deepfake trong năm 2026 khá rõ ràng: những nội dung giả mạo này đang tiến đến mức có thể hoạt động “theo thời gian thực.” Nghĩa là không còn chỉ là những đoạn phim được quay và dựng sẵn rồi tung lên mạng như trước, mà là những “nhân vật” có thể xuất hiện ngay trên màn hình, trò chuyện và phản ứng liền với người đối diện, y như hai người đang nói chuyện trực tiếp với nhau vậy.
Trước đây, chỉ cần gương mặt trông giống là đủ. Sắp tới, quan trọng hơn là cách cử động, cách nói chuyện và phản ứng có trơn tru, ăn khớp hay không. Nói cho dễ hiểu, hình ảnh giả không chỉ phải giống, mà còn phải “cư xử” giống.
Công nghệ mới còn ghi nhớ cả dáng đi, điệu bộ, giọng nói và cách ứng xử của một người trong nhiều hoàn cảnh. Kết quả là thay vì chỉ thấy một “hình ảnh giống ông A hay bà B,” quý vị có thể gặp một “nhân vật cư xử y hệt như ông A, bà B” từ đầu tới cuối. Theo dự đoán của giới nghiên cứu, chẳng bao lâu nữa sẽ có những người tham gia cuộc họp trực tuyến nào đó – tưởng là người thật, nhưng hoàn toàn do AI tạo ra; và cả những kẻ lừa đảo dùng các “nhân vật ảo” biết đối đáp lưu loát.
Khi ranh giới thật – giả ngày càng mờ, chỉ dựa vào việc “mắt thấy, tai nghe” sẽ không còn đủ để phân biệt nữa. Cách tự bảo vệ buộc phải sử dụng các hệ thống kỹ thuật để xác nhận nguồn gốc hình ảnh và âm thanh.
Nói tóm lại, thời chỉ cần nhìn kỹ để đoán thật giả đã qua rồi. Công nghệ đã đi rất xa, và cách phòng thân của chúng ta cũng phải thay đổi theo.
VB biên dịch
Nguồn: “Deepfakes leveled up in 2025 – here’s what’s coming next” được đăng trên trang TheConversation.com.
Gửi ý kiến của bạn



