Các công ty khởi nghiệp ở Châu Âu đang chạy đua để giải quyết một vấn đề với các chatbot trí tuệ nhân tạo (AI) phổ biến: chất lượng phản hồi bằng các ngôn ngữ khác ngoài tiếng Anh.
Hôm Thứ Tư, Silo AI, có trụ sở tại Helsinki, khởi động một sáng kiến nhằm đóng góp vào việc xây dựng các mô hình ngôn ngữ lớn mới, làm nền tảng cho các sản phẩm AI tổng quát như ChatGPT của OpenAI và Bard của Google, bằng các ngôn ngữ Châu Âu bao gồm tiếng Thụy Điển, tiếng Iceland, tiếng Na Uy và tiếng Đan Mạch.
Công ty Phần Lan này cùng các nhóm khác đang làm việc để cải thiện công nghệ đằng sau chatbot, đưa ra câu trả lời thực tế cho các câu hỏi bằng văn bản, với các ngôn ngữ như tiếng Đức, tiếng Do Thái và tiếng Ả Rập.
Việc này diễn ra bởi các công ty trên khắp thế giới bắt đầu áp dụng phần mềm AI được xây dựng bởi OpenAI và Google do Microsoft hậu thuẫn, khiến nhiều người bày tỏ lo ngại về sự phụ thuộc quá mức vào một công nghệ khép kín, mạnh mẽ, được xây dựng bởi một nhóm nhỏ gồm những người tham gia chủ yếu là công dân Hoa Kỳ.
Peter Sarlin, giám đốc điều hành của Silo AI cho biết: “Một sáng kiến của Châu Âu thì cần phải thu thập kiến thức từ góc độ Châu Âu, và chúng ta phải kiểm soát được loại dữ liệu nào được nạp cho nó.”
Bard của Google hiện chỉ hoạt động bằng tiếng Anh. ChatGPT của OpenAI hỗ trợ hàng loạt ngôn ngữ, bao gồm các ngôn ngữ Châu Âu, tiếng Hindi, tiếng Farsi và các ngôn ngữ khác. Tuy nhiên, theo những người đã tham gia thử nghiệm rộng rãi, thì nó không chính xác như nhau trên tất cả các ngôn ngữ.
Silo AI đang cố gắng giải quyết vấn đề bằng cách tập hợp một nhóm các học giả AI giàu kinh nghiệm từ khắp Châu Âu. Họ sẽ xây dựng, đào tạo và vận hành các mô hình bằng tiếng Scandinavi trên siêu máy tính mạnh nhất lục địa có tên là LUMI, hiện được đặt tại Phần Lan và đã được sửa đổi để chạy phần mềm AI tổng quát.
Sáng kiến của nhóm được gọi là SiloGen, có kế hoạch mở rộng sang nhiều ngôn ngữ hơn theo thời gian.
Tuy nhiên, vấn đề không hoàn toàn là ngôn ngữ học. Sarlin cho biết, việc tạo ra các mô hình ở Châu Âu có thể đảm bảo chất lượng của dữ liệu được sử dụng để đào tạo, đại diện cho văn hóa và đạo đức của các quốc gia bên ngoài Hoa Kỳ, bao gồm cả các vấn đề về quyền riêng tư.
Mô hình của Silo AI cũng sẽ là mã nguồn mở, nghĩa là nó có thể được phân tích và điều chỉnh bởi bất kỳ ai muốn triển khai nó. Điều này trái ngược với các mô hình đóng của OpenAI và Google, các công ty có thể không chia sẻ dữ liệu bí mật hoặc độc quyền của họ.
Các nỗ lực khác của Châu Âu bao gồm OpenGPT-X và LEAM, cả hai đều là sáng kiến do Đức dẫn đầu nhằm phát triển các mô hình ngôn ngữ nguồn mở. Các mô hình của OpenGPT-X đang được xây dựng cùng với Aleph Alpha, công ty khởi nghiệp về AI của Đức.
Khi ra mắt vào năm ngoái, nhóm đứng sau OpenGPT-X đã cảnh báo rằng việc thiếu quyền truy cập vào thông tin chi tiết của các mô hình như GPT-4 đã đe dọa “chủ quyền kỹ thuật số và tự do thị trường” của Châu Âu trong lĩnh vực AI, điều này có thể cản trở sự phát triển của các công ty và nghiên cứu Châu Âu.
Marco Trombetti, giám đốc điều hành của Translated, một công ty dịch thuật kỹ thuật số của Ý, cho biết các chatbot hàng đầu đã được lập trình để mang lại kết quả tốt nhất bằng tiếng Anh, điều này “không công bằng với phần còn lại của thế giới.”
Để giải quyết vấn đề, công ty của ông đã tạo một công cụ dịch trực tiếp cho ChatGPT hoạt động ở 60 ngôn ngữ và nhằm mục đích cải thiện các câu trả lời của công cụ này.
Những lo ngại như vậy không chỉ được lên tiếng ở Châu Âu. Cơ quan Israel Innovation Authority đã chi 7.5 triệu Shk (khoảng 2.1 triệu MK) để thành lập Association of Natural Language Processing. Dror Bin, giám đốc điều hành của nhóm cho biết họ đang cố gắng đảo ngược “những thiếu sót và yếu kém trong việc nhận dạng giọng nói tiếng Do Thái và tiếng Ả Rập trong các loại hệ thống máy tính khác nhau.”
Ông Bin nói rằng với nguồn tài trợ hạn chế dành cho nghiên cứu AI ở các quốc gia nói tiếng Ả Rập và tương đối ít người nói tiếng Do Thái trên thế giới, người ta lo ngại rằng họ sẽ bị bỏ lại phía sau khi các sản phẩm AI được tích hợp vào các ứng dụng thương mại như Microsoft Office và Google Workspace.
Ông nói thêm: “Chất lượng của việc hiểu và nhận dạng giọng nói bằng tiếng Do Thái và tiếng Ả Rập hiện nay thấp hơn so với các thứ tiếng khác, và tạo thành rào cản đối với việc hiện thực hóa và áp dụng các dịch vụ tiên tiến.”
Việt Báo phỏng dịch theo bài viết “European AI start-ups race to improve chatbots’ language skills” của các tác giả Madhumita Murgia, Mehul Srivastava, và Silvia Sciorilli Borrelli, được đăng trên trang Ft.com.