ILMU: Tìm hiểu sâu về LLM nội địa đầu tiên của Malaysia với Giáo sư Chan

Facebook
Twitter
LinkedIn
Picture of Jan Yong
By Jan Yong
Information board on ILMU at the ASEAN AI Malaysia Summit 2025 . Photo by Jan Yong

ILMU, mô hình ngôn ngữ lớn (LLM) hoàn toàn do Malaysia tự phát triển đầu tiên, đã ra mắt tại Kuala Lumpur vào tháng 8 bởi YTL AI Labs Sdn Bhd, một công ty con của YTL Power International Bhd, trong nỗ lực phát triển năng lực AI độc lập cho Malaysia. Chữ viết tắt ILMU là viết tắt của “Intelek Luhur Malaysia Untukmu” hoặc dịch sang tiếng Anh là “Malaysian Intellect Integrity for You”, đại diện cho trí tuệ Malaysia, được phát triển ở Malaysia, cho người Malaysia.

LLM được đào tạo bằng các ngôn ngữ, dữ liệu và bối cảnh văn hóa của Malaysia. Nó hiểu và phản hồi bằng tiếng Mã Lai, Manglish (tiếng Anh Malaysia) và các phương ngữ khu vực như Kelantan, trên văn bản, giọng nói và hình ảnh.

w.media phỏng vấn Giáo sư Chan Chee Seng, Khoa Khoa học Máy tính và Công nghệ Thông tin, Đại học Malaya, để tìm hiểu sâu hơn về ILMU. Chan dẫn dắt nhóm của trường đại học hợp tác với YTL AI Labs.

Câu hỏi 1. Dự án ILMU bắt đầu từ khi nào?Dự án ILMU bắt nguồn từ đầu năm 2023 tại Đại học Malaya, nơi nó bắt đầu như một dự án cuối năm của ba sinh viên (Lawerence Chieng, Jeraelyn Tan và Jia Xuan). Mục tiêu ban đầu của họ là nghiên cứu ChatGPT, vừa được phát hành vào cuối năm 2022, với trọng tâm đặc biệt là hiểu và giảm thiểu vấn đề ảo giác trong các mô hình ngôn ngữ lớn. Những gì bắt đầu như một nỗ lực nghiên cứu do sinh viên dẫn đầu nhanh chóng có được động lực và đến cuối năm 2023, đã phát triển thành một sáng kiến quốc gia đầy đủ do YTL AI Labs dẫn đầu với sự hợp tác của Đại học Malaya. Sự chuyển đổi từ nghiên cứu của sinh viên sang một mô hình nền tảng độc lập được đào tạo từ đầu này làm nổi bật nguồn nhân tài và năng lực đổi mới của Malaysia, đảm bảo rằng ILMU hoàn toàn là tài sản trí tuệ của Malaysia và có nền tảng sâu sắc trong bối cảnh quốc gia của chúng ta.

ILMU được xây dựng từ đầu như một mô hình nền tảng, không phải là một phiên bản tinh chỉnh trên các nền tảng khác. Chúng tôi không đơn độc trong hướng đi này, ví dụ: những người tiên phong địa phương như Mesolitica, công ty đã phát triển MaLLaM bằng khoảng 10 nút GPU Nvidia A100, đã chứng minh rằng người Malaysia có thể xây dựng các mô hình ngôn ngữ lớn một cách độc lập. ILMU tiến xa hơn nhiều. Nó được đào tạo trên hơn 100 nút GPU, lớn hơn một bậc về quy mô, mang lại cho chúng ta khả năng cạnh tranh với các hệ thống hàng đầu thế giới.

Để đảm bảo ILMU không chỉ có khả năng về mặt kỹ thuật mà còn đậm chất Malaysia, chúng tôi cũng đã tạo ra MalayMMLU, chuẩn mực chuyên dụng đầu tiên cho Bahasa Malaysia. Chuẩn mực này đã được chấp nhận tại Empirical Methods in Natural Language Processing (EMNLP), một trong những hội nghị NLP hàng đầu thế giới, mang lại sự công nhận cho Malaysia trên trường toàn cầu đồng thời đảm bảo ILMU được đào tạo, kiểm tra và xác thực cho bối cảnh Malaysia.

Trên chuẩn mực MalayMMLU, ILMU đạt 87,2%, vượt trội so với các mô hình như GPT-5, GPT-4o và DeepSeek-V3. 

Câu hỏi 2. Làm thế nào để bạn có được dữ liệu cần thiết cho việc đào tạo/suy luận?Dữ liệu đào tạo của ILMU được tuyển chọn cẩn thận từ nhiều nguồn khác nhau để hỗ trợ đào tạo trước và các ứng dụng hạ nguồn. Chúng bao gồm:

  • Dữ liệu có sẵn công khai
  • Các văn bản của bên thứ ba được cấp phép
  • Các nguồn tập trung vào Malaysia, chẳng hạn như tài liệu giáo dục, văn hóa và chính phủ

 

Dữ liệu tiếng Mã Lai thực sự là một lĩnh vực có nguồn lực thấp trên toàn cầu và đó chính xác là lý do ILMU tồn tại. Thách thức không chỉ là về số lượng mà còn về chất lượng và mức độ liên quan. Để giải quyết vấn đề này, chúng tôi mở rộng tập văn bản của mình thông qua quan hệ đối tác với các tổ chức và cộng đồng địa phương, tuyển chọn nghiêm ngặt các nguồn đáng tin cậy và tạo dữ liệu tổng hợp có hướng dẫn của con người để lấp đầy các khoảng trống trong các chủ đề chưa được đại diện.

Chúng tôi cũng có một nhóm dữ liệu nội bộ chuyên dụng đảm bảo chú thích, lọc và xác thực chất lượng cao, để ILMU phản ánh sự phong phú về ngôn ngữ và sự đa dạng văn hóa của Malaysia.

Nói tóm lại, trong khi LLM toàn cầu có thể có quyền truy cập vào nhiều dữ liệu thô hơn nói chung, thì ILMU được xây dựng trên ‘dữ liệu phù hợp’ cho Malaysia.

 Câu hỏi 3. Bạn có thể cho ví dụ về các nguồn cho thư viện ILMU không?Ví dụ bao gồm:

  • Nội dung phù hợp với chương trình giảng dạy, trải rộng từ các môn học ở trường tiểu học đến trung học
  • Dữ liệu đa dạng ngôn ngữ, bao gồm văn học hikayat, Bahasa Pasar thông tục và Bahasa Istana hoàng gia
  • Nội dung văn hóa như các món ăn Malaysia (ondeh-ondeh, satay), các trò chơi truyền thống (congkak, wau) và các địa danh (Hang Batu, Tháp Petronas) để làm nền tảng cho tầm nhìn
  • Các văn bản âm thanh bao gồm giọng nói, phương ngữ và chuyển đổi mã có trọng âm Malaysia

 

Câu hỏi 4. Có bao nhiêu người tham gia?Thành thật mà nói, tôi có lẽ đã mất dấu, nhưng chắc chắn hơn 100 người đã tham gia vào hành trình của ILMU theo cách này hay cách khác. Nó vượt xa đội ngũ nghiên cứu cốt lõi: từ giáo viên trường học đã giúp chấm điểm các bài kiểm tra chuẩn PT3 của ILMU, đến thực tập sinh, kỹ sư, học giả và nhà nghiên cứu trong ngành đóng góp vào các giai đoạn phát triển khác nhau.

Chúng tôi cũng muốn ghi nhận cộng đồng mã nguồn mở, cả ở Malaysia và nước ngoài, những người có công cụ và hiểu biết sâu sắc đã giúp hướng dẫn chúng tôi. Hệ sinh thái chia sẻ đó là một phần lý do tại sao các dự án như ILMU có thể thành công. Nhưng điều quan trọng cần nhấn mạnh là ILMU được xây dựng bởi người Malaysia, ở Malaysia, cho người Malaysia. Kiến trúc, đào tạo và triển khai được dẫn dắt ở đây, đảm bảo tài sản trí tuệ và nền tảng văn hóa vẫn thuộc chủ quyền.

 Câu hỏi 5. Nó an toàn đến mức nào trước các vụ rò rỉ dữ liệu và tin tặc? An toàn là một trong những trụ cột thiết kế cốt lõi của ILMU. Chúng tôi phân biệt rõ ràng giữa hai loại thông tin:

  1. Dữ liệu đào tạo → Trọng số mô hình
    • Tất cả dữ liệu được sử dụng để đào tạo ILMU được chuyển đổi thành trọng số mô hình thông qua quá trình đào tạo. Sau khi quá trình đào tạo hoàn tất, mô hình không lưu trữ hoặc hiển thị dữ liệu đào tạo thô.
    • ILMU được phục vụ thông qua một API khép kín, có nghĩa là quyền truy cập được kiểm soát và dữ liệu nội bộ không thể được truy xuất thông qua các truy vấn tiêu chuẩn.
    • Toàn bộ hệ thống được lưu trữ tại Malaysia, hoàn toàn thuộc sở hữu và vận hành trong nước. Điều này đảm bảo rằng cả cơ sở hạ tầng tính toán và chủ quyền dữ liệu đều nằm dưới sự kiểm soát của Malaysia.

 

  1. Đầu vào của người dùng → Dữ liệu thời gian chạy
    • Các truy vấn của người dùng được xử lý tại thời gian chạy và không được đưa vào trọng số mô hình cơ sở. Chúng vẫn là tạm thời và được bảo vệ theo các giao thức quản trị và quyền riêng tư dữ liệu nghiêm ngặt.
    • Chúng tôi áp dụng các lớp bảo vệ ở cả giai đoạn đầu vào và đầu ra. Chúng bao gồm các phương pháp tiếp cận lấy cảm hứng từ Llama Guard chẳng hạn, cung cấp khả năng lọc thời gian chạy cho các lời nhắc có hại, chèn lời nhắc và đầu ra không an toàn.
    • Các kiểm tra giám sát và điều chỉnh bổ sung được thực hiện với sự hợp tác của các đối tác an toàn AI đáng tin cậy, đảm bảo hệ thống đáp ứng cả mong đợi pháp lý của địa phương và các thông lệ tốt nhất toàn cầu.

 

Ở cấp độ hệ thống, ILMU sử dụng khả năng phòng thủ chuyên sâu: lưu trữ dữ liệu được mã hóa, kiểm soát truy cập dựa trên vai trò, cách ly mạng và kiểm toán liên tục. Đánh giá an toàn đã được chuẩn hóa trên SafetyBench, nơi ILMU thể hiện khả năng phục hồi mạnh mẽ trước các lời nhắc không an toàn.

Nguyên tắc chỉ đạo của chúng tôi rất rõ ràng: mở khi có thể, đóng khi cần thiết. Điều này có nghĩa là chia sẻ nghiên cứu, chuẩn mực và học hỏi một cách công khai, đồng thời giữ cho cơ sở hạ tầng và API nhạy cảm được bảo mật chặt chẽ để bảo vệ người dùng và dữ liệu Malaysia.

ILMU không chỉ được xây dựng như một thử nghiệm nghiên cứu mà còn là một mô hình cơ sở hạ tầng được thiết kế để hỗ trợ các lĩnh vực quan trọng nhất của Malaysia. Trên thực tế, ILMU đã được sử dụng trong lĩnh vực tài chính thông qua Ryt Bank, nơi nó cung cấp các dịch vụ dựa trên AI an toàn, tuân thủ và phù hợp với người dùng Malaysia. Điều này cho thấy một mô hình độc lập có thể hỗ trợ trực tiếp các ngành được quản lý như thế nào đồng thời đảm bảo rằng cả dữ liệu và quản trị đều vẫn ở địa phương.

Có nghĩa là, ILMU không chỉ là một sản phẩm mà còn là một hệ sinh thái quốc gia. Với mỗi lần lặp lại và cải tiến, chúng tôi, người Malaysia, học hỏi và cải thiện cùng nhau, từ học sinh và giáo viên giúp xây dựng các chuẩn mực như MalayMMLU, đến các nhà nghiên cứu, kỹ sư, đối tác trong ngành và các nhà hoạch định chính sách. ILMU không chỉ là về công nghệ; đó là về việc xây dựng tương lai AI của Malaysia một cách tập thể.

Tất cả những phát triển này, sự tiến bộ của ILMU, thành tích của học sinh và chiến lược AI quốc gia phản ánh một hệ sinh thái rộng lớn hơn, nơi Malaysia đang xây dựng không chỉ các mô hình mà còn cả năng lực và quản trị. Khi học sinh, nhà nghiên cứu và nhà hoạch định chính sách của chúng ta ngày càng giỏi hơn, ILMU trở thành một phần trong hành trình quốc gia của chúng ta để trở thành một xã hội sản xuất AI, hơn cả một kỳ công kỹ thuật.

Câu hỏi 6. Những quốc gia nào khác đang triển khai LLM có chủ quyền?

  • Trung Quốc: DeepSeek, GLM, dòng Qwen
  • Indonesia: Sahabat AI
  • Châu Âu: Mistral (Pháp), một phần trong nỗ lực giành chủ quyền AI của Châu Âu

 

Chúng tôi cũng tin rằng mọi quốc gia nên theo đuổi mô hình chủ quyền của riêng mình. Lý do rất đơn giản: ngôn ngữ, văn hóa và giá trị không phải là phổ quát. Một mô hình được đào tạo chủ yếu trên dữ liệu tiếng Anh, tiếng Trung hoặc tiếng Pháp sẽ không bao giờ nắm bắt đầy đủ các sắc thái của Bahasa Malaysia, Manglish hoặc xã hội đa văn hóa của chúng ta. LLM có chủ quyền cho phép mỗi quốc gia bảo vệ di sản ngôn ngữ, khuôn khổ pháp lý, bản sắc văn hóa và chủ quyền dữ liệu của mình.

Nói tóm lại, AI có chủ quyền không chỉ là về công nghệ. Đó là về sự độc lập kỹ thuật số, bảo tồn văn hóa và khả năng phục hồi quốc gia.

 

 

 

 

 

Related Posts
Other Popular Posts