Chúng tôi làm AI tiếng Việt

Bắt đầu với mô hình ngôn ngữ lớn, với những thử nghiệm về tokenization và xây dựng bộ dữ liệu

What's done?

Tokenization

Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt hoặc cho tiếng Việt-Anh-Trung và code, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, và gần ~3x so với bộ vocab của gpt-4 image/jpeg credit: https://huggingface.co/nampdn-ai

Có thể mở rộng bộ vocab có sẵn, thêm khoảng 12-24k vocab để đạt được hiệu ứng trên.

Bộ dữ liệu

Chúng tôi là những người đầu tiên crawl toàn bộ common crawl để lọc dữ liệu tiếng Việt tại https://huggingface.co/datasets/Symato/cc (shout out to binhvq, nampdn-aiiambestfeed)

Bạn có thể tìm thấy các datasets khác tại Vietnamese Text Corpus Collection

Và bộ dữ liệu có độ chắt lọc cao hơn tại Knowledge Base Collection

Góp phần tạo ra Viet-Mistral

Shout out to anh Hữu và Viet-Mistral team đã tạo ra một open LLM "sõi" tiếng Việt nhất. LLMs phát triển quá nhanh và nhiều model sau vượt trội viet-mistral nhưng lượng tokens tiếng Việt không nhiều bằng viet-mistral. Nếu cần LLM to với nhiều kỹ năng hãy dùng các LLM đa ngôn ngữ mới release gần đây, nếu cần LLM thành thạo tiếng Việt hãy dùng viet-mistral.

What's next?

DOT series

DOT Do One Thing

DOT: do one thing (and do it well) là tuyển tập các bộ dữ liệu và mô hình chúng tôi phát triển trong quá trình làm các ứng dụng liên quan tới LLM và AI tại Việt Nam. Ngoài LLM để giải quyết các vấn đề chính, có rất nhiều bài toán nhỏ có thể giải quyết nhanh gọn bằng SML (LM nhỏ) một cách hiệu quả. Chúng tôi sẽ giới thiệu với các bạn trong DOT Collection

What if?

Bây giờ là 28/09/2024 và khoảng 1 năm trước nampdn-ai từng nói với tôi rằng cậu ấy suy nghĩ xem thực sự cần huấn luyện gì cho LLM? Cậu ấy cho rằng skills quan trọng hơn data, và trong bộ reasoning skills (nói chung) là quan trọng nhất. Giả sử ta có thể build được một reasoning engine mạnh, với context length không quá bé thì có thể giải quyết rất nhiều bài toán (và gần như tất cả) bằng ICL (incontext learning) và reasoning. Và cậu ấy đã đúng. gpt-o1 với hidden CoT được ví như là 1 bước đột phá lớn của năm nay, RAG (Retrieval Augmented Generation) càng phát triển và các models hỗ trợ RAG hoặc chuyên về RAG dần xuất hiện nhiều hơn (commandr là một ví dụ).

Có lẽ với đa số các bạn, sau khi đã trải qua gần 2 năm với với AI và LLM, trải qua đủ loại models (gpt-3,3.5,4,4o, llama 1,2,3,3.1,3.2 ...) và các loại ứng dụng thì điều kể trên gần như là hiển nhiên. Hãy tưởng tượng tầm này một năm trước, khi Mistral vừa mới thả quả bom mang tên Mistral 7b và LLM Việt còn chưa có open source models nào tốt, và những người làm LLM Việt thường nghĩ giống nhau là hãy cố nhồi dữ liệu tiếng Việt vào model càng nhiều càng tốt với mong muốn nó giỏi tiếng Việt và không quên tiếng Anh thì Nam đã nhìn vấn đề rộng hơn và có chiều sâu hơn.

Vào thời điểm đó lời chia sẻ của Nam khiến tôi tỉnh ra và chia sẻ lại quan điểm này với người khác, tiếc là ý kiến này đã không được lắng nghe và tập trung đủ nguồn lực để có thể biến thành một sản phẩm hoản chỉnh. Nam đã rất cố gắng tự tạo dữ liệu (xem huggingface của Nam) nhưng lại thiếu computing để huấn luyện và thử nghiệm ... Và câu hỏi là giá như lúc đó Nam được lắng nghe và hỗ trợ nhiều hơn thì liệu chúng ta có tạo được sản phẩm tốt không những cho tiếng Việt mà cho LLM nói chung?

Điều tôi muốn nói là cách bạn đặt vấn đề quan trọng hơn khả năng giải quyết vấn đề. Bạn lựa chọn càng khéo,thì càng có khả năng đi trước và giải quyết bài toán nhanh, gọn, hiệu quả hơn. Tôi tin rằng chúng ta còn rất nhiều người như Nam hoặc hãy thử suy nghĩ như Nam và nếu chúng ta tìm được bài toán đủ tốt và cùng nhau giải quyết nó thì rất có thể chúng ta cũng có thể làm nên một điều gì đó khác biệt và đáng tự hào. Shout out to Nam và cộng đồng LLM Việt!

Tham gia cùng chúng tôi