Awesome AI Legal Domain Vietnam
Lời nói đầu
Sau bài post trước, lần đầu tiên mình chạm tay vào AI cho lĩnh vực luật pháp Việt Nam, lần này, mình muốn nghiêm túc hơn một chút. Thay vì chỉ khảo sát sơ bộ hay viết theo cảm hứng, mình thực sự muốn khám phá xem literature hiện tại của lĩnh vực này đang trông như thế nào. Ai đang làm gì? Những bài toán nào đã có lời giải? Còn khoảng trống nào mình có thể lấp vào?
Blog trước của mình đã tập trung vào một chủ đề khá cụ thể: ontology và topology của luật pháp Việt Nam. Dù chưa thể đạt đến chất lượng của một academic paper, việc chỉ cần hoàn thiện được một blog post như vậy, cũng đủ cho mình thêm động lực để tiếp tục theo đuổi dự án này.
Mình để title post này là Awesome Legal Domain Vietnam, lấy cảm hứng từ các Github Repo mình bắt gặp hồi còn làm những dự án thiên hướng research hơn. Hồi đó, thường có các Repo như “Awesome Knowledge Graph”, “Awesome RAG”… mà trong đó chứa rất nhiều các paper chia theo từng chủ đề, mốc thời gian, liên quan đến hướng nghiên cứu đến từ đa dạng người đóng góp. Với post này, mình muốn capture lại các Github Repo đó, tuy chỉ có một mình, nhưng mình vẫn sẵn sàng cho nỗ lực này.
Mục lục
1. Surveys
Khi tiếp cận một lĩnh vực mới, đặc biệt là academic-heavy như AI cho luật pháp, mình thường bắt đầu bằng việc tìm các survey paper, tức là những bài tổng quan hệ thống lại các hướng nghiên cứu, thách thức và tiến triển chính trong một chủ đề cụ thể. Nếu coi research như một thành phố thì survey giống như bản đồ: nó không đi sâu vào từng toà nhà, nhưng cho bạn thấy tổng thể địa hình, các tuyến đường chính, và khu nào đang phát triển.
Tiếp cận chủ đề này, mình đã ngay lập tức tìm kiếm các survey paper đúng với mục tiêu của mình, dùng các từ khóa như "survey AI vietnamese legal domain"
, "legal NLP vietnam"
, nhưng kết quả vẫn còn khá hạn chế. Mình không tìm thấy bài nào thực sự hệ thống lại nghiên cứu về AI trong lĩnh vực pháp lý tại Việt Nam.
Do đó, mình quyết định mở rộng phạm vi ra các survey cho legal AI nói chung, không phân biệt ngôn ngữ hay quốc gia. Dù vậy, các survey này vẫn rất hữu ích vì:
- Chúng giúp mình hiểu các bài toán phổ quát trong lĩnh vực này là gì (legal QA, case retrieval, statute parsing, knowledge graph…)
- Mình có thể dùng chúng như khung để mapping lại vào bối cảnh tiếng Việt / pháp lý Việt Nam sau này.
1.1. Các survey quốc tế
Kim et al., 2025 - Prioritizing challenges in AI adoption for the legal domain: A systematic review and expert-driven AHP analysis tuy không dài như các survey thông thường, nhưng vẫn mang lại góc nhìn cập nhật mới nhất cho lĩnh vực AI pháp luật. Nghiên cứu đã thực hiện phân tích chuyên sâu và phỏng vấn 8 chuyên gia trong cả lĩnh vực AI và luật pháp, rút ra kết luận về các thử thách như sau:
Danh mục | Trọng số tương đối giữa các danh mục | Thử thách | Trọng số tương đối giữa các thử thách | Xếp hạng |
---|---|---|---|---|
Khía cạnh pháp lý | 0.38 | Trách nhiệm pháp lý | 0.22550 | 1 |
Quy định | 0.10969 | 4 | ||
Kiến thức chuyên môn | 0.04282 | 10 | ||
Sở hữu trí tuệ | 0.04160 | 11 | ||
Khía cạnh kỹ thuật | 0.29 | Độ phức tạp và chuyên môn kỹ thuật | 0.05101 | 9 |
Bảo mật | 0.05599 | 8 | ||
Chất lượng dữ liệu | 0.12978 | 2 | ||
Khía cạnh xã hội & Đạo đức | 0.31 | Sự chấp nhận của công chúng | 0.07739 | 6 |
Thiếu công bằng và phân biệt đối xử | 0.08287 | 5 | ||
Tính minh bạch | 0.11742 | 3 | ||
Quyền riêng tư | 0.06594 | 7 |
Những trọng số thể hiện kết quả phỏng vấn với 8 chuyên gia, cho thấy các yếu tố nào đang được quan tâm nhất. Nghiên cứu cũng đưa ra các nhận xét cụ thể về từng thử thách và đưa ra định hướng tương lai, mình rất khuyến khích paper này.
Ngoài paper này ra, hầu hết các nguồn academics không thực sự thuyết phục được mình rằng chúng đang bắt kịp xu hướng, do vậy mình có chia sẻ thêm một số nguồn ngoài academics:
- Github - CSHaitao/Awesome-LegalAI-Resources (2023) : Đúng kiểu mấy repo đã truyền cảm hứng cho post này, bao gồm rất nhiều nguồn tham khảo, nhưng được cập nhật lần cuối vào 2023.
- Github - Jeryi-Sun/LLM-and-Law (2025) : Khá giống repo trên nhưng có vẻ được cập nhật gần đây hơn.
- Rev - The 2025 Legal Tech Survey : Tổng quan thực tế về usage của các luật sư và văn phòng luật, đưa ra một số hướng mới lạ như Speech Recognition cho việc số hóa các cuộc bàn luận chuyên nghiệp giữa khách hàng và luật sư, hoặc để transcribe speech trong các phiên tòa. Cho thấy ROI là rất hấp dẫn để đầu tư vào AI luật pháp.
- AIMultiple - Top 10+ Legal AI Use Cases & real-life examples in 2025 : Một số case study thực tế, bao gồm những ứng dụng như dự đoán kết quả kiện tụng, phân tích hợp đồng, chatbot pháp luật,…
- Github - SURESHBEEKHANI/Legal-Research-GraphRAG (2025) : Một ứng dụng khá giống dự án KG trước kia của mình, tuy khá là đơn giản nhưng đủ để là một ví dụ thú vị.
1.2. Các nguồn liên quan
Tất nhiên, những nguồn thú vị cụ thể cho khu vực Việt Nam không thiếu, chỉ là không giống với những nguồn ở phía trên mà mình muốn. Sau đây mình chia sẻ thêm một số tài liệu và ứng dụng:
1.2.1. Ứng dụng
- ai.phapluat.gov.vn : Chatbot hỗ trợ luật pháp Việt Nam (10 lượt demo), 32 lĩnh vực luật pháp, hơi chậm.
- LEXcentra AI : Chatbot hỗ trợ pháp luật Việt Nam (3 lượt demo), tìm kiếm luật pháp, văn bản hành chính Việt Nam.
1.2.2. Tài liệu, bài báo
Chính phủ Việt Nam có động thái tiên phong trong việc ban hành các nghị định và luật pháp nhằm đưa Việt Nam trở thành một trong các mũi nhọn phát triển công nghệ và trí tuệ nhân tạo trước 2030. Cho thấy Nhà nước khuyến khích phát triển sản phẩm và nghiên cứu khoa học, đồng thời chủ động hình thành các khung phát triển hợp lý để không chỉ bắt kịp mà còn hướng đến phát triển các công nghệ lõi trong nước:
2. Bộ dữ liệu & Benchmarks
Phần này ta sẽ tập trung vào các bộ dữ liệu và benchmarks liên quan đến lĩnh vực AI luật pháp Việt Nam. Về bộ dữ liệu có thể sẽ bao gồm cả corpus thuần Việt và corpus có bao gồm tiếng Việt (multilingual dataset) nếu như mình thấy có thể hữu dụng. Benchmarks sẽ chứa đa dạng đánh giá nhiều lĩnh vực - nhưng chủ yếu tập trung vào đánh giá các hệ thống AI sử dụng LLM, hãy nghĩ đến các task như QA, RAG, Reasoning,…
Nhớ rằng ngoài các bộ dữ liệu thuần Việt, nhiều nghiên cứu cũng sử dụng các bộ dữ liệu có sẵn trong ngôn ngữ khác và đơn giản là dịch sang tiếng Việt. Tất nhiên điều này có ưu và nhược điểm nhưng với mình thì mình cũng không khuyến khích bắt đầu dự án nào từ đây.
2.1. Các bộ dữ liệu
- Hugging Face - bkai-foundation-models/crosslingual (2025) : Corpus text
.json
đến từ lab BKAI bách khoa HN.- Có đi kèm paper: Nguyen et al., 2025.
- Gồm tiếng Anh và tiếng Việt song song.
- Github - mlalab/VNLegalText (2023) : Bộ corpus với 5000 văn bản luật, mình chưa thể kiếm chứng được bộ này.
- Github - undertheseanlp/CP_Vietnamese-VLC (2020) : Corpus
.txt
đến từ nhà phát triển thư viện NLP nổi tiếng nhất cho tiếng Việt Underthesea. Tuy nhiên hơi cũ, lần cuối cập nhật vào 5 năm trước, song vẫn là một điểm khởi đầu tuyệt vời cho các dự án. - Kaggle - quangbut/vietnamese-legal (2023) : Một corpus text chủ yếu là
.csv
, trông khá là lộn xộn và không có documentation gì nhiều. Có vẻ là một dự án crawling đơn giản. - VLSP - CLB Xử lí ngôn ngữ và tiếng nói tiếng Việt : Tuy là một trong những tổ chức tiên phong trong NLP tiếng Việt, có vẻ vẫn chưa có bộ dataset nào open hay semi-open về AI luật pháp.
Ngoài ra cũng có một vài paper nói đến dataset ở lĩnh vực này, cũng là do các tổ chức Việt Nam thực hiện, nhưng mình không thể tìm được xem họ có public dataset đó hay không.
2.2. Benchmarks
Note: Theo truyền thống, để kiểm tra một con người trong lĩnh vực luật pháp với tư cách luật sư hành nghề, bên Mỹ sẽ gọi là “Bar Exam”, bạn có thể dùng từ khóa này để tìm hiểu thêm.
- VLSP - 2025 Challenge on Vietnamese Legal Small Language Models (LegalSLM) : Cuộc thi do VLSP tổ chức, đang diễn ra, có thể sẽ thú vị để theo dõi.
Mình cũng khá bất ngờ khi… gần như là không có, cả benchmarks và dataset. Mình đoán phần lớn là do không public, hệ sinh thái này không thể được như bên Trung Quốc hay Mỹ. Tuy nhiên cũng cho thấy rằng, đội nghiên cứu nào cần low-hanging fruit thì ngay đây đây.
MỘT BÁO CÁO TỪ MANUS AI
Nói thật thì mình vừa tìm hiểu, vừa viết post, nên đến đây thì mình cũng đã khá là chán, và hơi thất vọng. Lúc đầu, mình nghĩ bài viết này sẽ là một kiểu “Awesome Legal AI Vietnam” - giống như những repo tổng hợp công cụ, benchmark, dataset càng nhiều càng tốt. Nhưng rồi khi dừng lại và nhìn lại những gì mình đã chọn lọc, mình nhận ra bài viết này đang thể hiện quá trình của mình. Nó không cố gắng nhồi nhét toàn bộ literature của một lĩnh vực. Nó không lục lại những dataset hàn lâm từ 2–3 năm trước chỉ để đủ đầy. Thay vào đó, những gì mình đưa vào là những thứ mình vừa tìm ra, đang đọc, đang hoài nghi, và đang thấy hứng thú.
Vì vậy, mình thấy rằng, với động lực đang muốn tạo ra một hệ thống đầy đủ cho lĩnh vực AI luật pháp Việt Nam, không chỉ là để giật các low-hanging fruit hay những benchmark (đằng nào cũng có đâu), mà là một nỗ lực để hướng tới một hệ thống end-to-end, đầy đủ từng khâu từ crawl dữ liệu, đến auditing và vân vân… Thì sau phần tìm hiểu này, có vẻ như cả academics và public case study khó có thể giúp mình quá nhiều rồi.
Cho bạn nào muốn đọc thêm, thì mình có summarize post này bằng AI để tạo ra 1 prompt cho Manus AI, mình đọc cũng thấy informative nên mình sẽ chia sẻ ở dưới đây, ngoài ra cũng không còn gì nữa, cho tới lần sau nhé 🥴.
1. Giới thiệu tổng quan
1.1. Bối cảnh ứng dụng AI/NLP trong lĩnh vực pháp luật toàn cầu
Trí tuệ nhân tạo (AI) và Xử lý ngôn ngữ tự nhiên (NLP) đang cách mạng hóa ngành pháp lý trên toàn cầu, từ việc tự động hóa các tác vụ lặp đi lặp lại đến việc cung cấp những phân tích sâu sắc hỗ trợ các chuyên gia pháp lý. Sự phát triển của AI/NLP đã mở ra nhiều cơ hội mới trong việc nâng cao hiệu quả, giảm chi phí và cải thiện chất lượng dịch vụ pháp lý. Các ứng dụng chính bao gồm:
- Rà soát tài liệu (Document Review): Tự động hóa việc phân tích và rà soát hàng triệu tài liệu pháp lý, hợp đồng, hồ sơ vụ án, giúp tiết kiệm đáng kể thời gian và công sức so với phương pháp thủ công.
- Nghiên cứu pháp lý (Legal Research): Các công cụ AI-powered giúp luật sư nhanh chóng tìm kiếm các án lệ, nguyên tắc pháp lý và ngôn ngữ phù hợp để hỗ trợ lập luận của họ. Điều này bao gồm việc tóm tắt án lệ và mô hình hóa chủ đề.
- Phân tích hợp đồng (Contract Analysis): AI/NLP có khả năng trích xuất thông tin quan trọng từ hợp đồng, xác định các điều khoản rủi ro, và đảm bảo tuân thủ các quy định pháp luật.
- Phân tích dự đoán (Predictive Analytics): Dựa trên dữ liệu lịch sử, AI có thể dự đoán kết quả vụ án, xu hướng pháp lý, hoặc hành vi của các bên liên quan, hỗ trợ luật sư đưa ra quyết định chiến lược.
- Phát hiện điện tử (E-discovery): Hỗ trợ trong việc xác định, thu thập và sản xuất thông tin điện tử có liên quan đến các vụ kiện tụng.
- Hệ thống hỏi đáp pháp lý (Legal QA): Cung cấp khả năng trả lời các câu hỏi pháp lý dựa trên cơ sở dữ liệu luật và án lệ.
Thị trường công nghệ pháp lý (LegalTech) toàn cầu đang chứng kiến sự tăng trưởng mạnh mẽ, với dự báo đạt 37 tỷ USD vào năm 2030, cho thấy nhu cầu lớn và tiềm năng phát triển của các giải pháp AI/NLP trong lĩnh vực này. Các công ty và tổ chức pháp lý đang ngày càng tích hợp AI vào hoạt động của mình để tối ưu hóa quy trình làm việc và nâng cao năng suất.
1.2. Bối cảnh ứng dụng AI/NLP trong lĩnh vực pháp luật tại Việt Nam
Tại Việt Nam, việc ứng dụng AI và NLP trong lĩnh vực pháp luật đang trong giai đoạn phát triển mạnh mẽ, được thúc đẩy bởi nhu cầu chuyển đổi số và cải cách hành chính. Chính phủ Việt Nam đã và đang thể hiện sự quan tâm đặc biệt đến việc phát triển và ứng dụng AI, thể hiện qua việc ban hành các văn bản pháp luật liên quan đến công nghệ số và AI, như Luật Công nghiệp Công nghệ số (DTI Law) được thông qua vào tháng 6 năm 2025, được xem là khuôn khổ pháp lý cấp cao nhất về AI tại Việt Nam. Điều này tạo ra một hành lang pháp lý thuận lợi cho sự phát triển của LegalTech.
Các ứng dụng AI/NLP tại Việt Nam tập trung vào việc giải quyết các bài toán đặc thù của hệ thống pháp luật trong nước, bao gồm:
- Hệ thống tra cứu và giải đáp pháp luật tự động: Nhiều nền tảng đã ra đời nhằm hỗ trợ người dân và doanh nghiệp tra cứu văn bản pháp luật, giải đáp thắc mắc pháp lý thông qua các trợ lý ảo hoặc chatbot. Các ví dụ nổi bật bao gồm Cổng Pháp luật quốc gia (ai.phapluat.gov.vn), AITracuuluat.vn, và AI Luật của LuatVietnam.
- Rà soát và phân tích văn bản pháp luật: Các giải pháp như C-LS của CMC ATI đã được phát triển để hỗ trợ rà soát, phân tích và đánh giá sự phù hợp của các văn bản pháp luật, giúp các cơ quan nhà nước và doanh nghiệp đảm bảo tuân thủ.
- Hỗ trợ nghiệp vụ cho luật sư và chuyên gia pháp lý: Mặc dù chưa phổ biến rộng rãi như các công cụ tra cứu cho công chúng, nhưng các giải pháp AI cũng đang dần được nghiên cứu và phát triển để hỗ trợ luật sư trong các tác vụ như phân tích án lệ, tóm tắt tài liệu, và dự đoán kết quả pháp lý.
1.3. Những nhu cầu đặc thù của pháp luật Việt Nam
Pháp luật Việt Nam có những đặc thù riêng biệt, đặt ra cả thách thức và cơ hội cho việc ứng dụng AI/NLP:
- Hệ thống văn bản pháp luật đồ sộ và phức tạp: Việt Nam có một lượng lớn các văn bản quy phạm pháp luật, từ Hiến pháp, Luật, Nghị định, Thông tư đến các văn bản hướng dẫn. Các văn bản này thường xuyên được sửa đổi, bổ sung, gây khó khăn cho việc tra cứu và cập nhật.
- Ngôn ngữ pháp lý tiếng Việt: Ngôn ngữ pháp lý tiếng Việt có tính chuyên ngành cao, nhiều thuật ngữ chuyên môn, cấu trúc câu phức tạp, và đôi khi có sự mơ hồ, đa nghĩa. Điều này đòi hỏi các mô hình NLP phải có khả năng hiểu sâu sắc ngữ nghĩa và ngữ cảnh pháp lý.
- Thiếu chuẩn hóa dữ liệu: Dữ liệu pháp luật thường tồn tại dưới nhiều định dạng khác nhau, không được chuẩn hóa, gây khó khăn cho việc thu thập, xử lý và xây dựng dataset cho các mô hình AI.
- Tính giải thích và kiểm chứng (Explainability and Verifiability): Trong lĩnh vực pháp luật, tính chính xác và khả năng giải thích của các quyết định do AI đưa ra là cực kỳ quan trọng. Các mô hình AI cần phải minh bạch, có khả năng giải thích lý do đưa ra kết quả, và kết quả đó phải có thể kiểm chứng được bởi con người.
- Bối cảnh pháp lý thay đổi nhanh chóng: Các quy định pháp luật thường xuyên được cập nhật để phù hợp với sự phát triển kinh tế - xã hội, đòi hỏi các hệ thống AI phải có khả năng thích ứng và cập nhật liên tục.
- Nhu cầu tiếp cận pháp luật của người dân: Có một nhu cầu lớn từ phía người dân và doanh nghiệp về việc tiếp cận thông tin pháp luật một cách dễ dàng, nhanh chóng và chính xác, đặc biệt là những người không có chuyên môn pháp lý.
Những đặc thù này đòi hỏi các giải pháp AI/NLP cho pháp luật Việt Nam không chỉ dừng lại ở việc áp dụng các mô hình chung mà cần có sự tinh chỉnh, tùy biến và phát triển các mô hình chuyên biệt cho tiếng Việt và lĩnh vực pháp luật Việt Nam.
2. Các hướng nghiên cứu chính liên quan
Các hướng nghiên cứu chính trong lĩnh vực AI/NLP cho pháp luật tập trung vào việc giải quyết các bài toán đặc thù của văn bản pháp lý và quy trình nghiệp vụ pháp lý. Dưới đây là một số hướng nghiên cứu nổi bật:
2.1. Legal QA (Hỏi đáp pháp lý)
Legal Question Answering (LQA) là một trong những ứng dụng quan trọng nhất của NLP trong lĩnh vực pháp luật. Mục tiêu là xây dựng các hệ thống có khả năng hiểu câu hỏi pháp lý do người dùng đặt ra (bằng ngôn ngữ tự nhiên) và cung cấp câu trả lời chính xác, có căn cứ từ các văn bản pháp luật, án lệ, hoặc cơ sở tri thức pháp lý. Các hệ thống LQA có thể được phân loại thành:
- Closed-domain QA: Trả lời câu hỏi trong một phạm vi pháp luật cụ thể (ví dụ: luật lao động, luật thuế).
- Open-domain QA: Trả lời câu hỏi trên toàn bộ hệ thống pháp luật.
Các phương pháp tiếp cận bao gồm sử dụng các kỹ thuật NLP truyền thống (như trích xuất thông tin, phân tích cú pháp) kết hợp với các mô hình học sâu (deep learning) như Transformer, BERT, T5. Gần đây, sự xuất hiện của các mô hình ngôn ngữ lớn (LLMs) và kỹ thuật Retrieval-Augmented Generation (RAG) đã mở ra tiềm năng lớn cho LQA, cho phép hệ thống không chỉ trả lời dựa trên kiến thức đã học mà còn truy xuất thông tin từ các văn bản pháp luật cụ thể để đưa ra câu trả lời có căn cứ và giải thích được.
2.2. Legal Retrieval (Truy xuất thông tin pháp lý)
Legal Information Retrieval (LIR) là quá trình tìm kiếm và truy xuất các văn bản pháp luật, án lệ, hoặc các tài liệu pháp lý liên quan từ một kho dữ liệu lớn dựa trên truy vấn của người dùng. Khác với tìm kiếm từ khóa truyền thống, LIR sử dụng các kỹ thuật NLP để hiểu ngữ nghĩa của truy vấn và nội dung tài liệu, từ đó trả về các kết quả có liên quan ngữ cảnh hơn. Các thách thức trong LIR bao gồm:
- Độ chính xác và đầy đủ: Đảm bảo rằng tất cả các tài liệu liên quan được tìm thấy và các tài liệu không liên quan được loại bỏ.
- Xếp hạng kết quả: Sắp xếp các tài liệu theo mức độ liên quan để người dùng dễ dàng tiếp cận thông tin quan trọng nhất.
- Xử lý ngôn ngữ pháp lý phức tạp: Ngôn ngữ pháp lý thường có cấu trúc phức tạp, nhiều thuật ngữ chuyên ngành và cách diễn đạt đặc thù, đòi hỏi các mô hình LIR phải có khả năng xử lý tốt.
2.3. Document Classification (Phân loại tài liệu pháp lý)
Phân loại tài liệu pháp lý là việc tự động gán nhãn hoặc phân loại các văn bản pháp lý vào các danh mục định trước (ví dụ: luật hình sự, luật dân sự, hợp đồng, quyết định tòa án). Điều này giúp tổ chức, quản lý và tìm kiếm tài liệu hiệu quả hơn. Các kỹ thuật NLP được sử dụng bao gồm phân loại văn bản dựa trên học máy truyền thống (SVM, Naive Bayes) và học sâu (CNN, RNN, Transformer). Các mô hình có thể được huấn luyện để nhận diện các đặc trưng ngôn ngữ và cấu trúc của từng loại tài liệu pháp lý.
2.4. Legal Knowledge Graphs / Ontology (Đồ thị tri thức pháp lý / Bản thể luận)
Đồ thị tri thức pháp lý (LKG) và Bản thể luận (Ontology) là các cấu trúc dữ liệu có tổ chức nhằm biểu diễn kiến thức pháp lý một cách có hệ thống và có quan hệ. LKG biểu diễn các thực thể pháp lý (ví dụ: điều khoản luật, vụ án, bên liên quan) và mối quan hệ giữa chúng (ví dụ: ‘điều khoản X quy định về vấn đề Y’, ‘vụ án A liên quan đến điều khoản B’). Ontology cung cấp một khung khái niệm và các mối quan hệ phân cấp giữa các khái niệm pháp lý. Việc xây dựng LKG/Ontology giúp:
- Tổ chức kiến thức: Cung cấp một cách có cấu trúc để lưu trữ và truy vấn kiến thức pháp lý.
- Suy luận pháp lý: Hỗ trợ các hệ thống AI thực hiện suy luận dựa trên các mối quan hệ đã định nghĩa.
- Cải thiện truy xuất thông tin: Cho phép tìm kiếm ngữ nghĩa và truy xuất thông tin chính xác hơn.
- Tăng cường tính giải thích: Giúp các mô hình AI giải thích được lý do đưa ra kết quả dựa trên các mối quan hệ trong đồ thị tri thức.
2.5. Legal Summarization (Tóm tắt văn bản pháp lý)
Legal Summarization là quá trình tự động tạo ra bản tóm tắt ngắn gọn, súc tích từ các văn bản pháp lý dài (ví dụ: án lệ, hợp đồng, báo cáo pháp lý). Có hai loại tóm tắt chính:
- Tóm tắt trích xuất (Extractive Summarization): Chọn ra các câu hoặc đoạn văn quan trọng nhất từ văn bản gốc để tạo thành bản tóm tắt.
- Tóm tắt trừu tượng (Abstractive Summarization): Tạo ra các câu mới để tóm tắt nội dung, có thể không xuất hiện trực tiếp trong văn bản gốc. Loại này khó hơn nhưng tạo ra bản tóm tắt tự nhiên và mạch lạc hơn.
Legal Summarization giúp luật sư và chuyên gia pháp lý nhanh chóng nắm bắt nội dung chính của tài liệu, tiết kiệm thời gian đọc và phân tích.
2.6. Legal Argument Mining (Khai thác lập luận pháp lý)
Legal Argument Mining (LAM) là lĩnh vực nghiên cứu tập trung vào việc tự động xác định, phân tích và cấu trúc các lập luận pháp lý trong văn bản (ví dụ: bản án, văn bản tranh tụng). Mục tiêu là nhận diện các thành phần của một lập luận (như tiền đề, kết luận, bằng chứng, quy tắc pháp lý) và mối quan hệ giữa chúng. LAM có thể hỗ trợ:
- Phân tích vụ án: Giúp luật sư hiểu rõ cấu trúc lập luận của đối phương và xây dựng lập luận của mình.
- Dự đoán kết quả: Dựa trên phân tích lập luận, có thể dự đoán khả năng thành công của một vụ án.
- Hỗ trợ soạn thảo: Cung cấp gợi ý về cách xây dựng lập luận hiệu quả.
2.7. RAG / LLMs cho pháp lý
Sự phát triển vượt bậc của các Mô hình Ngôn ngữ Lớn (LLMs) như GPT-3, GPT-4, Llama đã mở ra một kỷ nguyên mới cho AI trong pháp luật. LLMs có khả năng hiểu, tạo và tóm tắt văn bản một cách ấn tượng. Tuy nhiên, LLMs đôi khi gặp phải vấn đề ‘ảo giác’ (hallucination) – tạo ra thông tin không chính xác hoặc không có căn cứ. Để khắc phục điều này, kỹ thuật Retrieval-Augmented Generation (RAG) đã được phát triển.
RAG kết hợp khả năng sinh văn bản của LLMs với khả năng truy xuất thông tin từ một kho dữ liệu bên ngoài (ví dụ: cơ sở dữ liệu văn bản pháp luật). Khi người dùng đặt câu hỏi, hệ thống RAG sẽ:
- Truy xuất (Retrieval): Tìm kiếm các đoạn văn bản liên quan nhất từ kho dữ liệu pháp lý.
- Tạo sinh (Generation): Sử dụng LLM để tạo ra câu trả lời dựa trên câu hỏi của người dùng và các đoạn văn bản đã truy xuất được.
Cách tiếp cận này giúp LLMs đưa ra câu trả lời chính xác hơn, có căn cứ và giảm thiểu hiện tượng ‘ảo giác’, đặc biệt quan trọng trong lĩnh vực pháp luật nơi tính chính xác là tối quan trọng. RAG/LLMs đang trở thành một hướng nghiên cứu và ứng dụng rất tiềm năng cho các hệ thống hỏi đáp pháp lý, tóm tắt, và hỗ trợ nghiên cứu pháp lý.
3. Các dự án và công trình tiêu biểu
3.1. Các paper đáng chú ý liên quan đến luật Việt Nam
Nghiên cứu về NLP cho tiếng Việt trong lĩnh vực pháp luật còn tương đối mới mẻ so với các ngôn ngữ khác như tiếng Anh, tiếng Nhật, tiếng Trung. Tuy nhiên, đã có những nỗ lực đáng kể từ cộng đồng nghiên cứu Việt Nam. Một số bài báo và công trình tiêu biểu thường xuất hiện trong các hội thảo về xử lý ngôn ngữ tự nhiên tiếng Việt như VLSP (Vietnamese Language and Speech Processing).
- VLSP Challenges: Các thử thách (shared tasks) của VLSP thường bao gồm các bài toán liên quan đến văn bản pháp luật. Ví dụ, VLSP 2023 đã có thử thách về Legal Textual Entailment Recognition (Nhận diện quan hệ kéo theo văn bản pháp lý), tập trung vào việc phát hiện mối quan hệ giữa một đoạn văn bản pháp lý dài và một câu hỏi pháp lý. VLSP 2025 cũng dự kiến có thử thách về Vietnamese Legal Small Language Models (SLM), cho thấy sự quan tâm đến việc xây dựng các mô hình ngôn ngữ nhỏ chuyên biệt cho lĩnh vực pháp luật tiếng Việt.
- Các nghiên cứu về phân loại, tóm tắt văn bản pháp luật tiếng Việt: Một số nghiên cứu đã tập trung vào việc áp dụng các kỹ thuật học máy và học sâu để phân loại các văn bản pháp luật theo lĩnh vực, hoặc tóm tắt nội dung các điều khoản, văn bản dài. Tuy nhiên, việc tìm kiếm các bài báo cụ thể có thể đòi hỏi truy cập vào các cơ sở dữ liệu học thuật chuyên sâu.
3.2. Dự án trong VLSP, UIT, các nhóm nghiên cứu đại học
- VLSP (Vietnamese Language and Speech Processing): Là hội thảo thường niên quan trọng nhất về NLP và xử lý tiếng nói tiếng Việt. VLSP đóng vai trò trung tâm trong việc thúc đẩy nghiên cứu Legal NLP tại Việt Nam thông qua các shared tasks, cung cấp dataset và benchmark cho cộng đồng. Các trường đại học và viện nghiên cứu thường tham gia và trình bày kết quả tại đây.
- Đại học Công nghệ Thông tin (UIT) - Đại học Quốc gia TP.HCM: UIT là một trong những đơn vị tiên phong trong nghiên cứu NLP tại Việt Nam. Các nhóm nghiên cứu tại UIT thường tham gia các thử thách của VLSP và có các công trình liên quan đến xử lý văn bản tiếng Việt, bao gồm cả văn bản pháp luật. Cần tìm kiếm các công bố cụ thể từ các phòng thí nghiệm hoặc giảng viên tại UIT.
- Các nhóm nghiên cứu khác: Nhiều trường đại học và viện nghiên cứu khác như Đại học Bách khoa Hà Nội, Đại học Khoa học Tự nhiên (ĐHQG Hà Nội/TP.HCM), Viện Công nghệ Thông tin (IOIT) cũng có các nhóm nghiên cứu về NLP và có thể có các dự án liên quan đến Legal NLP. Các công ty công nghệ lớn như FPT.AI, CMC ATI cũng có các nhóm R&D nội bộ phát triển các giải pháp AI cho lĩnh vực pháp luật.
3.3. So sánh với các hệ thống quốc tế
So với các hệ thống quốc tế như CaseLaw, LegalBench, LexGLUE, nghiên cứu và ứng dụng Legal NLP tại Việt Nam còn ở giai đoạn sơ khai hơn. Các hệ thống quốc tế này thường có:
- Dataset và Benchmark lớn, đa dạng: Ví dụ, LegalBench là một bộ benchmark toàn diện cho các tác vụ pháp lý, bao gồm nhiều dataset cho các bài toán khác nhau. LexGLUE cũng cung cấp các benchmark cho các tác vụ NLP pháp lý trên nhiều ngôn ngữ.
- Cộng đồng nghiên cứu mạnh mẽ: Có sự hợp tác chặt chẽ giữa các nhà nghiên cứu, luật sư và các công ty công nghệ để phát triển các giải pháp tiên tiến.
- Nền tảng hạ tầng và tài nguyên tính toán: Có khả năng tiếp cận các tài nguyên tính toán lớn để huấn luyện các mô hình phức tạp.
Tại Việt Nam, thách thức lớn nhất là thiếu các dataset pháp lý tiếng Việt có quy mô lớn, được gán nhãn chất lượng cao và các benchmark chuẩn hóa để đánh giá hiệu suất của các mô hình. Điều này cản trở sự phát triển và so sánh các phương pháp nghiên cứu. Tuy nhiên, các nỗ lực của VLSP và các nhóm nghiên cứu đang dần khắc phục những hạn chế này, hướng tới việc xây dựng một hệ sinh thái Legal NLP mạnh mẽ hơn cho tiếng Việt.
4. Tài nguyên ngôn ngữ và pháp luật hiện có
Việc phát triển các ứng dụng AI/NLP cho lĩnh vực pháp luật tại Việt Nam phụ thuộc rất nhiều vào sự sẵn có của các tài nguyên ngôn ngữ và pháp luật chất lượng cao. Dưới đây là tổng hợp các tài nguyên chính:
4.1. Dataset (open/closed)
So với các ngôn ngữ khác, dataset pháp lý tiếng Việt còn hạn chế về số lượng và quy mô. Tuy nhiên, đã có những nỗ lực đáng ghi nhận:
- VNLegalText: Đây là một trong những dataset pháp lý tiếng Việt đáng chú ý, bao gồm 5.031 văn bản pháp luật tiếng Việt đã được tiền xử lý và gán nhãn về các thực thể và mối quan hệ tham chiếu. Dataset này rất hữu ích cho các bài toán như nhận dạng thực thể có tên (NER) và trích xuất quan hệ trong lĩnh vực pháp luật.
- TVPL (Thư viện Pháp luật): Một benchmark dataset mới cho truy xuất văn bản pháp luật tiếng Việt, được xây dựng dựa trên dữ liệu từ trang thuvienphapluat.vn. Dataset này tập trung vào bài toán truy xuất các điều khoản pháp luật liên quan đến một câu hỏi pháp lý cụ thể. Sự ra đời của TVPL là một bước tiến quan trọng trong việc chuẩn hóa đánh giá các hệ thống truy xuất thông tin pháp lý tiếng Việt.
- Dataset từ các cuộc thi VLSP: Các cuộc thi VLSP thường cung cấp các dataset chuyên biệt cho từng bài toán, ví dụ như dataset cho bài toán Legal Textual Entailment Recognition trong VLSP 2023. Các dataset này thường có quy mô nhỏ hơn nhưng được gán nhãn cẩn thận và phục vụ mục đích nghiên cứu cụ thể.
- Các dataset nội bộ (Closed-source): Nhiều công ty LegalTech và các nhóm nghiên cứu có thể tự xây dựng các dataset riêng phục vụ cho mục đích phát triển sản phẩm của họ. Các dataset này thường không được công bố rộng rãi do tính chất độc quyền và nhạy cảm của dữ liệu pháp lý.
4.2. Benchmark
Benchmark đóng vai trò quan trọng trong việc đánh giá và so sánh hiệu suất của các mô hình AI/NLP. Tại Việt Nam:
- VLSP Challenges: Các thử thách của VLSP là nguồn benchmark chính cho NLP tiếng Việt nói chung và Legal NLP nói riêng. Các shared tasks như Legal Textual Entailment Recognition (VLSP 2023) và Vietnamese Legal Small Language Models (VLSP 2025 dự kiến) cung cấp các bộ test set chuẩn để đánh giá mô hình.
- TVPL: Như đã đề cập, TVPL không chỉ là một dataset mà còn là một benchmark cho bài toán truy xuất văn bản pháp luật tiếng Việt.
- ViGLUE: Mặc dù không chuyên biệt cho pháp luật, ViGLUE là một benchmark tổng quát cho hiểu ngôn ngữ tiếng Việt, bao gồm nhiều tác vụ khác nhau. Một số tác vụ trong ViGLUE có thể liên quan hoặc có thể được mở rộng để đánh giá các mô hình pháp lý.
4.3. Model
Sự phát triển của các mô hình ngôn ngữ lớn (LLMs) đã tác động mạnh mẽ đến Legal NLP. Tại Việt Nam, đã có những nỗ lực trong việc phát triển các mô hình chuyên biệt:
- ViGPT-Law: Đây là một biến thể của mô hình ViGPT (một LLM cho tiếng Việt) được tinh chỉnh (fine-tuned) trên dữ liệu pháp luật. ViGPT-Law được phát triển để hỗ trợ các hệ thống hỏi đáp pháp lý tiếng Việt, cho thấy tiềm năng của việc phát triển các LLM chuyên biệt cho lĩnh vực này.
- Các mô hình BERT/PhoBERT tinh chỉnh: Nhiều nghiên cứu đã sử dụng các mô hình BERT hoặc PhoBERT (phiên bản BERT cho tiếng Việt) và tinh chỉnh chúng trên các corpus pháp lý tiếng Việt cho các tác vụ như phân loại văn bản, nhận dạng thực thể có tên, hoặc lựa chọn câu trả lời pháp lý.
- Mô hình RAG cho QA pháp lý: Các nghiên cứu gần đây cũng tập trung vào việc xây dựng các hệ thống hỏi đáp pháp lý tiếng Việt sử dụng kiến trúc RAG, kết hợp LLM với khả năng truy xuất thông tin từ cơ sở dữ liệu pháp luật để cải thiện độ chính xác và giảm thiểu ‘ảo giác’.
4.4. Các cổng thông tin luật Việt Nam
Các cổng thông tin này là nguồn dữ liệu quan trọng cho việc xây dựng dataset và phát triển các ứng dụng Legal NLP:
- Cổng thông tin điện tử Bộ Tư pháp (moj.gov.vn): Cung cấp các văn bản quy phạm pháp luật, tin tức pháp luật, và các dịch vụ công trực tuyến liên quan đến lĩnh vực tư pháp.
- Cơ sở dữ liệu quốc gia về pháp luật (vbpl.vn): Đây là một trong những nguồn dữ liệu pháp luật chính thức và toàn diện nhất của Việt Nam, chứa hàng trăm nghìn văn bản quy phạm pháp luật được cập nhật liên tục. Đây là nguồn tài nguyên vô cùng quý giá cho việc thu thập dữ liệu để huấn luyện mô hình.
- Thư viện Pháp luật (thuvienphapluat.vn): Một cổng thông tin pháp luật phổ biến, cung cấp các văn bản pháp luật, án lệ, tin tức pháp luật, và các công cụ tra cứu. Đây cũng là nguồn dữ liệu lớn và thường được sử dụng trong các nghiên cứu và phát triển sản phẩm LegalTech.
4.5. Các luật được xử lý nhiều nhất
Các lĩnh vực luật thường được quan tâm và xử lý nhiều nhất trong các ứng dụng AI/NLP tại Việt Nam bao gồm:
- Luật Lao động: Do có nhiều tranh chấp và nhu cầu tư vấn pháp luật liên quan đến hợp đồng lao động, quyền và nghĩa vụ của người lao động và người sử dụng lao động.
- Luật Hình sự: Liên quan đến các vụ án hình sự, quy định về tội danh, hình phạt. Việc phân tích án lệ hình sự là một hướng nghiên cứu tiềm năng.
- Luật Dân sự: Bao gồm các vấn đề về hợp đồng, thừa kế, quyền sở hữu, tranh chấp dân sự. Đây là lĩnh vực có lượng văn bản và vụ việc lớn.
- Luật Thuế, Bảo hiểm xã hội, Bảo hiểm thất nghiệp: Các lĩnh vực này có nhiều quy định phức tạp và thường xuyên thay đổi, dẫn đến nhu cầu cao về tra cứu và giải đáp pháp luật tự động.
Việc tập trung vào các lĩnh vực này giúp các nhà phát triển và nghiên cứu có thể xây dựng các giải pháp chuyên sâu và đáp ứng nhu cầu thực tiễn của thị trường.
5. Các sản phẩm ứng dụng thực tiễn
Tại Việt Nam, các sản phẩm ứng dụng AI/NLP trong lĩnh vực pháp luật đang dần trở nên phổ biến, chủ yếu tập trung vào việc hỗ trợ tra cứu và giải đáp pháp luật cho người dân và doanh nghiệp. Dưới đây là một số sản phẩm và đơn vị tiêu biểu:
5.1. Chatbot luật và hệ thống hỗ trợ tra cứu
- AI pháp luật (ai.phapluat.gov.vn): Đây là chatbot AI chính thức của Cổng Pháp luật quốc gia, do Bộ Tư pháp Việt Nam phát triển. Hệ thống này hỗ trợ giải đáp các thắc mắc pháp luật trên nhiều lĩnh vực như Thuế, Lao động, An toàn lao động, Bảo hiểm xã hội, Đầu tư, Thương mại, v.v. Mục tiêu chính là cung cấp hệ thống văn bản quy phạm pháp luật, tiếp nhận phản ánh, kiến nghị và hỗ trợ pháp lý cho người dân và doanh nghiệp.
- AI Tra Cứu Luật (aitracuuluat.vn): Một ứng dụng tra cứu pháp luật thông minh sử dụng công nghệ AI, giúp người dùng giải đáp thắc mắc mọi lúc, mọi nơi với trợ lý ảo nhanh nhạy. Hệ thống này cũng cung cấp khả năng tra cứu văn bản pháp luật và nhận tư vấn.
- AI Luật (ailuat.luatvietnam.vn): Trợ lý ảo của LuatVietnam, một trong những cổng thông tin pháp luật lớn tại Việt Nam. AI Luật được xây dựng trên hệ thống tri thức pháp luật đáng tin cậy, hỗ trợ giải đáp các tình huống pháp lý cơ bản và tra cứu nội dung văn bản pháp luật.
- Trợ lý ảo luật Việt Nam (trên ChatGPT): Một số phiên bản trợ lý ảo được phát triển trên nền tảng ChatGPT, hỗ trợ tra cứu và tóm tắt nội dung văn bản luật Việt Nam, thường được tích hợp hoặc tham chiếu từ các website như thuvienphapluat.vn.
- LEXcentra (lexcentra.ai): Một hệ thống tra cứu pháp luật áp dụng trí tuệ nhân tạo, được phát triển để hỗ trợ luật sư, người làm công việc liên quan đến pháp luật. LEXcentra hướng đến việc cung cấp công cụ chuyên sâu hơn cho giới chuyên môn.
Các sản phẩm này thường sử dụng các kỹ thuật NLP để hiểu câu hỏi của người dùng, truy xuất thông tin từ cơ sở dữ liệu pháp luật khổng lồ và tạo ra câu trả lời phù hợp. Mặc dù đã có những tiến bộ, các chatbot và hệ thống tra cứu này vẫn đang trong quá trình hoàn thiện, đặc biệt là trong việc xử lý các câu hỏi phức tạp, đa nghĩa và yêu cầu suy luận sâu.
5.2. Các startup, lab, công ty đang xây LegalTech tại VN (nếu có)
Thị trường LegalTech tại Việt Nam đang hình thành với sự tham gia của một số startup và công ty công nghệ, bên cạnh các đơn vị nghiên cứu:
- Thuvienphapluat.vn: Mặc dù không phải là một startup theo nghĩa truyền thống, Thuvienphapluat.vn là một trong những nền tảng pháp luật trực tuyến lớn nhất và có ảnh hưởng nhất tại Việt Nam. Họ đã và đang tích hợp các tính năng AI/NLP vào hệ thống của mình để cải thiện khả năng tra cứu và tương tác với người dùng.
- FPT.AI: Là một trong những đơn vị tiên phong về AI tại Việt Nam, FPT.AI cung cấp các giải pháp AI tổng thể, trong đó có các ứng dụng tiềm năng cho lĩnh vực pháp luật như xử lý tài liệu thông minh (intelligent document processing) và giao tiếp tự động (automated communication). Họ có thể hợp tác hoặc cung cấp công nghệ nền tảng cho các giải pháp LegalTech.
- CMC ATI (Viện nghiên cứu ứng dụng công nghệ CMC): Đã phát triển giải pháp C-LS (Compliance Legal System) ứng dụng AI trong rà soát văn bản pháp luật. Điều này cho thấy CMC ATI đang tích cực tham gia vào lĩnh vực LegalTech với các giải pháp chuyên sâu cho doanh nghiệp và cơ quan nhà nước.
- TechSoft và DIGI-TEXX VIETNAM: Được liệt kê trong danh sách các công ty LegalTech tại Việt Nam, cho thấy sự đa dạng trong các đơn vị tham gia thị trường này. Cần tìm hiểu thêm về các sản phẩm và dịch vụ cụ thể của họ.
- LegalTech.vn: Một cổng thông tin và cộng đồng về công nghệ pháp lý tại Việt Nam, có thể là nơi tập hợp các startup và chuyên gia trong lĩnh vực này.
- Các startup khác: Các startup như UCHI, Vietlaw, IURA, Legback, Lexis, VIETNAM TOP LAW FIRM, bilabl cũng được nhắc đến trong các danh sách về LegalTech tại Việt Nam. Mặc dù thông tin chi tiết về sản phẩm AI/NLP của họ có thể chưa được công bố rộng rãi, sự tồn tại của các đơn vị này cho thấy một hệ sinh thái LegalTech đang phát triển.
Nhìn chung, các sản phẩm và công ty LegalTech tại Việt Nam đang tập trung vào việc giải quyết các vấn đề cơ bản như tra cứu thông tin và tự động hóa các tác vụ đơn giản. Tuy nhiên, tiềm năng phát triển vẫn còn rất lớn, đặc biệt là trong các lĩnh vực chuyên sâu hơn như phân tích án lệ, dự đoán kết quả pháp lý, và hỗ trợ soạn thảo văn bản pháp luật phức tạp.
6. Thách thức hiện tại
Việc ứng dụng AI/NLP trong lĩnh vực pháp luật tại Việt Nam đối mặt với nhiều thách thức đáng kể, đòi hỏi sự phối hợp giữa các nhà nghiên cứu, nhà phát triển, và các cơ quan quản lý:
6.1. Dữ liệu không chuẩn hóa, thiếu benchmark
- Thiếu dataset lớn và chất lượng cao: Đây là thách thức lớn nhất. Dữ liệu pháp luật tiếng Việt thường phân tán, không đồng nhất về định dạng, và thiếu các bộ dữ liệu được gán nhãn chuyên nghiệp, quy mô lớn cho các tác vụ NLP cụ thể (ví dụ: phân loại điều khoản, trích xuất thực thể pháp lý, tóm tắt án lệ). Việc gán nhãn dữ liệu pháp luật đòi hỏi kiến thức chuyên môn sâu về cả pháp luật và NLP, gây tốn kém về thời gian và chi phí.
- Thiếu benchmark chuẩn hóa: Cộng đồng nghiên cứu Legal NLP tiếng Việt chưa có các bộ benchmark được chấp nhận rộng rãi và thường xuyên cập nhật như LegalBench hay LexGLUE ở cấp độ quốc tế. Điều này gây khó khăn trong việc so sánh hiệu suất của các mô hình và phương pháp nghiên cứu khác nhau một cách khách quan.
6.2. Ngôn ngữ tiếng Việt có đặc thù
- Tính phức tạp của ngôn ngữ pháp lý tiếng Việt: Ngôn ngữ pháp lý tiếng Việt có cấu trúc câu phức tạp, nhiều thuật ngữ chuyên ngành, cách diễn đạt trang trọng, và đôi khi có sự mơ hồ, đa nghĩa. Điều này đòi hỏi các mô hình NLP phải có khả năng hiểu sâu sắc ngữ nghĩa và ngữ cảnh, vượt xa khả năng của các mô hình ngôn ngữ tổng quát.
- Thiếu tài nguyên ngôn ngữ chuyên biệt: Mặc dù đã có các mô hình ngôn ngữ lớn cho tiếng Việt (như PhoBERT, ViGPT), nhưng các mô hình này chưa được tinh chỉnh đủ sâu trên corpus pháp luật chuyên biệt, dẫn đến hiệu suất chưa tối ưu cho các tác vụ pháp lý.
6.3. Thiếu nền tảng lý thuyết pháp luật cho NLP
- Khoảng cách giữa luật học và khoa học máy tính: Có một khoảng cách đáng kể giữa các chuyên gia luật và các nhà khoa học máy tính. Việc xây dựng các hệ thống AI pháp luật hiệu quả đòi hỏi sự hiểu biết sâu sắc về cả hai lĩnh vực, từ cấu trúc logic của pháp luật đến các kỹ thuật NLP tiên tiến. Sự thiếu hụt các chuyên gia có kiến thức liên ngành là một rào cản.
- Khó khăn trong việc mã hóa kiến thức pháp luật: Việc chuyển đổi kiến thức pháp luật phức tạp, thường mang tính diễn giải và suy luận, thành các định dạng có thể xử lý được bằng máy tính (ví dụ: ontology, knowledge graph) là một thách thức lớn.
6.4. Mô hình chưa explainable, khó kiểm chứng
- Tính minh bạch và giải thích: Trong lĩnh vực pháp luật, việc một hệ thống AI đưa ra quyết định hoặc gợi ý mà không thể giải thích được lý do là không thể chấp nhận. Các mô hình học sâu thường hoạt động như một “hộp đen”, gây khó khăn trong việc kiểm tra, xác minh và tin cậy vào kết quả của chúng. Điều này đặc biệt quan trọng khi các quyết định của AI có thể ảnh hưởng đến quyền và lợi ích hợp pháp của cá nhân, tổ chức.
- Đảm bảo tính chính xác và tin cậy: Sai sót trong lĩnh vực pháp luật có thể gây ra hậu quả nghiêm trọng. Do đó, việc đảm bảo độ chính xác và tin cậy của các hệ thống AI pháp luật là một yêu cầu bắt buộc, nhưng cũng là một thách thức lớn.
7. Cơ hội và đề xuất
Bên cạnh những thách thức, lĩnh vực AI/NLP cho pháp luật tại Việt Nam cũng đứng trước nhiều cơ hội phát triển lớn:
7.1. Xây dựng benchmark như Vietnamese LegalBench
- Đề xuất: Cộng đồng nghiên cứu và các tổ chức liên quan cần hợp tác để xây dựng một bộ benchmark toàn diện và chuẩn hóa cho Legal NLP tiếng Việt, tương tự như LegalBench. Bộ benchmark này nên bao gồm nhiều tác vụ khác nhau (QA, phân loại, tóm tắt, trích xuất thông tin, nhận diện quan hệ) với các dataset được gán nhãn chất lượng cao và các tiêu chí đánh giá rõ ràng.
- Lợi ích: Điều này sẽ thúc đẩy nghiên cứu, tạo điều kiện cho việc so sánh và cải thiện hiệu suất của các mô hình, đồng thời thu hút sự tham gia của nhiều nhà nghiên cứu và nhà phát triển hơn.
7.2. Kết hợp ontology + LLM để tối ưu giữa deterministic và generative
- Đề xuất: Tận dụng sức mạnh của LLMs trong việc hiểu và sinh văn bản, kết hợp với tính cấu trúc và khả năng suy luận của ontology/knowledge graph. Ontology có thể cung cấp một khung tri thức pháp luật có tổ chức, giúp LLMs “neo” vào các khái niệm và mối quan hệ pháp lý chính xác, giảm thiểu “ảo giác” và tăng cường tính giải thích.
- Lợi ích: Cách tiếp cận này giúp tối ưu hóa giữa tính “xác định” (deterministic) của các hệ thống dựa trên luật và tính “sinh tạo” (generative) của LLMs, tạo ra các hệ thống thông minh hơn, chính xác hơn và đáng tin cậy hơn.
7.3. Vai trò của RAG, auditing, inference pipelines
- RAG (Retrieval-Augmented Generation): Tiếp tục phát triển và tối ưu hóa các hệ thống RAG cho pháp luật tiếng Việt. RAG là chìa khóa để đảm bảo các câu trả lời của LLMs có căn cứ, được hỗ trợ bởi các văn bản pháp luật cụ thể, từ đó tăng cường tính chính xác và khả năng kiểm chứng.
- Auditing (Kiểm toán): Phát triển các công cụ và quy trình để kiểm toán (audit) các hệ thống AI pháp luật, đảm bảo tính công bằng, minh bạch và tuân thủ các quy định pháp luật. Điều này bao gồm việc kiểm tra dữ liệu huấn luyện, thuật toán, và kết quả đầu ra của mô hình.
- Inference Pipelines (Quy trình suy luận): Xây dựng các quy trình suy luận mạnh mẽ và có khả năng mở rộng để triển khai các mô hình AI pháp luật trong môi trường thực tế. Các quy trình này cần đảm bảo hiệu suất, độ tin cậy và khả năng tích hợp với các hệ thống pháp lý hiện có.
7.4. Hướng đến open-source platform / community-driven ecosystem
- Đề xuất: Khuyến khích và hỗ trợ việc xây dựng một nền tảng mã nguồn mở (open-source platform) và một hệ sinh thái do cộng đồng dẫn dắt (community-driven ecosystem) cho Legal NLP tiếng Việt. Điều này bao gồm việc chia sẻ dataset, mô hình, công cụ và kiến thức.
- Lợi ích: Một hệ sinh thái mở sẽ thúc đẩy sự hợp tác, tăng tốc độ nghiên cứu và phát triển, giảm chi phí, và tạo ra nhiều giải pháp sáng tạo hơn. Các cuộc thi, hackathon, và workshop có thể được tổ chức thường xuyên để thu hút và phát triển cộng đồng.
7.5. Nhu cầu đặc thù của pháp luật Việt Nam
- Tập trung vào các lĩnh vực ưu tiên: Tiếp tục tập trung phát triển các giải pháp AI/NLP cho các lĩnh vực luật có nhu cầu cao và dữ liệu tương đối sẵn có như Luật Lao động, Luật Thuế, Luật Dân sự. Điều này giúp tạo ra các sản phẩm có giá trị thực tiễn nhanh chóng và xây dựng kinh nghiệm.
- Hợp tác liên ngành: Tăng cường hợp tác giữa các trường đại học, viện nghiên cứu, cơ quan nhà nước (Bộ Tư pháp, Tòa án, Viện Kiểm sát), các công ty công nghệ và các công ty luật để cùng nhau giải quyết các thách thức về dữ liệu, chuyên môn và triển khai.
- Đào tạo nguồn nhân lực: Đầu tư vào việc đào tạo các chuyên gia có kiến thức liên ngành về luật và AI/NLP để đáp ứng nhu cầu ngày càng tăng của thị trường.
8. Phụ lục
8.1. Danh sách bài báo, dự án, paper
- VLSP 2023 Challenge on Legal Textual Entailment Recognition: Thử thách về nhận diện quan hệ kéo theo văn bản pháp lý tiếng Việt. Thông tin chi tiết có thể tìm thấy trên trang web của VLSP (vlsp.org.vn).
- VLSP 2025 Challenge on Vietnamese Legal Small Language Models: Thử thách dự kiến về xây dựng các mô hình ngôn ngữ nhỏ chuyên biệt cho pháp luật tiếng Việt.
- “Reference Extraction from Vietnamese Legal Documents”: Một bài báo về trích xuất tham chiếu từ các văn bản pháp luật tiếng Việt (ACM, 2019).
- “Optimizing Answer Generator in Vietnamese Legal Question Answering System”: Nghiên cứu về tối ưu hóa bộ sinh câu trả lời trong hệ thống hỏi đáp pháp lý tiếng Việt (ACM, 2025).
- “Vietnamese Legal Information Retrieval in Question-Answering Systems”: Báo cáo về truy xuất thông tin pháp lý tiếng Việt trong hệ thống hỏi đáp (arXiv, 2024).
- “Ontology Knowledge Map Approach Towards Building Linked Data for Vietnamese Legal Domain”: Nghiên cứu về xây dựng bản đồ tri thức ontology cho lĩnh vực pháp luật tiếng Việt (World Scientific, 2024).
- “A Vietnamese Legal Answer Selection Approach Using BERT Language Model”: Nghiên cứu về lựa chọn câu trả lời pháp lý tiếng Việt sử dụng mô hình BERT (IEEE, 2020).
8.2. Link GitHub, HuggingFace, VLSP dataset
- Dataset VNLegalText: https://github.com/mlalab/VNLegalText
- TVPL (Thuvienphapluat.vn) benchmark dataset: Được đề cập trong bài báo “Improving Vietnamese Legal Document Retrieval using Synthetic Data” (arXiv, 2024). Cần tìm kiếm thông tin cụ thể về việc truy cập dataset này.
- VLSP Datasets: Các dataset từ các cuộc thi VLSP thường được công bố trên trang web chính thức của VLSP (vlsp.org.vn) hoặc các trang liên kết như Codabench (ví dụ: VLSP2025 DRiLL shared task trên Codabench).
- HuggingFace Models: Một số mô hình Legal NLP tiếng Việt có sẵn trên HuggingFace:
- GitHub Projects: Một số dự án GitHub liên quan:
- https://github.com/undertheseanlp/resources (Tài nguyên NLP tiếng Việt tổng quát, có thể bao gồm dữ liệu liên quan đến pháp luật)
- https://github.com/anhquan075/CS336-legal-text-retrieval (Dự án truy xuất văn bản pháp luật tiếng Việt)
- https://github.com/foxminchan/LawKnowledge (Ứng dụng tra cứu kiến thức pháp luật Việt Nam)
- https://github.com/DopikAI-Labs/ViGPT (Dự án ViGPT, bao gồm ViGPT-Law)
8.3. Sơ đồ minh họa hệ thống, schema dữ liệu mẫu
Để có sơ đồ minh họa hệ thống hoặc schema dữ liệu mẫu, cần có thông tin chi tiết hơn về một hệ thống cụ thể hoặc một dataset cụ thể. Trong khuôn khổ báo cáo này, việc tạo ra các sơ đồ chi tiết là không khả thi nếu không có yêu cầu cụ thể và dữ liệu đầu vào. Tuy nhiên, các sơ đồ có thể bao gồm:
- Kiến trúc hệ thống Legal QA sử dụng RAG: Minh họa luồng dữ liệu từ câu hỏi người dùng, qua module truy xuất (retriever), đến LLM và tạo câu trả lời.
- Schema của Knowledge Graph pháp lý: Biểu diễn các thực thể (ví dụ: Điều khoản, Luật, Vụ án, Chủ thể) và các mối quan hệ giữa chúng (ví dụ:
quy_dinh_ve
,lien_quan_den
,ap_dung_cho
). - Cấu trúc dataset cho phân loại văn bản pháp luật: Mô tả các trường dữ liệu (ví dụ:
text
,label_linh_vuc
,label_loai_van_ban
).
Việc xây dựng các sơ đồ này đòi hỏi một giai đoạn thiết kế và phân tích sâu hơn, thường là một phần của quá trình phát triển dự án cụ thể.
Bình luận không khả dụng cho bài viết này