Vì sao Việt Nam chưa đào tạo ngành Ngôn ngữ học Máy tính?

PGS.TS Đinh Điền – Giám đốc Trung tâm Ngôn ngữ học Máy tính ĐH Khoa học Tự nhiên TP.HCM đã có những chia sẻ về liên ngành Ngôn ngữ học Máy tính (NNHMT) và lý giải vì sao ở Việt Nam chưa đào tạo ngành này.

PGS.TS Đinh Điền nói về ngành Ngôn ngữ học Máy tínhPGS.TS Đinh Điền là diễn giả hội thảo tại trường Đại học Hoa Sen sáng ngày 29/8/2019.

PGS.TS Đinh Điền cho biết, NNHMT – một liên ngành giữa Ngôn ngữ học và Tin học – ngày càng phát triển và có nhiều ứng dụng trong đời sống kinh tế xã hội, giáo dục, khoa học công nghệ, an ninh chính trị. Riêng trong lĩnh vực giáo dục, đặc biệt là giáo dục ngôn ngữ (language education), NNHMT có rất nhiều ứng dụng như: dạy phát âm chuẩn (với hình ảnh và âm thanh minh họa sống động cơ cấu phát âm; phần mềm phân tích phổ, chấm điểm phát âm người học); dạy từ vựng theo ngữ cảnh, theo độ phổ biến; dạy văn phạm theo độ khó của văn bản; dạy ngữ nghĩa theo tình huống;… Tất cả những ứng dụng trên sẽ giúp người dạy và người học nâng cao hiệu quả của việc dạy và học, làm sao đạt được kết quả cao trong thời gian ngắn.

Theo PGS.TS Đinh Điền, trong thời đại Cách mạng Công nghiệp 4.0, ứng dụng công nghệ thông tin (CNTT) trong việc giảng dạy ngôn ngữ đã và đang được nhiều trường Đại học tại Việt Nam hướng đến. Sự đổi mới này mang lại nhiều lợi ích cho cả người dạy và người học. Người học có thể học mọi lúc, mọi nơi; học một cách trực quan sinh động, dễ hiểu hơn so với cách dạy truyền thống. Riêng đối với việc giảng dạy ngôn ngữ, thì hầu hết các trường cũng chỉ đang dừng lại ở mức ứng dụng CNTT chứ chưa tiến đến mức ứng dụng liên ngành NNHMT. Nếu chúng ta ứng dụng được các kết quả nghiên cứu của liên ngành NNHMT vào trong giảng dạy ngôn ngữ thì hiệu quả sẽ tăng lên gấp bội vì trọng tâm của NNHMT chính là dùng máy tính để giải quyết các bài toán ngôn ngữ trong đó có bài toán dạy và học ngôn ngữ.

Tuy nhiên, khác với ứng dụng CNTT, những thứ chúng ta hoàn toàn có thể nhập hay mua từ nước ngoài, còn với ứng dụng NNHMT thì lại phụ thuộc vào ngôn ngữ mà chúng ta muốn ứng dụng. Nếu chúng ta chỉ giảng dạy thuần túy tiếng Anh hay các ngoại ngữ thông dụng khác, chúng ta có thể mua các phần mềm có sẵn trên thế giới, nhưng nếu chúng ta muốn giảng dạy liên quan đến tiếng Việt, chúng ta khó và gần như không thể mua các phần mềm có sẵn như thế trên thế giới. Ví dụ phần mềm dạy ngữ âm, từ vựng, ngữ pháp tiếng Việt; hỗ trợ dịch thuật Anh-Việt, Pháp-Việt; phần mềm phát hiện đạo văn, phần mềm đo độ khó của văn bản tiếng Việt,…

Vì vậy, yếu tố đầu tiên cần đảm bảo trong việc ứng dụng NNHMT trong giảng dạy ngôn ngữ chính là tài nguyên ngôn ngữ (language resources) liên quan đến ngôn ngữ cần giảng dạy, như: kho ngữ liệu (corpus), từ điển, ontology, công cụ phân tích/xử lý liên quan đến ngôn ngữ đó vì mỗi ngôn ngữ có những đặc thù riêng. Khi ứng dụng NNHMT trong giảng dạy ngôn ngữ, người học trở nên chủ động hơn và họ có thể tự “nghiệm” ra, tự rút ra kiến thức từ thực tiễn học chứ không chỉ thụ động tiếp nhận kiến thức từ người thầy. Ngược lại, người thầy có điều kiện dễ dàng cập nhật những kiến thức mới từ thế giới thực, dễ dàng “mã hóa”, tích hợp những tri thức muốn truyền đạt vào trong ứng dụng để người học tự khám phá. Người thầy trở thành “huấn luyện viên” giúp cho người học cách tự tập luyện, tự khám phá, vì khi tự khám phá thì người học sẽ hiểu rõ và nhớ lâu hơn so với khi tiếp thu thụ động do trong quá trình khám phá họ đã gắn liền kiến thức mới đó với ngữ cảnh thực tiễn. Một ví dụ trực quan là học từ vựng: Nếu chúng ta học từng từ rời sẽ rất khó hiểu và khó nhớ, nhưng nếu từ đó được gắn liền với ngữ cảnh, với những “câu chuyện” sinh động thì người học sẽ khó mà quên được.

PGS.TS Đinh Điền là người có nhiều công trình nghiên cứu về NNHMT.

PGS.TS Đinh Điền chia sẻ: “Vừa qua, trên báo VnExpress có đăng một bài rất hay của GS. Đặng Hùng Võ với nhan đề “AI cũng khóc!”. AI (Artificial Intelligence: trí tuệ nhân tạo) là từ khóa được nhắc đến rất nhiều khi đề cập đến thời đại CMCN 4.0. Tại sao AI ở VN cũng phải “khóc”? Là vì đói dữ liệu (data). Dữ liệu đối với máy tính có vai trò như nhiên liệu xăng đối với xe. Nếu không có nhiên liệu thì bao nhiêu xe nhập về cũng để nằm đó”.

Ông cho biết, một khoa ngoại ngữ ở một trường ĐH lớn ở TP.HCM được một cty nước ngoài tặng một số phần mềm hỗ trợ biên dịch trị giá hàng chục ngàn USD, nhưng cứ đành phải để đó vài năm và hết hạn sử dụng vì không có dữ liệu; mà dữ liệu này dù khoa đó có tiền cũng không biết mua ở đâu vì nó liên quan đến ngữ liệu song ngữ Anh-Việt. Chính vì vậy, mà ở Trung Quốc, người ta đào tạo hàng trăm ngàn người (người về hưu, người thất nghiệp, sinh viên làm thêm, …) để làm nhiệm vụ sản xuất dữ liệu cho AI (gọi là những người chú thích dữ liệu: data annotator). Vì AI phải có dữ liệu thì nó mới tự học theo công nghệ Học máy (Machine Learning) để xử lý tự động một cách thông minh được.

Với NNHMT thì dữ liệu đó chính là ngữ liệu. Mà ngữ liệu lại phụ thuộc vào ngôn ngữ. Chỉ có người bản ngữ mới đủ tri thức và sự cảm nhận ngôn ngữ để xây dựng kho ngữ liệu cho tiếng mẹ đẻ của mình. Đó là lý do PGS.TS Đinh Điền nhận được nhiều đơn hàng, email từ các tập đoàn lớn trên thế giới (như: Google, Samsung Elec., SYSTRAN, …) về việc cung cấp tài nguyên ngôn ngữ tiếng Việt, nhân lực người Việt để chú thích ngữ liệu tiếng Việt cho các tập đoàn đó. Tiếc là đến nay chúng ta vẫn chưa có trường đại học nào ở Việt Nam đào tạo nguồn nhân lực này.

Theo PGS.TS Đinh Điền, lý do đào tạo liên ngành NNHMT ở Việt Nam vẫn chưa thành hiện thực do nhiều nguyên nhân, như: quy chế mở ngành (điều kiện nhân sự, mã ngành,…), do cách thức đào tạo đơn ngành một cách tách biệt như ở Việt Nam hiện nay. Chẳng hạn: cử nhân tốt nghiệp khối A không thể được học tiếp lên cao học khối C/D và ngược lại trong khi Tin học thuộc khối A, Ngôn ngữ lại thuộc khối C/D. Trong khi đó, ở các trường nước ngoài (Mỹ, Nhật, Hàn, Sing,… chẳng hạn) cho phép điều đó. Thậm chí cho phép SV ngành Ngôn ngữ tích lũy một số tín chỉ của bên Tin học và ngược lại sao cho đủ kiến thức của NNHMT là được.

“Tóm lại: chúng ta cần đào tạo liên ngành theo cơ chế thoáng hơn thì mới đào tạo được cử nhân NNHMT. Thời đại CMCN 4.0 là thời đại cần kiến thức liên ngành”, PGS.TS Đinh Điền khẳng định.

image