Tin tức chung
Trang chủ   >  Tin tức  >   Tin tức chung  >  
DOIT: Hệ thống kiểm lỗi chính tả và phát hiện sao chép văn bản
Giới khoa học quốc tế hiện nay thường sử dụng các hệ thống Turnitin, CheckforPlagiarism hay PlagScan… để kiểm tra lỗi chính tả, ngữ pháp, định dạng và sự trùng lặp của các văn bản, tài liệu viết bằng tiếng Anh. Tuy nhiên, không phải nhà khoa học nào trong nước cũng có thể sử dụng được các công cụ này bởi các hệ thống có thu phí sử dụng khá cao và chưa hiệu quả với tài liệu tiếng Việt.

Mới đây, nhóm các nhà khoa học của Trường ĐH Công nghệ, ĐHQGHN đã hoàn thành hệ thống Doit (Document Improvement Tools, http://doit.uet.vnu.edu.vn/) với các chức năng kiểm tra lỗi chính tả và phát hiện sao chép, hứa hẹn đem đến nhiều khả năng ứng dụng cho các văn bản tiếng Việt.

Để có thêm thông tin về hệ thống này, chúng tôi đã có cuộc phỏng vấn TS. Võ Đình Hiếu – Giảng viên Khoa Công nghệ thông tin, Trường ĐH Công nghệ, ĐHQGHN.

- Được biết Hệ thống kiểm tra lỗi chính tả và phát hiện sao chép là kết quả của đề tài nghiên cứu khoa học và công nghệ cấp ĐHQGHN do anh và các đồng nghiệp thực hiện. Anh có thể cho biết cụ thể thêm một số thông tin về đề tài này?

Hệ thống kiểm tra lỗi chính tả và phát hiện sao chép là đề tài nghiên cứu cấp ĐHQGHN được chúng tôi triển khai từ năm 2014. Mục tiêu ban đầu đặt ra là nghiên cứu các phương pháp kiểm lỗi chính tả; các phương pháp so sánh văn bản để phát hiện sao chép; xây dựng hệ thống hướng dịch vụ hỗ trợ kiểm lỗi chính tả và phát hiện sao chép văn bản ứng dụng cho quản lý khóa luận tốt nghiệp, luận văn thạc sĩ và luận án tiến sĩ trong lĩnh vực công nghệ thông tin tại ĐHQGHN. Đề tài cũng hướng đến việc phát triển chuyên môn cho giảng viên, đào tạo và phát triển nghiên cứu khoa học cho nghiên cứu sinh, học viên cao học, sinh viên đại học trong các lĩnh vực liên quan đến đề tài.

Trang chủ hệ thống Doit (http://doit.uet.vnu.edu.vn/)

- Anh có thể thông tin cụ thể hơn về nhóm những nhà khoa học thực hiện nghiên cứu này?

Chúng tôi gồm 3 thành viên chính: PGS.TS Phạm Bảo Sơn, PGS.TS Lê Anh Cường, TS. Võ Đình Hiếu là các giảng viên của Khoa Công nghệ thông tin, Trường ĐH Công nghệ cùng một số thành viên là nghiên cứu sinh, học viên và sinh viên của Khoa.

Nhóm chúng tôi xác định, thông qua việc thực hiện đề tài này sẽ có những đóng góp song hành trong đào tạo nguồn nhân lực. Các nghiên cứu sinh, học viên, và sinh viên sẽ trưởng thành thông qua các nghiên cứu cụ thể và cập nhật thêm được các phương pháp, nội dung nghiên cứu từ những giảng viên - nhà khoa học của Khoa.

-  Đâu là lí do để nhóm các anh xây dựng hệ thống với những chức năng kiểm tra lỗi chính tả và phát hiện sao chép?

Hiện nay, nhiều trường đại học trên thế giới đang sử dụng một số hệ thống để hỗ trợ cho việc kiểm tra và đánh giá văn bản được tạo ra bởi người học (bao gồm các bài tập lớn cho đến các đồ án, khóa luận, luận văn,…). Những hệ thống như vậy thường có hai chức năng chính. Chức năng thứ nhất là chức năng kiểm tra lỗi chính tả, ngữ pháp, và định dạng của văn bản. Chức năng thứ hai là chức năng kiểm tra xem nội dung của văn bản có trùng lặp với nội dung của một tài liệu nào đã được công bố trước đó hay không (phát hiện sao chép). Tuy nhiên các hệ thống này (ví dụ Turnitin, CheckforPlagiarism, và PlagScan) chủ yếu phục vụ cho các tài liệu viết bằng tiếng Anh và có thu phí sử dụng khá cao.

Trong nước đã có khá nhiều nghiên cứu về kiểm tra lỗi chính tả, ngữ pháp của văn bản tiếng Việt, và một vài nghiên cứu về phát hiện sao chép nhưng việc triển khai xây dựng một hệ thống như ở trên thì chưa có. Với mục đích nâng cao chất lượng của các đồ án, khóa luận, luận văn của người học nói riêng và chất lượng giáo dục và đào tạo nói chung, nên chúng tôi đã quyết tâm xây dựng một hệ thống trực tuyến với những chức năng này.

- Sản phẩm khoa học công nghệ chính của đề tài là hệ thống kiểm tra lỗi chính tả và phát hiện sao chép mang tính ứng dụng cao. Anh có thể cho biết các chức năng của hệ thống này?

Hệ thống gồm các chức năng chính là: kiểm lỗi chính tả, đưa ra từ gợi ý để thay thế; phát hiện sao chép giữa các tài liệu trong cùng một nhóm và giữa một tài liệu và các tài liệu khác trong cơ sở dữ liệu của hệ thống; đánh giá văn bản: người dạy có thể sử dụng công cụ để đánh giá báo cáo, khóa luận, luận văn, đồ án của người học; tra cứu văn bản: sinh viên và giảng viên có thể tìm hiểu những nghiên cứu, công trình đã có về một chủ đề nào đấy.

- Hệ thống có đặc điểm gì thưa anh?

Hệ thống được xây dựng trên nền Web và được thiết kế theo các mô đun. Thiết kế này tạo môi trường để giảng viên của Khoa CNTT, Trường ĐHCN thử nghiệm và đưa vào sử dụng các kết quả nghiên cứu mới trong các lĩnh vực liên quan.

Hệ thống sẽ được triển khai theo dạng phần mềm như một dịch vụ. Thông qua hệ thống này, các cơ sở giáo dục có thể có riêng sơ sở dữ liệu và cũng có thể chia sẻ cho các đơn vị khác. Hiện nay, nguồn cơ sở dữ liệu ngày càng được mở rộng, kết quả kiểm tra sao chép ngày càng chính xác.

Hệ thống hỗ trợ hầu hết các định dạng văn bản phổ biến pdf, doc, docx, ppt, txt, odt, v.v.

- Những khó khăn đối với nhóm nghiên cứu khi phát triển hệ thống này là gì?

Các thành viên trong nhóm đã cố gắng để vượt qua được nhiều khó khăn liên quan đến phần kỹ thuật. May mắn là Khoa CNTT có nhiều giảng viên trẻ, đầy nhiệt huyết nên chúng tôi rất dễ chia sẻ, hợp tác để cùng nghiên cứu, giải quyết vấn đề. Nhóm thực hiện đề tài cũng đã nhận được sự tạo điều kiện của lãnh đạo ĐHQGHN và của Trường Đại học Công nghệ. Trong thời gian sắp tới, nhóm rất mong muốn nhận được sự ủng hộ hơn nữa để có thể triển khai hệ thống trên diện rộng, phục vụ cho nhiều đối tượng người dùng thuộc nhiều chuyên ngành khác nhau.

Xin chân thành cảm ơn anh.

 

 Đỗ Ngọc Diệp (thực hiện) - VNU Media
  In bài viết     Gửi cho bạn bè
  Từ khóa :
Thông tin liên quan
Trang: 1   | 2   | 3   | 4   | 5   | 6   | 7   | 8   | 9   | 10   | 11   | 12   | 13   | 14   | 15   | 16   | 17   | 18   | 19   | 20   | 21   | 22   | 23   | 24   | 25   | 26   | 27   | 28   | 29   | 30   | 31   | 32   | 33   | 34   | 35   | 36   | 37   | 38   | 39   | 40   | 41   | 42   | 43   | 44   | 45   | 46   | 47   | 48   | 49   | 50   | 51   | 52   | 53   | 54   | 55   | 56   | 57   | 58   | 59   | 60   | 61   | 62   | 63   | 64   | 65   | 66   | 67   | 68   | 69   | 70   | 71   | 72   | 73   | 74   | 75   | 76   | 77   | 78   | 79   | 80   | 81   | 82   | 83   | 84   | 85   | 86   | 87   | 88   | 89   | 90   | 91   | 92   | 93   | 94   | 95   | 96   | 97   | 98   | 99   | 100   | 101   | 102   | 103   | 104   | 105   | 106   | 107   | 108   | 109   | 110   | 111   | 112   | 113   | 114   | 115   | 116   | 117   | 118   | 119   | 120   | 121   | 122   | 123   | 124   | 125   | 126   | 127   | 128   | 129   | 130   | 131   | 132   | 133   | 134   | 135   | 136   | 137   | 138   | 139   | 140   | 141   | 142   | 143   | 144   | 145   | 146   | 147   | 148   | 149   | 150   | 151   | 152   | 153   | 154   | 155   | 156   | 157   | 158   | 159   | 160   | 161   | 162   | 163   | 164   | 165   | 166   | 167   | 168   | 169   | 170   | 171   | 172   | 173   | 174   | 175   | 176   | 177   | 178   | 179   | 180   | 181   | 182   | 183   | 184   | 185   | 186   | 187   | 188   | 189   | 190   | 191   | 192   | 193   | 194   | 195   | 196   | 197   | 198   | 199   | 200   | 201   | 202   | 203   | 204   | 205   | 206   | 207   | 208   | 209   | 210   | 211   | 212   | 213   | 214   | 215   | 216   | 217   | 218   | 219   | 220   | 221   | 222   | 223   | 224   | 225   | 226   | 227   | 228   | 229   | 230   | 231   | 232   | 233   | 234   | 235   | 236   | 237   | 238   | 239   | 240   | 241   | 242   | 243   | 244   | 245   | 246   | 247   | 248   | 249   | 250   | 251   | 252   | 253   | 254   | 255   | 256   | 257   | 258   | 259   | 260   | 261   | 262   | 263   | 264   | 265   | 266   | 267   | 268   | 269   | 270   | 271   | 272   | 273   | 274   | 275   | 276   | 277   | 278   | 279   | 280   | 281   | 282   | 283   | 284   | 285   | 286   | 287   | 288   | 289   | 290   | 291   | 292   | 293   | 294   | 295   | 296   | 297   | 298   | 299   | 300   | 301   | 302   | 303   | 304   | 305   | 306   | 307   | 308   | 309   | 310   | 311   | 312   | 313   | 314   | 315   | 316   | 317   | 318   | 319   | 320   | 321   | 322   | 323   | 324   | 325   | 326   | 327   | 328   | 329   | 330   | 331   | 332   |