TIN TỨC & SỰ KIỆN
Tin tức   Thông báo   Sau đại học 05:03:20 Ngày 18/11/2019 GMT+7
Thông tin LATS của NCS Nguyễn Quang Trung
Tên đề tài luận án: Hướng tiếp cận dựa trên phổ tần số cho bài toán nhận thức tiếng nói

1. Họ và tên nghiên cứu sinh: Nguyễn Quang Trung       

2. Giới tính: Nam

3. Ngày sinh: 10/11/1978                                                 

4. Nơi sinh: Hà Nội

5. Quyết định công nhận NCS số 3451/SĐH ngày 26 tháng 11 năm 2010 của Giám đốc đại học Quốc Gia Hà Nội.

6. Các thay đổi trong quá trình đào tạo: Không

7. Tên đề tài luận án: Hướng tiếp cận dựa trên phổ tần số cho bài toán nhận thức tiếng nói

8. Chuyên ngành: Công nghệ Thông tin.                                          

9. Mã số: 62.48.01.01

10. Cán bộ hướng dẫn khoa học: PGS.TS Bùi Thế Duy

11. Tóm tắt các kết quả mới của luận án:

Luận án nghiên cứu hướng tiếp cận học mối quan hệ giữa tín hiệu tiếng nói với các tín hiệu khác cho bài toán nhận thức tiếng nói. Hướng tiếp cận nhằm mô phỏng cơ chế học ngôn ngữ ở người, tín hiệu tiếng nói được thu nhận bởi hệ thính giác đồng thời với việc thu nhận được các tín hiệu thông tin từ các giác quan khác như thị giác, xúc giác, khứu giác và vị giác. Trong khuôn khổ của luận án này, luận án mới mô phỏng việc học mối quan hệ giữa tín hiệu tiếng nói với một khái niệm cho trước và mô phỏng học mỗi quan hệ giữa tín hiệu tiếng nói với tín hiệu hình ảnh. Các kết quả chính của luận án như sau:

- Đề xuất sử dụng đặc trưng SIFT-SPEECH được trích chọn từ phổ tần số của tín hiệu tiếng nói. Việc đề xuất sử dụng đặc trưng SIFT-SPEECH cho bài toán nhận thức tiếng nói là dựa trên cơ chế thu nhận đặc trưng tiếng nói của hệ thính giác ở con người. Đề xuất sử dụng phương pháp phân lớp LNBNN-SIFT-SPEECH cho bài toán nhận thức tiếng nói bằng cách kết hợp giữa phương pháp phân lớp LNBNN và phương pháp trích chọn đặc trưng SIFT-SPEECH trên phổ tần số của tiếng nói áp dụng cho bài toán nhận dạng tiếng nói đã thu được những kết quả tốt đối với các bộ dữ liệu thực nghiệm.

- Đề xuất mô hình mạng tích chập dựa trên phổ tần số của tiếng nói cho bài toán nhận thức tiếng nói trong mối liên hệ giữa tín hiệu tiếng nói với khái niệm được định nghĩa trước.

- Đề xuất xây dựng mô hình nhận thức tiếng nói mô phỏng việc nhân thức của con người ở vùng não liên kết, xây dựng mô hình học mối quan hệ giữa tín hiệu tiếng nói với tín hiệu hình ảnh.

- Đề xuất cải tiến hiệu năng của mô hình thông qua việc đề xuất phương pháp rút gọn dữ liệu bằng cách biểu diễn đặc trưng SIFT từ một véc tơ 128 chiều với mỗi chiều có kích thước một byte thành một véc tơ SIFT nhị phân 128 bít. Kết quả thực nghiệm cho thấy phương pháp rút gọn dữ liệu này vẫn giữ được độ chính xác của mô hình trong khi giảm kích thước lưu trữ 8 lần.

- Đề xuất cài đặt phương pháp phân lớp LNBNN-HADOOP trên nền Hadoop, một nền tảng cho bài toán xử lý dữ liệu lớn song song và phân tán. Nền tảng Hadoop, cho phép kết hợp nhiều máy tính có cấu hình thấp hơn để tạo thành một hệ thống xử lý song song, phân tán mạnh hơn, tận dụng được sức mạnh của các hệ thống máy tính hiện có.  

12. Khả năng ứng dụng trong thực tiễn: Các kết quả nghiên cứu của luận án có thể ứng dụng trong lĩnh vực giao tiếp người máy. Đây cũng là bước tiền đề để phát triển mô hình nhận thức cho người máy hoàn thiện hơn, gần với quá trình nhận thức của con người thông qua trang bị các bộ cảm biến mô phỏng các cơ quan giác quan của con người, giúp nâng cao thông tin cho hệ thống người máy.

13. Những hướng nghiên cứu tiếp theo:

- Xây dựng dữ liệu phù hợp hơn, đủ lớn để nâng cao độ chính xác của mô hình nhận thức tiếng nói thông qua học mối quan hệ giữa tín hiệu tiếng nói với các tín hiệu khác.

 - Nghiên cứu hoàn thiện mô hình nhận thức tiếng nói sao cho sau khi huấn luyện, mô hình sẽ gợi nhớ lại (tổng hợp lại được hình ảnh) được các hình ảnh tương ứng với tín hiệu tiếng nói, và gợi nhớ lại được tiếng nói (tổng hợp lại được tiếng nói) từ tín hiệu hình ảnh.

- Nghiên cứu bổ sung thêm cho mô hình các tín hiệu khác mô phỏng cho các cơ quan cảm giác khác của con người.

- Nghiên cứu cải tiến trích chọn đặc trưng tiếng nói nhằm nâng cao chất lượng của mô hình nhận thức tiếng nói.

- Nghiên cứu ứng dụng mô hình nhận thức tiếng nói vào lĩnh vực điều khiển người máy, nhằm nâng cao khả năng tự học của người máy trong quá trình hoạt động, giao tiếp với môi trường xung quanh.

14. Các công trình đã công bố có liên quan đến luận án:

[1] Quang Trung, Nguyễn; Thế Duy, Bùi; Thị Châu, Ma; 2015, An Image based approach for speech perception, (2015) 2nd National Foundation for Science and Technology Development Conference on Information and Computer Science, Springer, 208 – 213.

[2] Quang Trung, Nguyen; The Duy, Bui; (2016), Speech classification using SIFT features on spectrogram images, Vietnam Journal of Computer Science, 3(4), 247-257.

[3] The Duy, Bui; Quang Trung, Nguyen; Speech classification by using binary quantized SIFT features of signal spectrogram images, (2016), 3rd National Foundation for Science and Technology Development Conference on Information and Computer Science, IEEE.

[4] Quang Trung, Nguyen; The Duy, Bui; (2016), MapReduce based for speech classification SoICT '16: Proceedings of the Seventh Symposium on Information and Communication Technology, ACM.

[5] The Duy, Bui; Quang Trung, Nguyen; (2016), Learning relationshipbetween speech and image, The 8th International Conference on Knowledge and Systems Engineering (KSE) 2016, IEEE, 103-108.

[6] Quang Trung, Nguyen; The Duy, Bui;  (2018),  Speech perception based on mapping speech to image by using convolution neural network, The 5th NAFOSTED Conference on Information and Computer Science, NICS 2018, IEEE.

 Hạnh Tạ - VNU - UET
   In bài viết     Gửi cho bạn bè
  Từ khóa :
   Xem tin bài theo thời gian :
TRÊN WEBSITE KHÁC
THĂM DÒ DƯ LUẬN
Bạn sẽ thi vào trường đại học nào?
  • Khoa Quản trị Kinh doanh
  • Trường Đại học Khoa học Tự nhiên
  • Trường Đại học Khoa học Xã hội và Nhân văn
  • Trường Đại học Ngoại ngữ
  • Trường Đại học Công nghệ
  • Trường Đại học Kinh tế
  • Trường Đại học Giáo dục
  • Khoa Luật
  • Khoa Quốc tế
  • Khoa Y Dược