Kỹ thuật & Công nghệ

Các nhà lập trình phần mềm dịch giọng nói thông minh nhân tạo hoàn toàn bị thách thức mới nhất năm 2024

Chuyên trang cung cấp kiến thức công nghệ & Kỹ thuật chuyên ngành đóng gói, bao bì, giải pháp Logistics, vận chuyển (Thiết bị đóng gói, vật liệu tiêu hao, nguyên liệu nghành bao bì, đóng gói tự động hay bán tự động được thiết kế, sản xuất để hỗ trợ cho quá trình sản xuất và vận chuyển.

Các nhà lập trình phần mềm dịch giọng nói thông minh nhân tạo hoàn toàn bị thách thức
, cập nhật nội dung mới nhất năm 2024

Khoảng một tháng trước, tôi lấy một số băng cát-sét cũ mà tôi có, và một số băng video cũ mà tôi đã lưu lại khi phát biểu và cố gắng chuyển chúng thành văn bản số hóa. Tôi đã có một ý tưởng ngớ ngẩn, nhưng khá thông minh; Tôi sẽ bật phần mềm nhận dạng giọng nói trên máy tính, đặt tai nghe lên TV, bật TV lên mức âm lượng lớn thích hợp và phát video. Lý thuyết là nó sẽ ghi lại mọi thứ đã được nói vào phần mềm nhận dạng giọng nói và tôi có thể chuyển đổi chúng thành sách điện tử, bài báo và tệp từ.

Nó không hoạt động.

Tiếp theo, tôi lấy một số băng cát-sét cũ từ một máy ghi âm siêu nhỏ mà tôi thường ghi lại trong các bài phát biểu của cộng đồng địa phương và trong các buổi thuyết trình đại học nơi tôi thuyết trình. Tôi bật máy ghi âm băng cassette và thử điều tương tự. Nó cũng không hoạt động tốt lắm. Khi tôi xem tệp word mà phần mềm nhận dạng giọng nói của tôi đã tạo – nó khá nhiều rác. Mặc dù, nó là khá buồn cười những gì nó viết.

Thật vậy, tôi đã nghĩ rằng có lẽ khả năng chuyển đổi giọng nói của tôi quá lớn, hoặc giọng nói của tôi quá hoạt hình. Tôi cũng đã xem xét rằng các cuốn băng đã quá cũ, và / hoặc nó đã thu âm khá tốt, đủ để dịch sang số một và số không. Thật thú vị vào một ngày nọ, tôi đọc một bài báo khiến tôi phải suy nghĩ lại về chiến lược trước đây của mình.

Trên thực tế, có một bài báo tuyệt vời xoay quanh chủ đề này trên Tạp chí Phố Wall vào ngày 4 tháng 5 năm 2011 của Nick Wingfield với tiêu đề “Nói gì? Thông điệp công nghệ cao có thể bị mất khi dịch – Thiết bị giúp giao tiếp dễ dàng hơn hoặc khó hiểu; điện thoại thì không Chửi thề ”- một bài báo rất vui nhộn, nhưng nó không phải là tất cả những gì buồn cười khi con người ngày càng dựa vào những điều này, bạn thấy không?

Bây giờ, đối với tôi, rõ ràng là các lập trình viên của phần mềm dịch giọng nói thông minh nhân tạo có nhiều việc phải làm hơn, và tôi có thể thấy họ hoàn toàn bị thách thức. Thường có quá nhiều tiếng ồn xung quanh và mỗi người nói một phương ngữ, giọng hơi khác nhau, và tất cả phụ thuộc vào ngôn ngữ xuất xứ của họ và khu vực họ đến khi họ phát triển ngôn ngữ của mình.

Bạn có thể tưởng tượng mọi người khó khăn như thế nào khi lập trình phần mềm nhận dạng giọng nói và sau đó dịch nó từ ngôn ngữ này sang ngôn ngữ khác. Rõ ràng là có đủ thách thức chỉ để bản thu âm phát ra đúng với nhiều điểm nhấn khác nhau hoặc hệ thống âm thanh kém. Sau đó, có vấn đề với bản dịch, và một số cụm từ và từ đơn giản là không khớp với các ngôn ngữ khác.

Điều thú vị là các dịch giả chuyên nghiệp có thể lấy một bài phát biểu từ một ngôn ngữ này và dịch nó sang một ngôn ngữ khác, điều chỉnh các cụm từ trong mỗi ngôn ngữ để nó có ý nghĩa. Liên hợp quốc có một số phần mềm dịch thuật thú vị và nó hoạt động khá tốt, nhưng thậm chí nó vẫn chưa đủ tốt, và do đó gây ra những thách thức trong giao tiếp và làm tổn thương cảm xúc thường xuyên.

Có lẽ đây sẽ là một trong những thách thức lớn nhất của các lập trình viên dịch giọng nói thông minh nhân tạo trong tương lai. Tôi đoán rằng nó sẽ như vậy. Thật vậy, tôi hy vọng bạn sẽ vui lòng xem xét tất cả những điều này và suy nghĩ về nó. Nếu bạn đưa ra bất kỳ chiến lược, ý tưởng hoặc khái niệm mới nào trong lĩnh vực này, vui lòng liên hệ với tôi.

Box Space (Saigongiftbox.com)

Back to top button