paint-brush
Đăng ký trò chơi: AI có thể giúp các luồng thể thao có thể truy cập được không?từ tác giả@degravia
252 lượt đọc

Đăng ký trò chơi: AI có thể giúp các luồng thể thao có thể truy cập được không?

từ tác giả Roman Garin7m2023/09/19
Read on Terminal Reader

dài quá đọc không nổi

Dịch sang ngôn ngữ ký hiệu theo thời gian thực là một nhiệm vụ khó khăn, ngay cả đối với người phiên dịch. Sử dụng AI để giải quyết vấn đề này là một thử thách rất thú vị.
featured image - Đăng ký trò chơi: AI có thể giúp các luồng thể thao có thể truy cập được không?
Roman Garin HackerNoon profile picture
0-item

Ngày 23 tháng 9 là Ngày Quốc tế Ngôn ngữ Ký hiệu , do Liên Hợp Quốc tuyên bố vào năm 2017. Ngày này là một dịp tốt để mơ ước (hoặc có thể đặt mục tiêu) rằng một ngày sẽ đến khi tất cả các sản phẩm truyền thông và công nghệ đều có thể tiếp cận như nhau bởi mọi người. tất cả mọi người bất kể khuyết tật của họ. Tôi mơ rằng một ngày nào đó tất cả người khiếm thính sẽ có thể xem các chương trình thể thao trực tiếp. Dịch sang ngôn ngữ ký hiệu theo thời gian thực là một nhiệm vụ khó khăn, ngay cả đối với người phiên dịch. Nhưng vì có quá ít thông dịch viên lành nghề và có quá nhiều ngôn ngữ ký hiệu khác nhau nên các kênh thể thao hiện không thể thực sự được tiếp cận trên toàn cầu. Sử dụng Trí tuệ nhân tạo (AI) để giải quyết vấn đề này là một thách thức kỹ thuật rất thú vị và chắc chắn là một lý do rất chính đáng. Rất nhiều điều đã được thực hiện trong lĩnh vực này trong vài năm qua, nhưng những trở ngại vẫn còn tồn tại. Trong bài viết này, tôi cung cấp cái nhìn tổng quan về công nghệ mới nhất dành riêng cho mục tiêu này và mời bạn thảo luận về những phát hiện này cũng như góp phần giải đáp câu đố này.

Thể thao không dành cho tất cả mọi người?

Thể thao là Vua, thời kỳ. Kể từ Thế vận hội cổ đại đầu tiên (và thậm chí có thể trước đó nữa), nó đã giúp biến phần cạnh tranh trong bản chất con người thành các hình thức bất bạo động. Nó đã đoàn kết hàng triệu người trên toàn cầu và vượt ra ngoài biên giới chính trị. Nó cũng là kẻ thống trị vũ trụ truyền thông và kỹ thuật số hiện đại. Dựa theo Nghiên cứu và thị trường, thị trường thể thao toàn cầu đã tăng từ 486,61 tỷ USD vào năm 2022 lên 512,14 tỷ USD vào năm 2023 với tốc độ tăng trưởng kép hàng năm (CAGR) là 5,2%. Thị trường thể thao dự kiến sẽ tăng thêm lên 623,63 tỷ USD vào năm 2027 với tốc độ CAGR là 5,0%. Tốc độ này nhanh hơn nhiều so với tốc độ tăng trưởng kinh tế thế giới, dự kiến sẽ giảm từ mức ước tính 3,5% vào năm 2022 xuống còn 3,0% trong cả năm 2023 và 2024, theo báo cáo của IMF. Quỹ Tiền tệ Quốc tế . Chỉ riêng thị trường phát trực tuyến video thể thao trực tuyến toàn cầu đã được định giá 18,11 tỷ USD vào năm 2020 và được mong đợi đạt 87,33 tỷ USD vào năm 2028. Minh họa thêm cho sự phổ biến của thể thao, năm 2022 báo cáo của Nielsen Sports tiết lộ rằng 31% doanh thu quảng cáo truyền hình tuyến tính của Hoa Kỳ phụ thuộc vào chương trình thể thao trực tiếp, mặc dù thể thao chỉ chiếm 2,7% nội dung chương trình phát sóng hiện có.


Tuy nhiên, ngành công nghiệp khổng lồ này đã bỏ lỡ (một phần hoặc toàn bộ) một phần đáng kể dân số thế giới. Liên Hiệp Quốc dữ liệu cho thấy có 70 triệu người điếc trên thế giới, chiếm chưa đến 10% dân số 8,05 tỷ người trên Trái đất. Vấn đề ngày càng nghiêm trọng: Tổ chức Y tế Thế giới dự kiến đến năm 2050, 2,5 tỷ người (hoặc khoảng 1/4 tổng số nhân loại) sẽ bị mất thính lực ở một mức độ nào đó. Tất nhiên, nhiều chương trình thể thao có phụ đề. Nhưng vấn đề là nhiều người điếc gặp khó khăn trong việc học đọc và viết. Ở hầu hết các nước, tỷ lệ mù chữ ở người điếc là trên 75% , một tỷ lệ thực sự đáng kinh ngạc. Nhiều chương trình phát sóng, đặc biệt là trên TV, có thông dịch viên ngôn ngữ ký hiệu trực tiếp. Nhưng, một lần nữa, có một vấn đề. Người khiếm thính trên toàn cầu sử dụng hơn 300 ngôn ngữ ký hiệu khác nhau và hầu hết chúng đều không thể hiểu được lẫn nhau. Rõ ràng là không thể thuê 300 thông dịch viên để làm cho một chương trình phát thanh có thể truy cập được trên toàn cầu. Nhưng điều gì sẽ xảy ra nếu chúng ta thuê một AI thay thế?

Ký hiệu (ngôn ngữ) của cuộc sống

Để hiểu đầy đủ về độ khó của nhiệm vụ này, chúng ta hãy tìm hiểu ngắn gọn về ngôn ngữ ký hiệu thực sự là gì. Trong lịch sử, chúng thường được sử dụng làm ngôn ngữ chung bởi những người có thính giác bình thường nhưng nói các ngôn ngữ khác nhau. Ví dụ nổi tiếng nhất là ngôn ngữ ký hiệu của đồng bằng Indian ở Bắc Mỹ thế kỷ 19. Ngôn ngữ của các bộ tộc khác nhau không giống nhau, nhưng lối sống và môi trường của họ khá giống nhau, điều này giúp họ tìm ra những biểu tượng chung. Ví dụ, một vòng tròn vẽ trên bầu trời có nghĩa là mặt trăng, hoặc thứ gì đó có màu nhạt như mặt trăng. Những cách giao tiếp tương tự đã được các bộ lạc ở Châu Phi và Úc sử dụng.


Tuy nhiên, điều này không xảy ra với ngôn ngữ ký hiệu được người điếc sử dụng. Họ đã và đang phát triển độc lập ở từng vùng, từng quốc gia và thậm chí đôi khi còn khác nhau giữa các thành phố. Ví dụ: Ngôn ngữ ký hiệu của Mỹ (ASL) được sử dụng rộng rãi ở Mỹ hoàn toàn khác với Ngôn ngữ ký hiệu của Anh mặc dù cả hai nước đều nói tiếng Anh. Trớ trêu thay, ASL lại là gần gũi hơn với Ngôn ngữ ký hiệu tiếng Pháp cổ (LSF) bởi vì một người khiếm thính người Pháp, Laurent Clerc, là một trong những giáo viên đầu tiên dạy cho người khiếm thính ở Mỹ vào thế kỷ 19. Trái ngược với niềm tin phổ biến, không có ngôn ngữ ký hiệu quốc tế thực sự. Một nỗ lực để tạo ra một cái là Gestuno, hiện được gọi là Ngôn ngữ ký hiệu quốc tế , được Liên đoàn Người Điếc Quốc tế hình thành vào năm 1951. Tuy nhiên, cũng giống như Esperanto, một dạng tương tự dành cho người khiếm thính, nó gần như không phổ biến để trở thành một giải pháp thực sự.


Một điều quan trọng khác cần lưu ý khi thảo luận về bản dịch sang ngôn ngữ ký hiệu, đó là chúng là những ngôn ngữ độc lập, hoàn toàn khác với những ngôn ngữ chúng ta có thể nghe thấy. Một quan niệm sai lầm rất phổ biến là ngôn ngữ ký hiệu đang bắt chước ngôn ngữ mà người nghe nói. Ngược lại, chúng có cấu trúc ngôn ngữ, ngữ pháp và cú pháp hoàn toàn khác nhau. Ví dụ: ASL có cú pháp chủ đề-nhận xét, trong khi tiếng Anh sử dụng cấu trúc chủ ngữ-tân ngữ-động từ. Vì vậy, về mặt cú pháp, ASL thực sự chia sẻ nhiều hơn với người nói tiếng Nhật hơn là với tiếng Anh. Có bảng chữ cái ký hiệu (xem thêm về chúng đây ), nhưng chúng được dùng để đánh vần tên riêng của địa điểm và con người chứ không phải để soạn từ.

Phá vỡ các rào cản

Đã có rất nhiều nỗ lực để kết nối ngôn ngữ nói và ngôn ngữ ký hiệu sử dụng “găng tay robot” để nhận dạng cử chỉ. Một số trong số đó có niên đại từ những năm 1980. Theo thời gian, những thiết bị phức tạp hơn đã được thêm vào, như gia tốc kế và đủ loại cảm biến. Tuy nhiên, sự thành công của những nỗ lực này tốt nhất là bị giới hạn . Và dù sao đi nữa, hầu hết họ đều tập trung vào việc dịch ngôn ngữ ký hiệu sang ngôn ngữ nói chứ không phải ngược lại. Những phát triển gần đây về thị giác máy tính, nhận dạng giọng nói, mạng lưới thần kinh, học máy và AI mang lại hy vọng rằng việc dịch trực tiếp từ ngôn ngữ nói sang ngôn ngữ ký hiệu cũng có thể thực hiện được.


Con đường phổ biến nhất là sử dụng hình đại diện 3d để hiển thị cử chỉ và cảm xúc bằng ngôn ngữ ký hiệu, sử dụng lời nói và dữ liệu khác làm đầu vào. Một tính năng đáng chú ý được phát triển bởi NHK công ty phát thanh truyền hình ở Nhật Bản cho phép dịch dữ liệu thể thao, như tên, tỷ số của người chơi, v.v. sang ngôn ngữ ký hiệu được hiển thị bằng hình đại diện hoạt hình giống như phim hoạt hình. Dữ liệu nhận được từ người tổ chức sự kiện hoặc các đơn vị khác sẽ được diễn giải và đưa vào các mẫu rồi được thể hiện bằng hình đại diện. Tuy nhiên, chỉ có một số loại dữ liệu có thể được dịch theo cách này. NHK cho biết họ tiếp tục phát triển công nghệ để các avatar có thể thể hiện cảm xúc theo cách giống con người hơn.


Lenovo và Trung tâm Đổi mới CESAR của Brazil công bố gần đây họ đang tạo ra một máy dịch ngôn ngữ ký hiệu để nghe những người sử dụng AI. Tương tự, SLAIT (viết tắt của Sign Language AI Translator) đã và đang phát triển một công cụ giáo dục giúp học ASL theo cách tương tác. Mặc dù các nhiệm vụ này khác với phạm vi của chúng tôi, nhưng các kỹ thuật thị giác máy tính và mô hình đào tạo AI do các dự án này phát triển có thể rất hữu ích trong việc cung cấp bản dịch từ lời nói sang ngôn ngữ ký hiệu trong tương lai.


Các công ty khởi nghiệp khác đang tiến gần hơn đến chủ đề thảo luận của chúng tôi. Ví dụ: Signapseđã đến với giải pháp có thể dịch văn bản sang ngôn ngữ ký hiệu được hiển thị dưới dạng chuyển động hình đại diện hoạt hình giống như ảnh thực tế. Công ty sử dụng Mạng đối thủ sáng tạo và các kỹ thuật học sâu, cũng như cơ sở dữ liệu video không ngừng phát triển (thông tin thêm về điều đó trong bài viết được bình duyệt của họ đây ). Tuy nhiên, nền tảng này chủ yếu nhằm mục đích dịch các thông báo công khai và văn bản trên trang web. Nói cách khác, có vẻ như vẫn còn lâu mới có được bản dịch trực tiếp theo thời gian thực.


Công ty khởi nghiệp CODA có trụ sở tại Israel đã tiến thêm một bước tới mục tiêu của chúng tôi. Nó đã phát triển một công cụ dịch âm thanh sang ký hiệu được hỗ trợ bởi AI và tuyên bố rằng nó hoạt động "gần như ngay lập tức" . Nó hiện cung cấp dịch vụ của mình bằng năm ngôn ngữ nguồn: tiếng Anh, tiếng Do Thái, tiếng Pháp, tiếng Tây Ban Nha và tiếng Ý. Tiếp theo, CODA đặt mục tiêu bổ sung nhiều ngôn ngữ ký hiệu khác nhau của các quốc gia có dân số cao như Ấn Độ và Trung Quốc.


Có thể cho rằng trận đấu gần nhất với giấc mơ của chúng tôi đã được Baidu AI Cloud trình bày trên nền tảng hình đại diện kỹ thuật số Xiling. Nền tảng đã được đưa ra để cung cấp cho khán giả khiếm thính các chương trình phát sóng về Thế vận hội mùa đông Paralympic Bắc Kinh 2022. Truyền thông địa phương cho biết họ có khả năng tạo ra các avatar kỹ thuật số để dịch ngôn ngữ ký hiệu và phiên dịch trực tiếp “trong vòng vài phút”.

Phần kết luận

Bước tiếp theo trong quá trình phát triển bản dịch từ giọng nói sang ký hiệu sẽ là mở rộng đầu ra sang nhiều ngôn ngữ ký hiệu nhất có thể và giảm khoảng cách thời gian cần thiết để dịch từ vài phút xuống vài giây. Cả hai nhiệm vụ đều đại diện cho những thách thức lớn. Việc thêm nhiều ngôn ngữ ký hiệu hơn vào nguồn cấp dữ liệu đầu ra có nghĩa là tạo và phát triển vĩnh viễn cơ sở dữ liệu phong phú về cử chỉ tay và cơ thể cũng như nét mặt. Việc giảm khoảng cách thời gian thậm chí còn quan trọng hơn vì thể thao là những khoảnh khắc. Ngay cả một khoảng thời gian dài một phút cũng có nghĩa là buổi phát sóng sẽ bị trì hoãn, nếu không khán giả sẽ bỏ lỡ nội dung cốt lõi của trò chơi. Có thể giảm thời gian cần thiết để dịch bằng cách xây dựng cơ sở hạ tầng phần cứng mở rộng hơn, phát triển cơ sở dữ liệu về các mẫu giọng nói điển hình nhất có thể được nhận dạng trước khi cụm từ kết thúc. Tất cả điều này nghe có vẻ giống như một sự mạo hiểm tốn kém. Nhưng một mặt, việc cải thiện chất lượng cuộc sống cho hàng triệu người là vô giá. Mặt khác, chúng tôi không chỉ nói về lòng bác ái. Hãy nghĩ đến lượng khán giả bổ sung mà chương trình phát sóng sẽ nhận được và số tiền tài trợ đang được sử dụng. Nhìn chung, đây có thể là một trò chơi đôi bên cùng có lợi.


Có vẻ như các ông lớn công nghệ cũng đang tham gia cuộc đua. Zippia, một cổng thông tin nghề nghiệp, gần đây đã chỉ ra rằng Google đã được tuyển dụng thông dịch viên ngôn ngữ ký hiệu với mức lương cao hơn gấp đôi mức lương mà họ thường mong đợi ở Hoa Kỳ ($110,734 so với mức trung bình là $43,655). Với tốc độ này, một thông dịch viên ngôn ngữ sẽ nhận được nhiều hơn khoảng 10% so với một kỹ sư phần mềm trung bình ở Mỹ ( $100,260 ). Đây có thể là một gợi ý rằng chúng ta đang mong đợi một bước đột phá lớn sớm…


Hãy bình luận và cùng chúng tôi chung tay tìm ra giải pháp nhé!