Inside the Tech - Giải quyết vấn đề an toàn trong giao tiếp giọng nói nhập vai

Sự phát triển của các avatar Roblox
Với Kiran Bhat, Giám đốc cấp cao bộ phận Kỹ thuật, Mahesh Ramasubramanian, Giám đốc cấp cao bộ phận Sản phẩm, và Effie Goenawan, Trưởng phòng Quản lý Sản phẩm
Giám đốc Kỹ thuật cấp cao Kiran Bhat, Giám đốc Sản phẩm cấp cao Mahesh Ramasubramanian và Quản lý Sản phẩm chính Effie Goenawan sẽ cùng CEO David Baszucki thảo luận về tương lai của giao tiếp nhập vai thông qua avatar và những thách thức kỹ thuật mà chúng tôi đang giải quyết để hiện thực hóa điều này. Họ sẽ thảo luận sâu về cách các avatar biểu cảm không chỉ cho phép chúng ta thể hiện bản thân trong thế giới kỹ thuật số, mà còn giao tiếp một cách nhập vai hơn thông qua giọng nói, nét mặt và ngôn ngữ cơ thể.
Những thách thức kỹ thuật lớn nhất mà đội ngũ của bạn đang phải đối mặt là gì?
Chúng tôi ưu tiên duy trì trải nghiệm an toàn và tích cực cho người dùng. An toàn và văn minh luôn là ưu tiên hàng đầu của chúng tôi, nhưng việc xử lý chúng trong thời gian thực có thể là một thách thức kỹ thuật lớn. Mỗi khi có vấn đề phát sinh, chúng tôi muốn có thể xem xét và xử lý ngay lập tức, nhưng điều này rất khó thực hiện do quy mô hoạt động của chúng tôi. Để xử lý quy mô này một cách hiệu quả, chúng tôi cần tận dụng các hệ thống an toàn tự động.
Một thách thức kỹ thuật khác mà chúng tôi đang tập trung vào là độ chính xác của các biện pháp an toàn trong việc kiểm duyệt. Có hai phương pháp kiểm duyệt để giải quyết vi phạm chính sách và cung cấp phản hồi chính xác theo thời gian thực: kiểm duyệt phản ứng và kiểm duyệt chủ động. Đối với kiểm duyệt phản ứng, chúng tôi đang phát triển các mô hình học máy (ML) để xác định chính xác các loại vi phạm chính sách khác nhau, hoạt động bằng cách phản hồi các báo cáo từ người dùng trên nền tảng. Về mặt chủ động, chúng tôi đang nỗ lực phát hiện theo thời gian thực các nội dung tiềm ẩn có thể vi phạm chính sách của chúng tôi, đồng thời giáo dục người dùng về hành vi của họ. Việc hiểu lời nói và cải thiện chất lượng âm thanh là một quá trình phức tạp. Chúng tôi đã thấy những tiến bộ, nhưng mục tiêu cuối cùng của chúng tôi là có một mô hình có độ chính xác cao, có thể phát hiện hành vi vi phạm chính sách theo thời gian thực.
Một số phương pháp và giải pháp sáng tạo mà chúng tôi đang sử dụng để giải quyết những thách thức kỹ thuật này là gì?
Chúng tôi đã phát triển một mô hình học máy (ML) end-to-end có thể phân tích dữ liệu âm thanh và cung cấp mức độ tin cậy dựa trên loại vi phạm chính sách (ví dụ: khả năng đây là hành vi bắt nạt, chửi thề, v.v.). Mô hình này đã cải thiện đáng kể khả năng của chúng tôi trong việc tự động xử lý một số báo cáo. Chúng tôi sẽ hành động khi mô hình của chúng tôi tự tin và có thể chắc chắn rằng nó hoạt động tốt hơn con người. Chỉ trong vài tháng sau khi ra mắt, chúng tôi đã có thể kiểm duyệt gần như tất cả các báo cáo lạm dụng giọng nói bằng tiếng Anh nhờ mô hình này. Chúng tôi đã phát triển các mô hình này nội bộ và đó là minh chứng cho sự hợp tác giữa nhiều công nghệ mã nguồn mở và công việc của chính chúng tôi để tạo ra công nghệ đằng sau nó.
Việc xác định điều gì là phù hợp trong thời gian thực có vẻ khá phức tạp. Điều đó hoạt động như thế nào?
Chúng tôi đã dành nhiều tâm huyết để làm cho hệ thống có khả năng nhận biết ngữ cảnh. Chúng tôi cũng phân tích các mẫu hành vi theo thời gian trước khi thực hiện hành động để đảm bảo rằng các quyết định của chúng tôi là hợp lý. Các chính sách của chúng tôi được điều chỉnh tùy thuộc vào độ tuổi của người dùng, liệu họ đang ở không gian công cộng hay cuộc trò chuyện riêng tư, và nhiều yếu tố khác. Chúng tôi đang khám phá các cách mới để thúc đẩy sự văn minh trong thời gian thực và Trí tuệ Nhân tạo (AI) là trung tâm của nỗ lực này. Gần đây, chúng tôi đã ra mắt các thông báo đẩy tự động để nhắc nhở người dùng về các chính sách của chúng tôi. Chúng tôi cũng đang nghiên cứu các yếu tố khác như giọng điệu để hiểu rõ hơn ý định của người dùng và phân biệt các trường hợp như sự mỉa mai hoặc đùa giỡn. Cuối cùng, chúng tôi đang xây dựng một mô hình đa ngôn ngữ vì một số người dùng nói nhiều ngôn ngữ hoặc thậm chí chuyển đổi ngôn ngữ giữa chừng câu. Để tất cả những điều này trở nên khả thi, chúng tôi cần có một mô hình chính xác.
Hiện tại, chúng tôi tập trung vào việc giải quyết các hình thức lạm dụng nổi bật nhất, như quấy rối, phân biệt đối xử và ngôn ngữ thô tục. Những vấn đề này chiếm phần lớn các báo cáo lạm dụng. Mục tiêu của chúng tôi là tạo ra tác động đáng kể trong các lĩnh vực này và thiết lập tiêu chuẩn ngành về việc thúc đẩy và duy trì một cuộc trò chuyện trực tuyến văn minh. Chúng tôi rất hào hứng với tiềm năng của việc sử dụng ML theo thời gian thực, vì nó cho phép chúng tôi hiệu quả tạo ra một trải nghiệm an toàn và văn minh cho mọi người.
Những thách thức mà chúng tôi đang giải quyết tại Roblox có gì đặc biệt? Chúng tôi có thể giải quyết vấn đề nào trước tiên?
Công nghệ Chat with Spatial Voice của chúng tôi tạo ra trải nghiệm đắm chìm hơn, mô phỏng giao tiếp trong thế giới thực. Ví dụ, nếu tôi đứng bên trái ai đó, họ sẽ nghe thấy giọng nói của tôi ở tai trái. Chúng tôi đang tạo ra một mô hình tương tự cách giao tiếp diễn ra trong thế giới thực và đây là thách thức mà chúng tôi có thể giải quyết trước tiên.
Là một game thủ, tôi đã chứng kiến nhiều hành vi quấy rối và bắt nạt trong game trực tuyến. Đây là vấn đề thường bị bỏ qua do tính ẩn danh của người dùng và thiếu hậu quả. Tuy nhiên, những thách thức kỹ thuật mà chúng tôi đang giải quyết xung quanh vấn đề này là độc đáo so với những gì các nền tảng khác đang đối mặt trong một số lĩnh vực. Trên một số nền tảng game, tương tác bị giới hạn trong phạm vi đồng đội. Roblox cung cấp nhiều cách để giao lưu trong một môi trường xã hội gần gũi hơn với đời thực. Với những tiến bộ trong học máy (ML) và xử lý tín hiệu thời gian thực, chúng tôi có thể phát hiện và xử lý hiệu quả các hành vi lạm dụng, điều này có nghĩa là chúng tôi không chỉ tạo ra một môi trường chân thực hơn, mà còn là nơi mọi người cảm thấy an toàn khi tương tác và kết nối với nhau. Sự kết hợp giữa công nghệ, nền tảng nhập vai và cam kết giáo dục người dùng về các chính sách của chúng tôi giúp chúng tôi có thể trực tiếp giải quyết những thách thức này.
Một số điều quan trọng nhất mà bạn đã học được từ công việc kỹ thuật này là gì?
Tôi cảm thấy mình đã học được rất nhiều. Tôi không phải là kỹ sư ML. Tôi chủ yếu làm việc ở phía front-end trong lĩnh vực game, nên việc có thể đi sâu hơn vào cách các mô hình này hoạt động thực sự là một bước tiến lớn. Hy vọng của tôi là những hành động chúng tôi đang thực hiện để thúc đẩy sự văn minh sẽ mang lại mức độ đồng cảm trong cộng đồng trực tuyến mà trước đây còn thiếu.
Một bài học cuối cùng là mọi thứ đều phụ thuộc vào dữ liệu đào tạo mà bạn đưa vào. Và để dữ liệu chính xác, con người phải thống nhất về các nhãn được sử dụng để phân loại các hành vi vi phạm chính sách. Việc đào tạo trên dữ liệu chất lượng mà mọi người đều đồng thuận là vô cùng quan trọng. Đây thực sự là một vấn đề khó giải quyết. Bạn bắt đầu thấy những lĩnh vực mà ML vượt trội hơn hẳn so với mọi thứ khác, và những lĩnh vực khác mà nó vẫn còn ở giai đoạn sơ khai. Vẫn còn nhiều lĩnh vực mà ML đang phát triển, vì vậy việc nhận thức rõ những hạn chế hiện tại của nó là chìa khóa quan trọng.
Giá trị nào của Roblox mà đội ngũ của bạn đồng tình nhất?
Tôn trọng cộng đồng là giá trị định hướng của chúng tôi trong suốt quá trình này. Trước tiên, chúng tôi cần tập trung vào việc cải thiện văn hóa ứng xử và giảm thiểu vi phạm chính sách trên nền tảng của chúng tôi. Điều này có tác động đáng kể đến trải nghiệm người dùng tổng thể. Thứ hai, chúng tôi phải cân nhắc kỹ lưỡng cách triển khai các tính năng mới này. Chúng tôi cần lưu ý đến các trường hợp báo động sai (ví dụ: đánh dấu sai một nội dung nào đó là lạm dụng) trong mô hình và tránh phạt người dùng một cách sai lầm. Việc theo dõi hiệu suất của các mô hình và tác động của chúng đối với sự tham gia của người dùng là rất quan trọng.
Điều gì khiến bạn hào hứng nhất về hướng đi của Roblox và đội ngũ của bạn?
Chúng tôi đã đạt được những tiến bộ đáng kể trong việc cải thiện giao tiếp bằng giọng nói công khai, nhưng vẫn còn nhiều việc phải làm. Giao tiếp riêng tư là một lĩnh vực thú vị để khám phá. Tôi nghĩ có một cơ hội lớn để cải thiện giao tiếp riêng tư, cho phép người dùng bày tỏ bản thân với bạn bè thân thiết, thực hiện cuộc gọi thoại xuyên suốt các trải nghiệm hoặc trong khi tương tác với bạn bè. Tôi cũng tin rằng có cơ hội nuôi dưỡng các cộng đồng này thông qua các công cụ tốt hơn, giúp người dùng tự tổ chức, tham gia cộng đồng, chia sẻ nội dung và ý tưởng.
Khi chúng ta tiếp tục phát triển, làm thế nào để mở rộng công nghệ trò chuyện của chúng ta để hỗ trợ các cộng đồng đang mở rộng này? Chúng ta mới chỉ chạm đến bề mặt của rất nhiều điều chúng ta có thể làm, và tôi nghĩ có cơ hội để cải thiện sự văn minh trong giao tiếp và hợp tác trực tuyến trên toàn ngành theo cách chưa từng có trước đây. Với công nghệ phù hợp và khả năng học máy (ML), chúng ta đang ở vị trí độc đáo để định hình tương lai của giao tiếp trực tuyến văn minh.


