Bộ cấy ghép não
này vận hành nhờ một mạng thần kinh để làm cho tín hiệu não khớp với cử động của
thanh quản (Ảnh: UCSF)
Đây là công trình của các nhà
nghiên cứu từ trường Đai học California, San Francisco. Nhóm đã tiến hành huấn
luyện cho mô hình của mình với 5 tình nguyện viên đọc các đoạn văn lấy từ truyện
thiếu nhi. Điện cực được dùng để đo điện áp não trong quá trình kể chuyện và các
tín hiệu này sau đó được sắp khớp với giọng nói.
Phần trọng yếu của phương pháp
đặc biệt này là thay vì cố gắng đọc suy nghĩ, nó nhắm vào việc đọc những nỗ lực
của não nhằm điều khiển môi, hàm và thanh quản. Ngay cả những người đã mất đi
khả năng nói cũng có thể nghĩ về việc tạo khẩu hình miệng để tạo ra lời nói và
chính tín hiệu đó là thứ thiết bị mới này khai thác.
Tuy hệ thống vẫn chưa hoàn chỉnh
vào lúc này – trung bình 69% số từ có thể hiểu đúng, đưa ra 25 tùy chọn để lựa
chọn – nhưng việc tập trung vào mô phỏng thanh quản đã dẫn đến một bước tiến
đáng kể về độ chuẩn xác.
“Mối quan hệ giữa cử động của
thanh quản và âm thanh lời nói được tạo ra là một mối quan hệ phức tạp. Chúng
tôi lập luận rằng nếu các trung tâm lời nói trong não đang mã hóa cử động thay
vì âm thanh thì chúng ta nên cố gắng làm điều tương tự để giải mã các tín hiệu
này”, nhà nghiên cứu dẫn đầu Gopala Anumanchipalli cho biết.
Kết quả mà Anumanchipalli và các
đồng nghiệp rốt cuộc thu được là 2 mạng thần kinh: một mạng làm khớp tín hiệu
não với cử động của thanh quản và một mạng biến những cử động đó thành giọng nói
tổng hợp.
Cũng như những nỗ lực trước đây
nhằm biến tín hiệu não thành âm thanh dễ hiểu, những từ ngắn và câu đơn giản dễ
mô phỏng nhất. Khi câu từ trở nên phức tạp hơn, nhà dịch giả tổng hợp mới thực
sự không làm việc được tốt lắm, mặc dù đó vẫn là một tiến bộ đầy ấn tượng.
Bản thân mạng điện cực mật độ cao
để giám sát và các thuật toán máy tự học phức tạp hơn trong hệ thống có thể giúp
tăng độ chính xác của các đoạn dịch. Đáng khích lệ là bộ cấy ghép mới cho thấy
dấu hiệu có thể hiểu được những câu chưa có trong hệ thống dữ liệu huấn luyện.
Hơn nữa, các nhà khoa học nhận
thấy có một sự trùng lặp nào đó giữa các tín hiệu từ những người khác nhau tham
gia trong quá trình nghiên cứu – điều đó sẽ làm cho các hệ thống như thế này
được huấn luyện bằng người mới dễ dàng và nhanh chóng hơn.
“Chúng tôi vẫn còn một chặng
đường dài để mô phỏng ngôn ngữ nói một cách hoàn hảo. Chúng tôi có thể tổng
hợp các âm nói chậm như ‘sh’ và ‘z’ cũng như duy trì nhịp điệu và ngữ điệu của
lời nói, giới tính và đặc điểm của người nói một cách khá tốt, nhưng một số âm
thanh nhanh hơn như ‘b’ và ‘p’ sẽ khá khó khăn”, một thành viên khác của nhóm
Josh Chartier nói.
“Tuy nhiên, mức độ chính xác mà chúng tôi đã tạo ra ở đây vẫn là một sự cải
thiện đáng kinh ngạc trong giao tiếp thời gian thực so với những công nghệ hiện
có”.
Có lẽ sẽ mất một khoảng thời
gian nào đó trước khi thiết bị cấy ghép này sẵn sàng mang tiếng nói nhân tạo đến
với những người bị mất khả năng nói tự nhiên nhưng đó là một bước đột phá đáng
khích lệ.
Nghe thử tại đây:
https://www.youtube.com/watch?v=kbX9FLJ6WKw
PQ (New Atlas)