Lập trình ứng dụng nhận diện giọng nói và ứng dụng chuyển ảnh thành Video

Hai ứng dụng tiếp theo của lớp học AI cho lập trình viên chính là:

1) Ứng dụng chuyển Ảnh thành Video

Từ một ảnh tĩnh bạn có thể biến thành một video với chuyển động rất cool ngầu.

2) Ứng dụng chuyển giọng nói thành văn bản

Với model Whisper, bạn có thể xây dựng một mô hình nhận diện giọng nói với hơn 96 ngôn ngữ khác nhau mà tất cả chỉ trong một mô hình.

Chi tiết Code tại đây.

Bài báo "Robust Speech Recognition via Large-Scale Weak Supervision" nghiên cứu về khả năng xử lý tiếng nói của các hệ thống được huấn luyện trên một lượng lớn dữ liệu transcript từ Internet. Khi mô hình được mở rộng đến 680,000 giờ dữ liệu đa ngôn ngữ và đa nhiệm. Mô hình đạt độ chính xác gần với con người, thậm chí trong một số trường hợp không cần tinh chỉnh cho từng tập dữ liệu riêng biệt.

Danh sách các khả năng của Whisper:

1. Nhận diện tiếng nói (Speech Recognition): Whisper có khả năng nhận diện tiếng nói đa ngôn ngữ, hỗ trợ 96 ngôn ngữ và có thể hoạt động tốt trong môi trường không được huấn luyện trước (zero-shot).

2. Dịch tiếng nói (Speech Translation): Mô hình có thể dịch tiếng nói từ ngôn ngữ bất kỳ sang tiếng Anh mà không cần huấn luyện thêm, nhờ vào 125,000 giờ dữ liệu dịch X→en.

3. Nhận diện ngôn ngữ (Language Identification): Whisper có thể xác định ngôn ngữ của tiếng nói đầu vào với độ chính xác cao.

4. Phát hiện hoạt động tiếng nói (Voice Activity Detection): Mô hình có khả năng xác định phân đoạn âm thanh có chứa tiếng nói và loại bỏ những phân đoạn không chứa tiếng nói.

5. Chuyển đổi dạng thức văn bản (Text Normalization): Whisper có thể dự đoán và chuyển đổi các dạng văn bản khác nhau từ transcript tiếng nói, bao gồm việc xử lý các dấu chấm câu, chữ viết hoa, và các yếu tố văn phong khác.

6. Xử lý tiếng nói dài (Long-form Transcription): Whisper có thể xử lý và phiên âm các đoạn âm thanh dài (nhiều phút đến nhiều giờ) bằng cách phân đoạn và ghép nối các transcript lại với nhau.

7. Chống nhiễu (Noise Robustness): Mô hình có khả năng nhận diện tiếng nói chính xác ngay cả trong môi trường có nhiều nhiễu âm như quán bar hay nhà hàng đông đúc.

8. Hỗ trợ nhiều nhiệm vụ (Multitask Learning): Whisper không chỉ phiên âm mà còn có thể thực hiện nhiều nhiệm vụ xử lý tiếng nói khác nhau như dịch thuật và nhận diện ngôn ngữ trong cùng một mô hình.

Whisper thể hiện khả năng mạnh mẽ và linh hoạt trong việc xử lý tiếng nói mà không cần tinh chỉnh phức tạp, mở ra tiềm năng lớn cho ứng dụng trong thực tế.