Whisper
Whisper és un sistema de reconeixement automàtic de veu (ASR) entrenat amb 680.000 hores de dades supervisades multilingües recollides del web. Mostrem que l'ús d'un conjunt de dades tan gran i divers comporta una millora de la robustesa dels accents, el soroll de fons i el llenguatge tècnic. A més, permet la transcripció en diversos idiomes, així com la traducció d'aquests idiomes a l'anglès. Som models de codi obert i codi d'inferència per servir com a base per a la creació d'aplicacions útils i per a més investigacions sobre un processament robust de la parla.
Més informació sobre com transcriure àudio i vídeo a text al nostre Blog:
Transcriure àudio i vídeo a text amb Softcatalà | CRAI Docència UB