Skip to main content
Generació automàtica de transcripcions

Generació automàtica de transcripcions

Transcripció amb Microsoft Teams

Microsoft Teams és una plataforma de col·laboració i comunicació desenvolupada per Microsoft, pensada per a equips de treball. Combina eines de xat en temps real, videoconferències, compartició d’arxius i integracions amb altres aplicacions, com ara Office 365  (inclòs al Núvol UB), en una sola interfície.

Ara, Teams, permet transcriure les reunions en temps real en català. Per poder-ho activar, només cal:

1) Accedeix a la reunió a Teams. A la barra de control de la reunió, fes clic als tres punts ("Més").
Selecciona "Enregistra i transcriu" i, desrpés, "Inicia la transcripció":

 

 

2) Ara, seleccioneu la llengua "català" i feu clic a "confirmeu":

 

 

Transcripció amb Microsoft Stream

La plataforma Microsoft Stream s'ha convertit en una eina fonamental per a les institucions que necessiten gestionar contingut de vídeo. Els usuaris vinculats a la UB tenen accés a aquesta plataforma a través del Núvol UB, que inclou el paquet Office 365.

Aquesta plataforma permet carregar, organitzar i compartir vídeos de manera interna. Stream està especialment dissenyat per millorar la col·laboració i l'aprenentatge a través de vídeos, i és una alternativa a altres plataformes de compartició de vídeos com YouTube.

Podeu accedir a Stream entrant al Núvol UB i fent clic a la icona que trobareu a la cantonada superior esquerra de la pàgina. Al menú desplegable que s'obrirà, seleccioneu la icona de Stream, tal i com us mostrem en la imatge:

 

Amb les seves funcionalitats avançades, Stream no només permet emmagatzemar i compartir vídeos de manera segura, sinó que també ofereix eines d'Intel·ligència Artificial per millorar l'accessibilitat i la comprensió dels continguts. Un dels seus aspectes més destacats és la capacitat de generar transcripcions automàtiques.

 

Com funciona la transcripció automàtica?

La transcripció automàtica a Stream fa ús de tecnologies d'aprenentatge automàtic i reconeixement de veu per convertir l'àudio dels vídeos en text. Aquesta funcionalitat és especialment útil per a fer accessible el contingut als usuaris amb discapacitats auditives o per a aquells que prefereixen llegir el contingut en lloc d'escoltar-lo.

Actualment, l'idioma català no està predeterminat a l'aplicació, però us ensenyarem com podeu aprofitar la transcripció de l'espanyol, per obtenir després la versió en català.

Per generar transcripcions automàtiques en espanyol, només caldrà que seguiu les següents instruccions:

  1. Carregar el vídeo: Primer, cal carregar el vídeo a la plataforma Microsoft Stream. Això es pot fer de manera senzilla arrossegant i deixant anar el fitxer de vídeo a la interfície de Stream, o fent clic al botó "Carrega":

     

  2. Configuració d'idioma: Una vegada carregat el vídeo, cal anar a la configuració del vídeo i seleccionar l’idioma de l’àudio original. Podreu seleccionar l'idioma "espanyol":


     

  3. Activar la transcripció: Un cop feu clic a "Genera", Stream començarà a processar l'àudio del vídeo per generar la transcripció automàtica.

  4. Revisar i editar: Una vegada generada la transcripció, es pot revisar i editar per assegurar la seva precisió. Tot i que l'eina és força precisa, és possible que alguns errors menors necessitin correcció manual, especialment en termes de noms propis o tecnicismes.

     

Traduir el fitxer d'àudio al català de forma automàtica amb Buzz

Com ja s'ha vist, de moment no hi ha disponible la possibilitat de generar transcripcions de forma automàtica al català a través de Stream. Però, afortunadament, actualment hi ha moltes eines segures, senzilles i gratuïtes que permeten la transcripció, traducció i generació de contingut d'àudio en català.

Entre aquestes eines, avui volem destacar Buzz, una eina basada en Intel·ligència Artificial per a la transcripció i traducció d'àudio en temps real. El seu principal ús és convertir automàticament àudio en text, ja sigui a partir de fitxers importats o mitjançant el micròfon de l'ordinador. Permet l'exportació de les transcripcions en diversos formats, com CSV, SRT, TXT i VTT, fent-la molt útil per generar subtítols. Aquesta eina també suporta models offline de Whisper.cpp i l'API de Whisper d'OpenAI, el que la fa especialment eficient i precisa. Les seves característiques inclouen cerca dins les transcripcions, reproducció d'àudio sincronitzada amb el text, i un editor de text per ajustar els resultats.

Fent clic al següent enllaç, trobareu la fitxa publicada al nostre blog sobre Buzz: https://www.ub.edu/docenciacrai/Fitxa-TACTIC/buzz

1. Instal·lar Buzz al nostre ordinador

Aquesta eina requereix estar instal·lada prèviament al nostre ordinador. A la pàgina web de Buzz, trobareu totes les instruccions i enllaços necessaris per instal·lar-la tingueu el sistema operatiu que tingueu: https://buzzcaptions.com/.

Un cop instal·lat, Buzz és molt senzill d'utilitzar: només caldrà pujar un fitxer d'àudio que tinguem desat al nostre dispositiu.

2. Pujar un arxiu d'àudio

1. Un cop instal·lat Buzz, podreu pujar un arxiu tot fent clic a la icona "+" que trobareu a la cantonada superior esquerra de la pantalla, al costat de la icona del micròfon:

2. Un cop pujat l'arxiu, s'obrirà un quadre de diàleg amb diferents camps:

 

Quan Buzz demana que trieu un model per a la transcripció, això depèn de diversos factors com la qualitat de l'àudio, l'idioma i la velocitat de transcripció que necessiteu. Els models que ofereix solen basar-se en Whisper, que té diferents versions, cadascuna amb una mida i precisió diferents. Aquí teniu una guia per ajudar-te a triar:

  • Models petits (tiny, base):

    • Ús: Quan necessiteu una transcripció ràpida i teniu un ordinador amb menys capacitat de processament.

    • Desavantatge: Menys precisió, especialment en àudios amb soroll o accents.

  • Models mitjans (small, medium):

    • Ús: Si necessiteu un equilibri entre precisió i velocitat. Funciona bé per a la majoria dels casos i és adequat per àudios relativament clars.

    • Avantatge: Proporciona un bon rendiment en la majoria de situacions sense sobrecarregar massa el sistema.

  • Models grans (large):

    • Ús: Si teniu àudios complexos, amb molt soroll de fons o accents difícils. Aquests models són els més precisos, però requereixen més recursos de l’ordinador i són més lents.

    • Avantatge: Millor precisió, especialment amb àudios de baixa qualitat o múltiples parlants.

Recomanació general:

  • Si teniu un ordinador potent i necessiteu la màxima precisió, trieu un model gran (large).

  • Per ús general, el model medium o small sol oferir un bon equilibri entre velocitat i qualitat.

Si us trobeu amb problemes o voleu ajustar els resultats, sempre podeu canviar de model i provar una altra opció per comparar-ne el rendiment.

Tal i com veieu a la imatge que hem posat al principi d'aquest punt, nosaltres hem triat model Whisper i Medium. Seguidament, hem triat, a tasca, "Transcribe", perquè volem una transcripció. Sapigueu que, Buzz, també ofereix l'opció de traduir:

 

3. Finalment, haureu de triar el format en el qual voldreu la transcripció (o traducció). Nosaltres hem marcat .TXT i .VTT. Un cop triat, feu clic a "Executa".

4. Al tractar-se d'un model "medium" (mig), el procés pot trigar una estona a acabar. Si escolliu "large" (gran), el procés trigarà molt més però la qualitat serà millor.

5. Un cop acabat, l'arxiu es visualitzarà de la següent manera. Feu doble clic a sobre per obrir la transcripció:

 

6. Com veieu, s'obrirà un quadre de diàleg en el qual us mostrarà, temporitzat, el text transcrit. Des d'aquí podreu exportar-lo, traduir-lo, canviar la seva mida i previsualitzar-lo:

 

Avantatges de les transcripcions automàtiques
  • Millora de l'accessibilitat: Permet que persones amb discapacitats auditives puguin accedir al contingut del vídeo.

  • Facilitat de cerca: Amb transcripcions, els vídeos es poden cercar fàcilment per paraules clau, facilitant als usuaris trobar informació específica dins dels vídeos.

  • Suport multilingüe: La capacitat de generar transcripcions en diferents idiomes, incloent el català, ajuda a arribar a una audiència més àmplia.

  • Documentació i referència: Les transcripcions serveixen com a documentació del contingut del vídeo i poden ser útils per a la creació de guies, manuals o resums escrits.

Sobre això

En aquest Portal del CRAI, trobaràs un recull d'eines i recursos TIC i TAC per ajudar als usuaris en el seu aprenentatge i la docència, així com píndoles formatives. Us podeu subscriure al Blog i estar sempre informats del que es vagi publicant.

Publicacions destacades

Contacte

La Unitat de Docència del CRAI gestiona i ofereix a la comunitat UB recursos d'informació i serveis útils per a la tasca docent.

  • Baldiri Reixac, 2 08028 Barcelona
  • +34934034731 / +34934034013
  • udcrai@ub.edu