Skip to main content
Whisper.ai: transformant la transcripció d'àudio amb Intel·ligència Artificial

Whisper.ai: transformant la transcripció d'àudio amb Intel·ligència Artificial

Avui us parlem de les dues publicacions que han fet els professors Juan-José Boté-Vericard i Carlos Lopezosa, al Dipòsit Digital de la UB, on expliquen de forma breu i senzilla, com transcriure àudio i vídeo amb l'ajuda de la intel·ligència artificial.

En l'era digital, la precisió i eficiència en la transcripció d'àudio són crucials per a diversos sectors, des del periodisme fins a l'educació. Whisper.ai, una innovadora eina basada en intel·ligència artificial, està revolucionant aquest àmbit amb les seves avançades capacitats de transcripció automàtica.

Whisper.ai és una eina de transcripció automàtica que utilitza algorismes d'intel·ligència artificial per a convertir gravacions d'àudio en text escrit. A diferència dels mètodes tradicionals de transcripció, que poden ser lents i propensos a errors, Whisper.ai ofereix una solució ràpida i precisa, adaptant-se a les necessitats dels usuaris moderns.

Algunes de les seves característiques principals són:

  • Alta precisió: Whisper.ai destaca per la seva alta precisió en la transcripció d'àudio, gràcies a la seva avançada tecnologia de reconeixement de veu. L'eina és capaç d'identificar i transcriure amb exactitud diferents accents i variacions en la parla. 

  • Rapidesa: La velocitat de processament és un altre dels punts forts de Whisper.ai. Els usuaris poden obtenir transcripcions en qüestió de minuts, la qual cosa agilitza significativament el flux de treball en entorns que requereixen respostes ràpides. 

  • Facilitat d'ús: La interfície de Whisper.ai és intuïtiva i fàcil d'usar, permetent que tant professionals com principiants puguin aprofitar les seves funcionalitats sense necessitat d'una corba d'aprenentatge prolongada. 

  • Adaptabilitat i personalització: Whisper.ai ofereix opcions de personalització per a adaptar-se a les necessitats específiques de cada usuari. Per exemple, es poden afegir paraules tècniques o noms propis al diccionari de l'eina per a millorar la precisió en contextos especialitzats.

En l'àmbit educatiu, les transcripcions automàtiques de classes i seminaris faciliten l'accés a la informació per a estudiants i docents, millorant l'experiència d'aprenentatge.

Per tant, Whisper.ai està redefinint la forma en què es realitzen les transcripcions d'àudio. La seva tecnologia avançada d'intel·ligència artificial no sols millora la precisió i la velocitat de les transcripcions, sinó que també ofereix una experiència d'usuari senzilla i adaptable a diverses necessitats. A mesura que la demanda de solucions eficients de transcripció continua creixent, Whisper.ai es posiciona com una eina essencial per a qualsevol professional que busqui optimitzar el seu flux de treball i assegurar la precisió de les seves transcripcions.

 

Softcatalà i Whisper.ai

Tot i què ja vam escriure un article sobre com podíem fer servir la transcripció amb l'eina Whisper.ai a través de Softcatalà (feu clic aquí per llegir-lo), els professors Juan-José Boté-Vericard i Carlos Lopezosa, han publicat un vídeo tutorial en el qual expliquen, de forma breu i senzilla, com fer servir aquesta eina a través de Softcatalà:

Guia completa per a la transcripció d'entrevistes a text en català per Whisper AI i Softcatalà

 

Google Colaboratory i Whisper.ai

A més, aquests Boté-Vericard i Lopezosa han publicat un altre vídeo, en el qual expliquen com podem realitzar transcripcions d'àudio a text a través de Whisper.ai, sense necessitat d'utilitzar cap altra plataforma:

Realizar transcripciones de entrevistas semi-estructuradas con Whisper de Open AI

 

 A continuació, us expliquem els punts més importants d'aquest tutorial:

1. Primer, caldrà accedir a Google Colaboratory. Un cop obert el document, caldrà posar-hi un títol.

2. A continuació, s'haurà de configurar l'arxiu: d'una banda, a l'apartat "Runtime", s'haurà de seleccionar l'opció "Change runtime type". Ara, a l'apartat "Runtime type" haureu de seleccionar "Pyton 3" i, a "Hardware accelerator", seleccionar " GPU", tal i com es mostra en pantalla:

Fotograma del vídeo "Realizar transcripciones de 
entrevistas semi-estructuradas con Whisper de OpenAI"

 

3. Un cop desada la configuració, caldrà pujar l'àudio que voleu transcriure, tot seleccionant-lo des del bloc esquerre de la pàgina:

Fotograma del vídeo "Realizar transcripciones de 
entrevistas semi-estructuradas con Whisper de OpenAI"

 

4. Un cop carregat el fitxer d'àudio, haureu de copiar el següent codi: 

!pip install git+https://github.com/openai/whisper.git

Ara, enganxeu el codi al camp central de la pàgina, tal i com s'indica a la imatge, i feu clic a la icona del triangle (Play):

Fotograma del vídeo "Realizar transcripciones de 
entrevistas semi-estructuradas con Whisper de OpenAI"

 

5. La pàgina, generarà instruccions sobre el codi facilitat. Un cop hagi acabat de generar-les, haurem d'enganxar un altre codi, tot fent clic a la icona "+Code" que trobareu a la part superior central de la pàgina:

!sudo apt update && sudo apt install ffmpeg

Fotograma del vídeo "Realizar transcripciones de 
entrevistas semi-estructuradas con Whisper de OpenAI"

 

Una vegada enganxat el codi, haureu d'executar-lo, tot fent clic a la icona del triangle, com heu fet al pas anterior.

6. El següent pas a seguir serà enganxar el següent codi (tal i com fa el professor Boté-Vericard, us facilitarem dues línees de codi, una pels àudios en català i una altra pels que estiguin en castellà. Feu servir només el que casi amb l'idioma del vostre àudio:

!whisper miaudio.mp3 --model medium --language Catalan

!whisper miaudio.mp3 --model medium --language Spanish

 

Haureu de canviar el text "miaudio.mp3" pel nom del vostre arxiu. Per exemple, si l'arxiu d'àudio es diu "Audio1", el codi quedaria així:

!whisper Audio1.mp3 --model medium --language Catalan

!whisper Audio1.mp3 --model medium --language Spanish

 

Recordeu que haureu d'enganxar el codi a la pàgina de la mateixa manera que ho heu fet amb els dos anteriors codis:

Fotograma del vídeo "Realizar transcripciones de 
entrevistas semi-estructuradas con Whisper de OpenAI"

 

7. En el moment en el qual feu clic a la icona del triangle (Play), començarà la transcripció de l'àudio en l'idioma triat, doncs veureu que apareixerà una barra de càrrega a la part inferior del bloc central de la pàgina.

Fotograma del vídeo "Realizar transcripciones de 
entrevistas semi-estructuradas con Whisper de OpenAI"

 

8. A mesura que la transcripció d'àudio vagi generant-se, apareixerà a la pàgina, tal i com mostra el professor Boté-Vericard al vídeo:

Fotograma del vídeo "Realizar transcripciones de 
entrevistas semi-estructuradas con Whisper de OpenAI"

 

9. En el moment en el qual finalitzi la transcripció, al bloc esquerre de la pàgina apareixeran una sèrie de documents, cadascun d'ells amb la transcripció. Haureu de descarregar-vos el fitxer amb extensió .txt:

Fotograma del vídeo "Realizar transcripciones de 
entrevistas semi-estructuradas con Whisper de OpenAI"

 

 

 

Bibliografia

Boté-Vericad, Juan-José; Lópezosa, Carlos. (2024). Realizar transcripciones de entrevistas semi-estructuradas con Whisper de Open AI. Dipòsit Digital de la Universitat de Barcelona. Recuperat a: http://hdl.handle.net/2445/210748

Boté-Vericad, Juan-José; Lópezosa, Carlos. (2024). Realizar transcripciones de entrevistas a texto en catalán con Whisper AI y Softcatalà. Dipòsit Digital de la Universitat de Barcelona. Recuperat a: http://hdl.handle.net/2445/211042

Sobre això

En aquest Portal del CRAI, trobaràs un recull d'eines i recursos TIC i TAC per ajudar als usuaris en el seu aprenentatge i la docència, així com píndoles formatives. Us podeu subscriure al Blog i estar sempre informats del que es vagi publicant.

Publicacions destacades

Contacte

La Unitat de Docència del CRAI gestiona i ofereix a la comunitat UB recursos d'informació i serveis útils per a la tasca docent.

  • Baldiri Reixac, 2 08028 Barcelona
  • +34934034731 / +34934034013
  • udcrai@ub.edu