Corpus textual informatitzat de la llengua catalana (CTILC)

El Corpus textual informatitzat de la llengua catalana (CTILC) és el corpus de referència del català contemporani. Es tracta d’un corpus lematitzat de més de 52 milions d’ocurrències, procedents d’una gran varietat d’obres literàries i no literàries, referides a un període comprès entre el 1833 (data simbòlica d’inici de la Renaixença) fins pràcticament als nostres dies.

Un dels objectius principals de la creació del CTILC ha estat l’elaboració del Diccionari descriptiu de la llengua catalana, que al seu torn serà la base per al nou diccionari normatiu que ha d’elaborar l’Institut d’Estudis Catalans i que substituirà el DIEC2.

El CTILC, per les seves dimensions, per la selecció ponderada del tipus d’obres que inclou i per la informació gramatical que té incorporada, és una eina molt valuosa per a qualsevol estudiós de la llengua, ja que permet obtenir dades sobre l’ús de mots, expressions, construccions, etc., de manera ràpida i fiable.

Per poder consultar aquesta obra cal entendre els conceptes de lema, forma i lema secundari. Un lema és una entitat abstracta d’un mot que agrupa un conjunt de formes; normalment coincideix amb el que es presenta com a entrada d’un diccionari (per exemple, el verb poder). Una forma és cadascuna de les realitzacions morfològiques d’un lema (com ara puc, podia, puguem, etc.). I un lema secundari és una variant formal d’un altre lema principal (per exemple, la preposició radere és un lema secundari de la preposició darrere).

La interfície actual de consulta pública del corpus és pràctica i àgil, i consta dels apartats següents:

  • Concordances. Aquest apartat es desplega en un seguit d’opcions que permeten la consulta de lemes, formes o lemes amb formes, de manera que apareixen tots els contextos de les diferents ocurrències del lema o forma que se cerca. També hi ha l’opció de fer cerques de més d’un element amb l’opció coocurrències. Per exemple, si volem veure en quins contextos apareix l’expressió comptar amb, podem seleccionar primer el lema verbal comptar (ja que volem que ens mostri el verb en qualsevol de les seves formes) seguit del lema preposicional amb, i obtindrem els contextos en què coocorren en aquest ordre. Finalment, hi ha la possibilitat també de fer cerques de noms propis. Els resultats de qualsevol d’aquestes cerques es poden filtrar d’acord amb les opcions que la finestra de resultats ens ofereix (període, autor, tipologia, etc.) i ordenar per criteris diversos.
  • Col·locacions. Aquest apartat permet veure quines paraules solen aparèixer a esquerra i dreta de la paraula cercada. Per exemple, si volem saber quins verbs, substantius, adjectius, etc., apareixen amb el lema curs, podem recórrer a les col·locacions.
  • Dades numèriques. Aquest apartat ens mostra el corpus en xifres i amb gràfics d’acord amb els paràmetres seleccionats.

Aquestes són les opcions principals que ofereix el CTILC, però cada finestra de resultats ofereix diverses possibilitats de refinament que cadascú pot explorar segons les seves necessitats.

https://unsplash.com/photos/low-angle-view-of-tower-books-wk833OrQLJE