dijous, 17 de març del 2016

Provant l'AntConc


Fa ja una dècada que vaig cursar l’assignatura Informàtica aplicada a les ciències humanes i socials i llavors em va tocar entendre’m amb el programa Concordance; ara he començat a practicar amb un programa molt, molt semblant que també té l’objectiu de fer anàlisis lexicomètriques, es tracta de l’AntConc 3.4.4w.
He agafat el text d’una PAC de l’assignatura de Teories de l’Educació, l’he convertit a text sense format amb la codificació unicode UTF-8. Aquest punt és de vital importància perquè cal que l’AntConc “entengui” el nostre text i, per tant, ha de coincidir la codificació del text amb la que tingui la configuració de l’AntConc.

El resultat és la següent taula:

 

Queda clar que les primeres posicions de freqüència les ocupen paraules amb significat lèxic buit. M’he aventurat a aconseguir el que es diu una stopword, és a dir, una llista de paraules que l’AntConc passarà per alt. La llista stopword en català que he triat l’he trobat a la pàgina de l’Institut de lingüística aplicada de laUniversitat Pompeu Fabra però, a més, he afegit uns mots més que he vist que no hi eren: pàg, ibíd, del i dels. He carregat la llista stopword a l’AntConc i llavors el resultat ha canviat de forma molt evident:

 
 
Ara sí que amb un cop d’ull a la llista queda clar quin és el contingut i la temàtica del text.

 


3 comentaris:

  1. Gràcies per la referència, aquesta llista serà molt útil. He vist que és del Lluís de Yzaguirre, un crac!

    ResponElimina
  2. Gràcies, Blanca, per recordar-nos la importància de la codificació en unicode UTF-8 i per la llista stopword.
    Salutacions

    ResponElimina