Banche dati, corpora e archivi testuali

 

Italiano scritto e parlato

 

   AN.ANA.S_MT (ANnotazione e ANAlisi Sintattica MulTilingue)
   Miriam Voghera, Università degli Studi di Salerno (coordinatore)
   Corpus di italiano, inglese e spagnolo parlato, trascritto e annotato sintatticamente tramite la DTD (Document Type Definition) AN.ANA.S 4. Consta di circa 21.300 parole tratte da conversazioni spontanee e dialoghi elicitati. Alcuni materiali possono essere scaricati e consultati.

 

   API (Archivio del Parlato Italiano)
   Federico Albano Leoni, Università degli Studi di Napoli Federico II (coordinatore)
   Corpus di italiano parlato; contiene alcune tipologie di testi orali raccolti a Napoli, Bari, Firenze e Pisa, in formato audio e in trascrizione ortografica. I testi trascritti sono stati in parte annotati e analizzati. I materiali possono essere scaricati e consultati gratuitamente.

 

   BADIP (BAnca Dati dell'Italiano Parlato)
   Daniele Bellini e Stefan Schneider, Karl-Franzens-Universität Graz
   Contiene la versione online del corpus su cui è basato il Lessico di frequenza dell'italiano parlato (LIP), opera diretta da Tullio De Mauro e realizzata in collaborazione con la Fondazione IBM Italia nel 1990-1993. È una raccolta annotata di testi di italiano parlato; si compone di quasi 490.000 parole e 469 testi, appartenenti a varie tipologie di parlato, raccolti in quattro città (Milano, Firenze, Roma, Napoli).
 

 

   CLIPS (Corpora e Lessici dell'Italiano Parlato e Scritto)
   Federico Albano Leoni, Università degli Studi di Napoli Federico II
   Corpus di italiano parlato, basato su una raccolta di testi di parlato radiotelevisivo, dialogico, letto, telefonico; il corpus è stratificato anche dal punto di vista regionale, sociale, stilistico. È liberamente consultabile online previa registrazione gratuita.

 

   CODIS (COrpus Dinamico dell'Italiano Scritto)
   Rema Rossini Favretti, Alma Mater Studiorum - Università di Bologna
   Corpus adattivo di italiano scritto; contiene 130 milioni di parole da testi di narrativa, prosa accademica, prosa giuridica, stampa. È liberamente consultabile online.

 

   CoLFIS (Corpus e Lessico di Frequenza dell'Italiano Scritto)
   Pier Marco Bertinetto, Scuola Normale Superiore di Pisa (coordinatore)
   Banca dati lessicale di italiano scritto; consta di oltre tre milioni di parole ordinate sia per lemmi sia per forme. È liberamente consultabile online.

 

   CONTRAST-IT
   Anna Maria De Cesare, Università di Basilea
   Corpus comparabile multilingue di circa 1,5 milioni di parole; comprende articoli pubblicati tra il 2011 e 2015 in quotidiani online redatti in cinque lingue (italiano, spagnolo, francese, tedesco, inglese). Il corpus è liberamente accessibile in rete.

 

  COMPARE-IT
   Anna Maria De Cesare, Università di Basilea
   Corpus comparabile monolingue di circa 550.000 parole; comprende articoli pubblicati tra il 2011 e 2013 nei principali quotidiani online redatti in lingua italiana in tre paesi diversi (Italia, Svizzera e Canada). Il corpus è liberamente accessibile in rete.

 

   CorDIC (Corpora Didattici Italiani di Confronto)
   LABLITA (Laboratorio Linguistico Italiano dell'Università di Firenze)
   Corpora di italiano scritto e parlato da confrontare a scopo didattico; contiene circa un milione di parole divise tra testi e parlato spontaneo. È liberamente consultabile online.

 

   CORIS (COrpus di Riferimento dell'Italiano Scritto)
   Rema Rossini Favretti, Alma Mater Studiorum - Università di Bologna
   Corpus di italiano scritto; contiene 130 milioni di parole da testi di narrativa, prosa accademica, prosa giuridica, stampa. È liberamente consultabile online.

 

   DiaCORIS (COrpus Diacronico di Riferimento dell'Italiano Scritto)
   Rema Rossini Favretti, Alma Mater Studiorum - Università di Bologna
   Corpus diacronico dell'italiano scritto, comprendente testi prodotti tra il 1861 e il 1945. È liberamente consultabile online.
 
   Gra.fo (Grammo-foni. Le soffitte della voce)
   Pier Marco Bertinetto, Scuola Normale Superiore di Pisa (coordinatore); Silvia Calamai, Università degli Studi di Siena (coordinatore)
   Banca dati di materiale sonoro raccolto dagli anni '60 a oggi; comprende oltre 2800 ore di parlato, catalogate per argomento e varietà linguistica. È liberamente consultabile online.

 

   IPIC (Information Structure Database)
   Emanuela Cresti, LABLITA (Laboratorio Linguistico Italiano dell'Università di Firenze)
   Corpus testuale di italiano parlato; contiene trascrizioni e registrazioni ed è annotato su più livelli. È liberamente consultabile online.

 

   LIS (Lessico dell'Italiano Scritto)
   Accademia della Crusca
   Banca dati interrogabile che raccoglie 25 milioni di occorrenze distribuite tra 1861 e 2001. Rappresenta un adattamento del DiaCORIS funzionale all'inserimento nel portale VIVIT. È liberamente consultabile online.
 
   Metamotore - Lessico dell'Italiano Scritto, Televisivo, Radiofonico
   Accademia della Crusca
   Motore di ricerca che consente di interrogare contemporaneamente le tre banche dati (LIS, LIR, LIT) dell'Accademia della Crusca, per ottenere risultati di spettro più ampio e completo sulla lingua italiana contemporanea.

 

   MIDIA (Morfologia dell'Italiano in DIAcronia)
   Paolo D'Achille, Università degli Studi Roma Tre (coordinatore)
   Corpus di testi scritti italiani che spazia dal XIII al XX secolo e comprende circa 7,5 milioni di occorrenze. È liberamente consultabile online.
 
   ONLI (Osservatorio Neologico della Lingua Italiana)
   Giovanni Adamo, Istituto per il Lessico Intellettuale Europeo e Storia delle Idee; Valeria della Valle, Sapienza - Università di Roma
   Banca dati di neologismi basata sullo spoglio dei principali quotidiani nazionali e locali, attiva dal 2012. È liberamente consultabile online.

 

   Parlaritaliano.it (Corpora)
   Autori vari
   Raccolta di corpora di italiano parlato curati e messi a disposizione dagli studiosi che hanno aderito al progetto Parlare italiano. Tutti sono liberamente consultabili online e/o disponibili per il download.

 

   PEC (PErugia Corpus)
   Stefania Spina, Università per Stranieri di Perugia
   Corpus di riferimento interrogabile, composto da circa 26 milioni di parole in italiano contemporaneo scritto e parlato, diviso in dieci sezioni. È liberamente consultabile online.

 

   QALL-ME (Question Answering Learning technologies in a multiLingual and Multimodal  Environment)
   Fondazione Bruno Kessler
   Raccolta di trascrizioni (e registrazioni) di italiano parlato (oltre a inglese, spagnolo e tedesco); consta di più di 15000 parole relative al turismo. È disponibile per il download.

 

Italiano antico

 

   Archivio Datini
   Opera del Vocabolario Italiano
   Corpus lemmatizzato del carteggio di Francesco Datini (1335-1410). Si compone di quasi 150.000 lettere ed è liberamente consultabile online.

 

   ArTeSiA (Archivio Testuale del Siciliano Antico)
   Mario Pagano, Università degli Studi di Catania (coordinatore); Opera del Vocabolario Italiano
   Archivio testuale costituito da circa 300 testi in siciliano di epoca medievale, per un totale di più di un milione di occorrenze. È liberamente consultabile online.

 

   CEOD (Corpus Epistolare Ottocentesco Digitale)
   Massimo Palermo, Università per Stranieri di Siena (coordinatore)
   Corpus epistolare costituito da circa 1350 lettere di 75 scriventi diversi, di varia estrazione sociale. È liberamente consultabile online.

 

   CLaVo (Corpus dei Classici Latini Volgarizzati)
   Scuola Normale Superiore di Pisa; Opera del Vocabolario Italiano
   Banca dati interrogabile contenente 89 testi, per complessive circa 2,2 milioni di occorrenze, di latino tradotto. È liberamente consultabile online.

 

   Corpus OVI dell'Italiano antico
   Opera del Vocabolario Italiano
   Raccolta completa dei testi italiani antichi resi accessibili dall'Opera del Vocabolario Italiano, ricca di 23 milioni di occorrenze per più di 450.000 forme grafiche distinte. È liberamente consultabile online.

 

   CT (Corpus Taurinense)
   Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino
   Corpus di testi fiorentini del XIII secolo, dotato di più di 250.000 occorrenze; è ordinato per lemmi, parti del discorso, genere letterario e non solo. È liberamente consultabile online.

 

   DiVo (Corpus del Dizionario dei Volgarizzamenti)
   Opera del Vocabolario Italiano
   Corpus comprendente 168 testi in volgare variamente indicizzati, per un totale che supera i sei milioni di occorrenze. È liberamente consultabile online.

 

   ReMediA (Repertorio di Medicina Antica)
   Opera del Vocabolario Italiano
   Corpus in allestimento di testi medico- scientifici antichi, nelle diverse lingue romanze o in volgarizzamenti dal latino. È liberamente consultabile online.

 

   TLIO (Corpus del Tesoro della Lingua Italiana delle Origini)
   Opera del Vocabolario Italiano
   Corpus testuale assai ricco, con più di 2000 testi contenuti, la cui opera di lemmatizzazione procede tuttora. È liberamente consultabile online.

 

Italiano di apprendenti

 

   DILS (Dialoghi in Italiano Lingua Straniera)
   Renata Savy, Università degli Studi di Salerno (coordinatore)
   Corpus costituito da nove dialoghi tra parlanti stranieri in italiano, etichettanti secondo lo schema di annotazione PraTiD. È disponibile per il download.

 

   LIPS (Lessico Italiano Parlato da Stranieri)
   Massimo Vedovelli, Università per Stranieri di Siena (coordinatore)
   Raccolta di testi dalle prove d'esame "Certificazione di Italiano come Lingua Straniera"; consta di 2198 prove, divise secondo il genere testuale a cui appartengono. È disponibile per il download.

 

   VALICO (Varietà Apprendimento Lingua Italiana Corpus Online)
   Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino
   Banca dati interrogabile per parte del discorso e tipo testuale; mostra come studenti di varie età e lingue madri scrivono in italiano. È liberamente consultabile online.

 

   VINCA (Varietà di Italiano di Nativi Corpus Appaiato)
   Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino
   Corpus di testi, didattici e non, di italiani nativi; nato come corpus monitor di VALICO, ha assunto poi vita autonoma. È liberamente consultabile online.

 

Italiano giornalistico

 

   Archivio storico de «La Repubblica»
   Raccolta non indicizzata di articoli dal 1984 a oggi. È liberamente consultabile online.

 

   Archivio storico de «La Stampa»
   Archivio del materiale completo diviso in due parti: 1867-2005 e 2005-oggi. È interrogabile per edizione, data, argomento, autore. È liberamente consultabile online.

 

   Archivio storico del «Corriere della Sera»
   Raccolta dell'intero materiale del quotidiano, dal 1876 a oggi; interrogabile per parole chiave, autore, argomento e non solo. È consultabile previa sottoscrizione a pagamento.

 

   Corpus «La Repubblica»
   Scuola Superiore di Lingue Moderne per Interpreti e Traduttori di Bologna
   Corpus di testi dal quotidiano omonimo pubblicati tra il 1985 e il 2000; lemmatizzato, categorizzato e indicizzato per parti del discorso. È liberamente consultabile online previa registrazione gratuita.

 

   I-CAB (Italian Content Annotation Bank)
   Fondazione Bruno Kessler
   Corpus annotato di 525 articoli dal quotidiano locale "L'Adige", per un totale di circa 180.000 parole. È disponibile per il download dietro richiesta scritta.

 

Italiano di Internet

 

   Corpus di conversazioni da chat-line in lingua italiana
   Èulogos, Intratext
   Corpus testuale che ammonta a circa 850.000 occorrenze; contiene comunicazioni in chat tra utenti Internet di età inferiore a 30 anni. È liberamente consultabile online.

 

   NUNC (Newsgroups UseNet Corpora)
   Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino
   Banca dati lessicale basata sulle conversazioni ospitate dai forum telematici detti "newsgroups"; è divisa per argomenti di conversazione e si estende su cinque lingue. È liberamente consultabile online.

 

   PAISÀ (Piattaforma per l'Apprendimento dell'Italiano Su corpora Annotati)
   Sergio Scalise, Alma Mater Studiorum - Università di Bologna (coordinatore); Vito Pirrelli, Istituto di Linguistica Computazionale «Antonio Zampolli» di Pisa (coordinatore)
   Corpus testuale composto da una collezione di circa 380.000 documenti italiani tratti da Internet. È liberamente consultabile online e disponibile per il download.

 

   RIDIRE (RIsorsa Dinamica Italiana di REte)
   Emanuela Cresti, SILFI (Società Internazionale di Linguistica e Filologia Italiana) (coordinatore)
   Corpus lessicale dinamico pensato per riflettere l'utilizzo della lingua italiana nel web in vari contesti, annotato e indicizzato. È liberamente consultabile online.

 

   WaCky (Web-as-Corpus kool yinitiative)
   Scuola Superiore di Lingue Moderne per Interpreti e Traduttori di Bologna (coordinatore)
   Corpora testuali in quattro lingue di circa due miliardi di parole ciascuno, lemmatizzati e indicizzati. Sono disponibili per il download dietro richiesta o liberalmente consultabili online a questo indirizzo.

 

Italiano tecnico

 

  • Italiano accademico

 

   Athenaeum
   Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino
   Corpus testuale che riflette la produzione scritta di un'Università italiana; contiene principalmente materiale tratto dal periodico universitario, da mail e circolari accademiche. È liberamente consultabile online.

 

  • Italiano istituzionale, giuridico e amministrativo

 

   bistro (Sistema informativo per la terminologia giuridica)
   Accademia Europea di Bolzano
   Banca dati terminologica contenente circa 50.000 termini del linguaggio giuridico-amministrativo italiano (con i rispettivi corrispondenti in tedesco e ladino), austriaco, tedesco e svizzero. È liberamente consultabile online.

 

   BoLC (Bononia Legal Corpus)
   Rema Rossini Favretti, Alma Mater Studiorum - Università di Bologna
   Corpus testuale volto all'analisi delle forme linguistiche utilizzate in ambito legislativo, giuridico e amministrativo; formato da subcorpora paralleli in lingua italiana e inglese. È liberamente consultabile online.

 

   CATEx (Computer Assisted Terminology Extraction)
   Accademia Europea di Bolzano
   Corpus linguistico e terminologico che consta di circa cinque milioni di parole; comprende testi di legge italiani con le relative traduzioni in tedesco. È liberamente consultabile online.

 

   EuroParl (European Parliament Proceedings Parallel Corpus)
   Philipp Koehn, University of Edinburgh
   Corpus testuale che raccoglie gli atti del Parlamento Europeo tra il 1996 e il 2011 tradotti in 21 lingue. È disponibile per il download.

 

   EUSLEX («European Union Secondary Legislation» Corpora Collection)
   Maurizio Gotti, Università degli Studi di Bergamo (coordinatore); Scuola Superiore di Lingue Moderne per Interpreti e Traduttori

   Corpus testuale bilingue italiano-inglese basato sull'archivio EUR-Lex dei testi di legge prodotti dall'Unione Europea, limitatamente al periodo 1999-2002. È liberamente consultabile online.

 

   IATE (InterActive Terminology for Europe)
   TermCoord (Terminology Coordination Unit of the European Parliament)

   Banca dati terminologica multilingue dell'Unione Europea. Contiene più di 8,5 milioni di entrate terminologiche relative a diversi ambiti e argomenti, nelle 25 lingue ufficiali dell'UE. È liberamente consultabile online.

 

   IS-LeGI (Indice Semantico del Lessico Giuridico Italiano)
   Francesco Romano, Istituto di Teoria e Tecniche dell'Informazione Giuridica
   Banca dati semantico-lessicale attiva dal 2008, divisa in legislazione, prassi giuridica, dottrina giuridica. È liberamente consultabile online.

 

   Corpus Senato della Repubblica (Leggibilità del linguaggio politico parlamentare)
   Maria Emanuela Piemontese, Sapienza - Università di Roma
   Corpus di testi tratti dagli atti del Senato della Repubblica durante la XIV e XV legislatura; i testi sono analizzati solo quantitativamente (misurazione delle variabili lessicali e sintattiche), non secondo la comprensibilità. È disponibile per il download.

 

   Risorse terminologiche per l'italiano istituzionale
   REI (Rete per l'eccellenza dell'italiano istituzionale)
   Raccolta di glossari, schede terminologiche. I materiali sono disponibili per il download e liberamente consultabili online.

 

  • Italiano medico

 

   MeSH (Medical Subject Headings); versione italiana
   U.S. National Library of Medicine; versione italiana a cura dell'Istituto Superiore di Sanità
   Thesaurus dei termini del linguaggio medico inglese e banca dati parallela tradotta in italiano. Entrambi sono liberamente consultabili online.

 

   UMLS (Unified Medical Language System)
   U.S. National Library of Medicine
   Software per l'analisi del linguaggio medico composto da un metathesaurus, una banca dati semantica e un lessico in lingua inglese. È disponibile per il download dietro richiesta scritta.

 

Italiano trasmesso

 

   CPT (Corpus di Parlato Telegiornalistico. Anni Sessanta vs. 2005)
   Corpus di trascrizioni annotate tratte dal TG2, accompagnate dalle rispettive registrazioni audio, per un confronto diacronico. È disponibile per il download.

 

   DIA-LIT (Lessico Italiano Televisivo in DIAcronia)
   Accademia della Crusca
   Banca dati audiovisiva basata sulla struttura del LIT; consta di 40 ore di trasmissioni mandate in onda tra il 1954 e oggi. È liberamente consultabile online.

 

   LIR (Lessico dell'Italiano Radiofonico)
   Accademia della Crusca
   Corpus di 90 ore di parlato trasmesso (quasi un milione di occorrenze), trascritto e diviso per genere radiofonico e tipologica comunicativa. È liberamente consultabile online.

 

   LIT (Lessico dell'Italiano Televisivo)
   Accademia della Crusca
   Banca dati audiovisiva interrogabile, che raccoglie 168 ore di trasmissioni prelevate nel corso del 2006; dotato di trascrizioni annotate per parlante, genere, tipologia comunicativa. È liberamente consultabile online.

 

Agenda eventi


Avvisi

Incontri all'Accademia della Crusca - Pausa invernale

Avviso da Crusca

Avvisiamo tutti gli interessati che, a causa della chiusura invernale dell'Accademia, domenica 28 dicembre la Villa di Castello non sarà aperta ai visitatori.
Maggiori informazioni su come visitare la Crusca sono disponibili nella pagina "Incontri all'Accademia della Crusca".

"Studi di grammatica italiana"

Avviso da Crusca

Pubblicato il numero XXXVII. L'indice degli articoli contenuti nel volume è disponibile nella sezione "Pubblicazioni".

Biblioteca dell'Accademia - Donazioni

Avviso dalla biblioteca

La Biblioteca accetta in dono unicamente opere attinenti ai propri ambiti disciplinari.
Le opere inviate non saranno comunque restituite al donatore.

Vai alla sezione

Notizie dall'Accademia

L’Accademia della Crusca nomina 13 nuovi accademici corrispondenti

06 nov 2019

Vai alla sezione