Banche dati, corpora e archivi testuali

Italiano scritto e parlato

AN.ANA.S_MT (ANnotazione e ANAlisi Sintattica MulTilingue)
Miriam Voghera, Università degli Studi di Salerno (coordinatore)
Corpus di italiano, inglese e spagnolo parlato, trascritto e annotato sintatticamente tramite la DTD (Document Type Definition) AN.ANA.S 4. Consta di circa 21.300 parole tratte da conversazioni spontanee e dialoghi elicitati. Alcuni materiali possono essere scaricati e consultati. 

API (Archivio del Parlato Italiano)
Federico Albano Leoni, Università degli Studi di Napoli Federico II (coordinatore)
Corpus di italiano parlato; contiene alcune tipologie di testi orali raccolti a Napoli, Bari, Firenze e Pisa, in formato audio e in trascrizione ortografica. I testi trascritti sono stati in parte annotati e analizzati. I materiali possono essere scaricati e consultati gratuitamente. 

BADIP (BAnca Dati dell'Italiano Parlato)
Daniele Bellini e Stefan Schneider, Karl-Franzens-Universität Graz
Contiene la versione online del corpus su cui è basato il Lessico di frequenza dell'italiano parlato (LIP), opera diretta da Tullio De Mauro e realizzata in collaborazione con la Fondazione IBM Italia nel 1990-1993. È una raccolta annotata di testi di italiano parlato; si compone di quasi 490.000 parole e 469 testi, appartenenti a varie tipologie di parlato, raccolti in quattro città (Milano, Firenze, Roma, Napoli).

BASILI&LIMM (BAnca dati degli Scrittori Immigrati in Lingua Italiana e della Letteratura Italiana della Migrazione Mondiale)
Armando Gnisci
Comprende scrittrici e scrittori migranti translingui e di nuova generazione.

CLIPS (Corpora e Lessici dell'Italiano Parlato e Scritto)
Federico Albano Leoni, Università degli Studi di Napoli Federico II
Corpus di italiano parlato, basato su una raccolta di testi di parlato radiotelevisivo, dialogico, letto, telefonico; il corpus è stratificato anche dal punto di vista regionale, sociale, stilistico. È liberamente consultabile online previa registrazione gratuita.

CODIS (COrpus Dinamico dell'Italiano Scritto)
Rema Rossini Favretti, Alma Mater Studiorum - Università di Bologna
Corpus adattivo di italiano scritto; contiene 130 milioni di parole da testi di narrativa, prosa accademica, prosa giuridica, stampa. È liberamente consultabile online.

CoLFIS (Corpus e Lessico di Frequenza dell'Italiano Scritto)
Pier Marco Bertinetto, Scuola Normale Superiore di Pisa (coordinatore)
Banca dati lessicale di italiano scritto; consta di oltre tre milioni di parole ordinate sia per lemmi sia per forme. È liberamente consultabile online. 

CorDIC (Corpora Didattici Italiani di Confronto)
LABLITA (Laboratorio Linguistico Italiano dell'Università di Firenze)
Corpora di italiano scritto e parlato da confrontare a scopo didattico; contiene circa un milione di parole divise tra testi e parlato spontaneo. È liberamente consultabile online.

CORIS (COrpus di Riferimento dell'Italiano Scritto)
Rema Rossini Favretti, Alma Mater Studiorum - Università di Bologna
Corpus di italiano scritto; contiene 130 milioni di parole da testi di narrativa, prosa accademica, prosa giuridica, stampa. È liberamente consultabile online.

DiaCORIS (COrpus Diacronico di Riferimento dell'Italiano Scritto)
Rema Rossini Favretti, Alma Mater Studiorum - Università di Bologna
Corpus diacronico dell'italiano scritto, comprendente testi prodotti tra il 1861 e il 1945. È liberamente consultabile online.

Gra.fo (Grammo-foni. Le soffitte della voce)
Pier Marco Bertinetto, Scuola Normale Superiore di Pisa (coordinatore); Silvia Calamai, Università degli Studi di Siena (coordinatore)
Banca dati di materiale sonoro raccolto dagli anni '60 a oggi; comprende oltre 2800 ore di parlato, catalogate per argomento e varietà linguistica. È liberamente consultabile online. 

IPIC (Information Structure Database)
Emanuela Cresti, LABLITA (Laboratorio Linguistico Italiano dell'Università di Firenze)
Corpus testuale di italiano parlato; contiene trascrizioni e registrazioni ed è annotato su più livelli. È liberamente consultabile online. 

KIParla
Caterina Mauri (Università di Bologna), Eugenio Goria, Silvia Ballarè e Massimo Cerruti (Università di Torino)
Corpus di parlato registrato a Bologna e a Torino; comprende vari tipi d'interazione verbale fra parlanti con differente profilo sociolinguistico. I materiali sono consultabili in formato audio e in forma di trascrizione testuale allineata. 

LIS (Lessico dell'Italiano Scritto)
Accademia della Crusca
Banca dati interrogabile che raccoglie 25 milioni di occorrenze distribuite tra 1861 e 2001. Rappresenta un adattamento del DiaCORIS funzionale all'inserimento nel portale VIVIT. È liberamente consultabile online. 

Metamotore - Lessico dell'Italiano Scritto, Televisivo, Radiofonico
Accademia della Crusca
Motore di ricerca che consente di interrogare contemporaneamente le tre banche dati (LIS, LIR, LIT) dell'Accademia della Crusca, per ottenere risultati di spettro più ampio e completo sulla lingua italiana contemporanea. 

MIDIA (Morfologia dell'Italiano in DIAcronia)
Paolo D'Achille, Università degli Studi Roma Tre (coordinatore)
Corpus di testi scritti italiani che spazia dal XIII al XX secolo e comprende circa 7,5 milioni di occorrenze. È liberamente consultabile online.

ONLI (Osservatorio Neologico della Lingua Italiana)
Giovanni Adamo, Istituto per il Lessico Intellettuale Europeo e Storia delle Idee; Valeria della Valle, Sapienza - Università di Roma
Banca dati di neologismi basata sullo spoglio dei principali quotidiani nazionali e locali, attiva dal 2012. È liberamente consultabile online.

Parlaritaliano.it (Corpora)
Autori vari
Raccolta di corpora di italiano parlato curati e messi a disposizione dagli studiosi che hanno aderito al progetto Parlare italiano. Tutti sono liberamente consultabili online e/o disponibili per il download.

PEC (PErugia Corpus)
Stefania Spina, Università per Stranieri di Perugia
Corpus di riferimento interrogabile, composto da circa 26 milioni di parole in italiano contemporaneo scritto e parlato, diviso in dieci sezioni. È liberamente consultabile online.

QALL-ME (Question Answering Learning technologies in a multiLingual and Multimodal  Environment)
Fondazione Bruno Kessler
Raccolta di trascrizioni (e registrazioni) di italiano parlato (oltre a inglese, spagnolo e tedesco); consta di più di 15000 parole relative al turismo. È disponibile per il download.

Italiano antico

Archivio Datini
Opera del Vocabolario Italiano
Corpus lemmatizzato del carteggio di Francesco Datini (1335-1410). Si compone di quasi 150.000 lettere ed è liberamente consultabile online.

ArTeSiA (Archivio Testuale del Siciliano Antico)
Mario Pagano, Università degli Studi di Catania (coordinatore); Opera del Vocabolario Italiano
Archivio testuale costituito da circa 300 testi in siciliano di epoca medievale, per un totale di più di un milione di occorrenze. È liberamente consultabile online.

CEOD (Corpus Epistolare Ottocentesco Digitale)
Massimo Palermo, Università per Stranieri di Siena (coordinatore)
Corpus epistolare costituito da circa 1350 lettere di 75 scriventi diversi, di varia estrazione sociale. È liberamente consultabile online.

CLaVo (Corpus dei Classici Latini Volgarizzati)
Scuola Normale Superiore di Pisa; Opera del Vocabolario Italiano
Banca dati interrogabile contenente 89 testi, per complessive circa 2,2 milioni di occorrenze, di latino tradotto. È liberamente consultabile online.

Corpus OVI dell'Italiano antico
Opera del Vocabolario Italiano
Raccolta completa dei testi italiani antichi resi accessibili dall'Opera del Vocabolario Italiano, ricca di 23 milioni di occorrenze per più di 450.000 forme grafiche distinte. È liberamente consultabile online.

CT (Corpus Taurinense)
Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino
Corpus di testi fiorentini del XIII secolo, dotato di più di 250.000 occorrenze; è ordinato per lemmi, parti del discorso, genere letterario e non solo. È liberamente consultabile online. 

DiVo (Corpus del Dizionario dei Volgarizzamenti)
Opera del Vocabolario Italiano
Corpus comprendente 168 testi in volgare variamente indicizzati, per un totale che supera i sei milioni di occorrenze. È liberamente consultabile online.

ReMediA (Repertorio di Medicina Antica)
Opera del Vocabolario Italiano
Corpus in allestimento di testi medico- scientifici antichi, nelle diverse lingue romanze o in volgarizzamenti dal latino. È liberamente consultabile online.

TLIO (Corpus del Tesoro della Lingua Italiana delle Origini)
Opera del Vocabolario Italiano
Corpus testuale assai ricco, con più di 2000 testi contenuti, la cui opera di lemmatizzazione procede tuttora. È liberamente consultabile online. 

Italiano di apprendenti

DILS (Dialoghi in Italiano Lingua Straniera)
Renata Savy, Università degli Studi di Salerno (coordinatore)
Corpus costituito da nove dialoghi tra parlanti stranieri in italiano, etichettanti secondo lo schema di annotazione PraTiD. È disponibile per il download.

LIPS (Lessico Italiano Parlato da Stranieri)
Massimo Vedovelli, Università per Stranieri di Siena (coordinatore)
Raccolta di testi dalle prove d'esame "Certificazione di Italiano come Lingua Straniera"; consta di 2198 prove, divise secondo il genere testuale a cui appartengono. È disponibile per il download. 

VALICO (Varietà Apprendimento Lingua Italiana Corpus Online)
Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino
Banca dati interrogabile per parte del discorso e tipo testuale; mostra come studenti di varie età e lingue madri scrivono in italiano. È liberamente consultabile online.

VINCA (Varietà di Italiano di Nativi Corpus Appaiato)
Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino
Corpus di testi, didattici e non, di italiani nativi; nato come corpus monitor di VALICO, ha assunto poi vita autonoma. È liberamente consultabile online. 

Italiano giornalistico

Archivio storico de «La Repubblica»
Raccolta non indicizzata di articoli dal 1984 a oggi. È liberamente consultabile online. 

Archivio storico de «La Stampa»
Archivio del materiale completo diviso in due parti: 1867-2005 e 2005-oggi. È interrogabile per edizione, data, argomento, autore. È liberamente consultabile online. 

Archivio storico del «Corriere della Sera»
Raccolta dell'intero materiale del quotidiano, dal 1876 a oggi; interrogabile per parole chiave, autore, argomento e non solo. È consultabile previa sottoscrizione a pagamento.

Corpus «La Repubblica»
Scuola Superiore di Lingue Moderne per Interpreti e Traduttori di Bologna
Corpus di testi dal quotidiano omonimo pubblicati tra il 1985 e il 2000; lemmatizzato, categorizzato e indicizzato per parti del discorso. È liberamente consultabile online previa registrazione gratuita.

CONTRAST-IT
Anna Maria De Cesare, Università di Basilea
Corpus comparabile multilingue di circa 1,5 milioni di parole; comprende articoli pubblicati tra il 2011 e 2015 in quotidiani online redatti in cinque lingue (italiano, spagnolo, francese, tedesco, inglese). Il corpus è liberamente accessibile in rete.

COMPARE-IT
Anna Maria De Cesare, Università di Basilea
Corpus comparabile monolingue di circa 550.000 parole; comprende articoli pubblicati tra il 2011 e 2013 nei principali quotidiani online redatti in lingua italiana in tre paesi diversi (Italia, Svizzera e Canada). Il corpus è liberamente accessibile in rete. 

I-CAB (Italian Content Annotation Bank)
Fondazione Bruno Kessler
Corpus annotato di 525 articoli dal quotidiano locale "L'Adige", per un totale di circa 180.000 parole. È disponibile per il download dietro richiesta scritta.

Italiano di Internet

Corpus di conversazioni da chat-line in lingua italiana
Èulogos, Intratext
Corpus testuale che ammonta a circa 850.000 occorrenze; contiene comunicazioni in chat tra utenti Internet di età inferiore a 30 anni. È liberamente consultabile online.

NUNC (Newsgroups UseNet Corpora)
Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino
Banca dati lessicale basata sulle conversazioni ospitate dai forum telematici detti "newsgroups"; è divisa per argomenti di conversazione e si estende su cinque lingue. È liberamente consultabile online.

PAISÀ (Piattaforma per l'Apprendimento dell'Italiano Su corpora Annotati)
Sergio Scalise, Alma Mater Studiorum - Università di Bologna (coordinatore); Vito Pirrelli, Istituto di Linguistica Computazionale «Antonio Zampolli» di Pisa (coordinatore)
Corpus testuale composto da una collezione di circa 380.000 documenti italiani tratti da Internet. È liberamente consultabile online e disponibile per il download.

RIDIRE (RIsorsa Dinamica Italiana di REte)
Emanuela Cresti, SILFI (Società Internazionale di Linguistica e Filologia Italiana) (coordinatore)
Corpus lessicale dinamico pensato per riflettere l'utilizzo della lingua italiana nel web in vari contesti, annotato e indicizzato. È liberamente consultabile online. 

WaCky (Web-as-Corpus kool yinitiative)
Scuola Superiore di Lingue Moderne per Interpreti e Traduttori di Bologna (coordinatore)
Corpora testuali in quattro lingue di circa due miliardi di parole ciascuno, lemmatizzati e indicizzati. Sono disponibili per il download dietro richiesta o liberalmente consultabili online a questo indirizzo.

Italiano tecnico

Italiano accademico 

Athenaeum
Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino
Corpus testuale che riflette la produzione scritta di un'Università italiana; contiene principalmente materiale tratto dal periodico universitario, da mail e circolari accademiche. È liberamente consultabile online.

Italiano istituzionale, giuridico e amministrativo 

bistro (Sistema informativo per la terminologia giuridica)
Accademia Europea di Bolzano
Banca dati terminologica contenente circa 50.000 termini del linguaggio giuridico-amministrativo italiano (con i rispettivi corrispondenti in tedesco e ladino), austriaco, tedesco e svizzero. È liberamente consultabile online.

BoLC (Bononia Legal Corpus)
Rema Rossini Favretti, Alma Mater Studiorum - Università di Bologna
Corpus testuale volto all'analisi delle forme linguistiche utilizzate in ambito legislativo, giuridico e amministrativo; formato da subcorpora paralleli in lingua italiana e inglese. È liberamente consultabile online. 

CATEx (Computer Assisted Terminology Extraction)
Accademia Europea di Bolzano
Corpus linguistico e terminologico che consta di circa cinque milioni di parole; comprende testi di legge italiani con le relative traduzioni in tedesco. È liberamente consultabile online. 

EuroParl (European Parliament Proceedings Parallel Corpus)
Philipp Koehn, University of Edinburgh
Corpus testuale che raccoglie gli atti del Parlamento Europeo tra il 1996 e il 2011 tradotti in 21 lingue. È disponibile per il download.

EUSLEX («European Union Secondary Legislation» Corpora Collection)
Maurizio Gotti, Università degli Studi di Bergamo (coordinatore); Scuola Superiore di Lingue Moderne per Interpreti e Traduttori
Corpus testuale bilingue italiano-inglese basato sull'archivio EUR-Lex dei testi di legge prodotti dall'Unione Europea, limitatamente al periodo 1999-2002. È liberamente consultabile online.

IATE (InterActive Terminology for Europe)
TermCoord (Terminology Coordination Unit of the European Parliament)
Banca dati terminologica multilingue dell'Unione Europea. Contiene più di 8,5 milioni di entrate terminologiche relative a diversi ambiti e argomenti, nelle 25 lingue ufficiali dell'UE. È liberamente consultabile online.

IS-LeGI (Indice Semantico del Lessico Giuridico Italiano)
Francesco Romano, Istituto di Teoria e Tecniche dell'Informazione Giuridica
Banca dati semantico-lessicale attiva dal 2008, divisa in legislazione, prassi giuridica, dottrina giuridica. È liberamente consultabile online.

Corpus Senato della Repubblica (Leggibilità del linguaggio politico parlamentare)
Maria Emanuela Piemontese, Sapienza - Università di Roma
Corpus di testi tratti dagli atti del Senato della Repubblica durante la XIV e XV legislatura; i testi sono analizzati solo quantitativamente (misurazione delle variabili lessicali e sintattiche), non secondo la comprensibilità. È disponibile per il download.

Risorse terminologiche per l'italiano istituzionale
REI (Rete per l'eccellenza dell'italiano istituzionale)
Raccolta di glossari, schede terminologiche. I materiali sono disponibili per il download e liberamente consultabili online.

Italiano medico

MeSH (Medical Subject Headings); versione italiana
U.S. National Library of Medicine; versione italiana a cura dell'Istituto Superiore di Sanità
Thesaurus dei termini del linguaggio medico inglese e banca dati parallela tradotta in italiano. Entrambi sono liberamente consultabili online.

UMLS (Unified Medical Language System)
U.S. National Library of Medicine
Software per l'analisi del linguaggio medico composto da un metathesaurus, una banca dati semantica e un lessico in lingua inglese. È disponibile per il download dietro richiesta scritta.

Italiano trasmesso

CPT (Corpus di Parlato Telegiornalistico. Anni Sessanta vs. 2005)
Corpus di trascrizioni annotate tratte dal TG2, accompagnate dalle rispettive registrazioni audio, per un confronto diacronico. È disponibile per il download.

DIA-LIT (Lessico Italiano Televisivo in DIAcronia)
Accademia della Crusca
Banca dati audiovisiva basata sulla struttura del LIT; consta di 40 ore di trasmissioni mandate in onda tra il 1954 e oggi. È liberamente consultabile online.

LIR (Lessico dell'Italiano Radiofonico)
Accademia della Crusca
Corpus di 90 ore di parlato trasmesso (quasi un milione di occorrenze), trascritto e diviso per genere radiofonico e tipologica comunicativa. È liberamente consultabile online.

LIT (Lessico dell'Italiano Televisivo)
Accademia della Crusca
Banca dati audiovisiva interrogabile, che raccoglie 168 ore di trasmissioni prelevate nel corso del 2006; dotato di trascrizioni annotate per parlante, genere, tipologia comunicativa. È liberamente consultabile online.

  

Agenda eventi


Avvisi

"La Crusca per voi", 59 (2019, II)

Avviso da Crusca

L'indice del nuovo fascicolo è disponibile nella sezione "Pubblicazioni".

Dare voce all’incompetenza: un grande male del nostro tempo

Avviso da Crusca

Pubblicato il nuovo Tema di Claudio Marazzini; è possibile intervenire nel dibattito commentando qui.

Italiano in autostrada

Avviso da Crusca

Pubblicato l'intervento conclusivo al Tema di Vittorio Coletti.

Prima tornata accademica 2020

Avviso da Crusca

Firenze, villa di Castello, 24 gennaio 2020. Durante la tornata, dedicata alla conservazione del patrimonio iconografico dell'Accademia e alla presentazione delle registrazioni dialettologiche della Prima Guerra Mondiale, saranno anche presentate quattro nuove pale accademiche.
Maggiori informazioni sono disponibili nella sezione "Eventi".

"Italiano digitale. La rivista della Crusca in rete"

Avviso da Crusca

Pubblicato il numero VIII, 2019/1 (gennaio -marzo). Il fascicolo è disponibile in rete.

"Studi di grammatica italiana"

Avviso da Crusca

Pubblicato il numero XXXVII. L'indice degli articoli contenuti nel volume è disponibile nella sezione "Pubblicazioni".

Biblioteca dell'Accademia - Donazioni

Avviso dalla biblioteca

La Biblioteca accetta in dono unicamente opere attinenti ai propri ambiti disciplinari.
Le opere inviate non saranno comunque restituite al donatore.

Vai alla sezione

Notizie dall'Accademia

Un museo della lingua italiana a Firenze: la proposta del Presidente del Consiglio Giuseppe Conte

21 gen 2020

Istituito il Dantedì. Ogni 25 marzo Dante Alighieri sarà celebrato a livello nazionale

19 gen 2020

I manifesti futuristi dell'archivio Crusca-Memofonte al programma televisivo "Passato e presente"

Vai alla sezione