HiddenPage Creazione del testo di addestramento
Creazione del testo di addestramento
Il testo di addestramento dovrebbe essere un file di testo pulito contente
del testo `simile' a quello che volete scrivere.
Più è grande il testo meglio è. Noi pensiamo
che 300K siano una dimensione giusta.
Esempio di testi di addestramento che potreste usare sono:
- Prendere tutti i documenti di testo che avete scritto e incollate
tutto insieme in un unico documento.
- Utilizzate storie - per esempio noi abbiamo usato Emma id Jane Austen
dal Progetto Gutenberg.
Il problema utilizzando solo una o due storie è che particolari parole (come Emma o Alice)
si trovano molto di frequente e quindi le storie non sono ideali per testi di addestramento generici.
- Utilizzare tutti i messagi email che avete scritto e incollarli insieme in un unico documento.
Come costruire un testo di addestramento generico
Di seguito è spiegato come io ho costruito il testo di addestramento per
la versione inglese di Dasher.
-
Ho preso molti documenti in inglese. Prendete più materiale rispetto a quello
che pensate possa servirvi così potete scegliere un insieme di frasi
ben bilanciate come le segue.
-
Elaborate tutto in modo che ci sia solo una frase per linea.
L'ho fatto usando un programma in perl che ho scritto,
processbook.p
con scripts come questi
foreach f ( alice emma )
processbook.p /books0/$f > /books/$f
end
-
Ora ottenete una lista delle 2000 più frequenti parole della lingua. L'idea è
che siccome queste parole sono comuni è importante che compaiano diverse volte nel
corpo finale in una varietà di contesti. Useremo queste parole per selezionare le frasi
da inserire nel grosso testo che rappresenta il corpo finale.
Io ho ottenuto questa lista da internet e l'ho messa in un file che ho chiamato dict.
Ho rimosso da dict tutte le parole comuni assurde che impedivano al procedimento di funzionare
correttamente.
-
Usate un altro programma per selezionare da ogni libro pre-processato le frasi che contengano
le 2000 parole richieste. Visitate le parole in ordine per fare in modo che anche il corpo
risultante sia ordinato, con le parole più utilizzate in cima alla lista; in questo
modo il corpo può essere ristretto tagliando via la parte finale e dovrebbe
essere appripriato per la propria dimensione.
Incollate insieme le frasi dentro paragrafi di dimensione plausibile che possano emulare
la normale scrittura.
Io ho effettuato questo passo uando la utility linux glimpse e un mio programma
perl corpus.p
rm /data/coll/mackay/books/*~
glimpseindex -b -B -H ~/dasher/ /data/coll/mackay/books/
corpus.p k=1 f=4 o=corpus4.txt
Ecco come ho fatto this corpus (316K),
che è stato usato in Dasher 1.6.8.
Se qualcuno volesse costruire dei corpi in altre lingue e condividerli posso metterli in
questo sito.