UniDic für MeCab
In den letzten Beiträgen haben wir gesehen, wie man die Wörterbücher für morphologische Analyse installieren kann.
Sie waren jedoch nur für gegenwärtiges Japanisch.
Was kann man dann tun, wenn man alte Texte wie Makura no sôshi (aus der Heian-Zeit) analysieren möchte?
Dafür gibt es noch weitere Dictionaries - UniDic. UniDic[s] sind die Dictionaries für unterschiedliche Japanischen[!!]. Sie wurden von NINJAL (National Insitut for Japanese Language and Linguistics) entwickelt und unter der Creative Commons Lizenz (BY-NC-SA) frei zur Verfügung gestellt. Wie auf seiner UniDic-Seite zu sehen ist, sind dort mehrere Dictionaries angeboten:
Ich habe jetzt vor allem die zwei Wörterbücher, kindai bungo (近代文語; modernes geschriebenes Japanisch) und chûko wabun (中古和文; Japanisch aus der Heian-Zeit) heruntergeladen.
Ein Wörterbuch kommt als eine ZIP-Datei auf den PC. Dies habe ich zuerst im home-Ordner entpackt. Danach habe ich beide Dictionaries in den Ordner kopiert, wo das andere Dictionary für MeCab steht - also /usr/lib/mecab/dic
Zum Beispiel:
Im Home-Ordner ist der entpackte Ordner "UniDic-kindai_1603". Dies habe ich in den Ordner "/usr/lib/mecab/dic" kopiert, mit dem Befehl:
$ cd ~
$ sudo cp -r UniDic-kindai_1603 /usr/lib/mecab/dic/UniDic-kindai
... Ich denke, ein Dictionary muss nicht im Ordner "/usr/lib/mecab/dic" sein, solange der entsprechende Ordner beim Befehl "mecab -d ..." einbezogen werden kann.
Als Probe habe ich einen Satz aus Makura no sôshi genommen und mit Mecab&UniDic analysiert:
春は曙、やうやう白くなりゆく山際すこしあかりて、紫だちたる雲の細くたなびきたる。
Vielleicht kann die Ergebnisliste noch modifiziert werden, damit das Ergebnis noch ordentlich aussieht. Aber vorerst funktioniert alles gut.
Kommentare
Kommentar veröffentlichen