Textmining mit R (für Japanische Texte) – 1

Für Japanologen ist die Frage sicher interessant, ob man mit einem gängigen Programmiersprache für Statistik wie z.B. „R“ japanischsprachige Texte analysieren kann.
Die Antwort lautet ja. Es sind schon recht viele Forschungen, in denen die japanischsprachige Texte durch computerunterstützter Datenanalyse untersucht worden sind. In diesem Serienbeitrag wird eine Möglichkeit dazu vorgestellt.
R ist eine Programmiersprache und zugleich eine Software-Umgebung, die solche statistische Arbeit ermöglicht. Als erster Schritt soll die R installiert werden. Laut der Homepage von R steht die Version 3.5.1 von R zur Verfügung (Stand: 24.07.2018) (1).
R wurde  von Statistikern Ross Ihaka und Robert Gentleman an der Universität Auckland bereits 1992 entwickelt (2). Seit Mitte 1997 wurde eine Core Gruppe gegründet, die das R weiter entwickeln soll. Heute (2018) besteht diese Kerngruppe aus 20 Personen (3). R Foundation ist als ein offizielles Teil des GNU-Projekts anerkannt.
R kann also kostenlos von jedem heruntergeladen werden. Um das R herunterzuladen, muss zuerst  die Homepage vom lokalen Host von CRAN (Comprehensive R Archive Network). In der Schweiz ist er ETH: https://stat.ethz.ch/CRAN/
Wenn man dort die Seite gelangt, sieht man relativ sofort ein, wie man R je nach dem Betriebssystem heruntergeladen und weiter intalliert werden kann.
Ich gehe davon aus, dass es dabei kein Problem gibt. In dem nächsten Beschreibung gehe ich davon aus, dass wir die Version 3.5.1. von R installiert haben.
Als näcshter Schritt soll ein weiteres Software „Rstudio“ installiert werden. Das Rstudio erleichtert die Arbeit mit R.
Besuchen wir die Internetseite von Rstudio: https://www.rstudio.com/products/rstudio/
Rstudio hat unterschiedliche Varianten wie „One Source Edition“ oder „Commercial Licence“. Wenn man allein zuerst die Texte, Tabelle oder weiteres analysiert, reicht die „One source Edition“-Version aus, was kostenlos ist. – Also wählt man die kostenlose Version aus.
Das Herunterladen und Installation sollten auch kein Problem sein.
Jetzt kann man schon mit R & Rstudio unterschiedliche Analyse treiben. Aber für die Analyse der japanischsprachigen Texte brauchen wir noch einen weiteren Schritt – Der Computer muss ein wenig Japanisch-Kenntnisse haben, um z.B. eine morphologische Analyse durchzuführen.
Jetzt kommt also Japan-spezifisches Teil. Hier soll eine Engine für morphologische Analyse namens MeCab (和布蕪) eingeführt werden. Diese Analyse-Engine wurde von Herrn Kudô Taku (工藤拓) entwickelt. Sie steht als Open Source Software (Lizenz nach GPL [the GNU General Public License] und weiteres) für jeden zur Verfügung.



Auf dem ersten Blick von der MeCab-Internetseite steht nur Japanisch… Aber als guter Japanologe sieht man sofort das Wort 目次 (mokuji), das das Inhaltsverzeichnis bedeutet. Und weiter unten steht auch das Wort ダウンロード, also Download.









Im Abschnitt Download findet man, dass es mehrere Variante gibt. Vor allem existieren ein MeCab-Software und unterschiedliche „Dictionaries“, anhand deren morphologische Analyse ermöglicht wird. Da wir hier zuerst gegenwärtiges Japanisch thematisieren wollen, ist die IPA-Dictionary (IPA辞書) zuerst ausreichend.
Für Windows OS gibt es ein einfaches Package für ein einmaliges Download von MeCab und dieser Dictionary unter „Binary package for MS-Windows.
Für Mac steht irgendwie keine Erläuterung, aber man kann über Command Line Tool die Quell code von MeCab und Dictionary installiert werden.  Zuerst Command Line Tool installieren, danach holt man die Source „mecab-0.996.tar.gz“ und IPA-Dictionary (IPA 辞書) und speichert unter dem Ordner „Downloads“, oder so wie es bei euch heisst.
Dann öffnet man Command Line Tool in Mac und fügt die folgende Befehle ein:
$ cd ~/Downloads

$ tar xf mecab-0.996.tar.gz

$ cd mecab-0.996

$ ./configure --with-charset=utf8

$ make

$ sudo make install
Damit sollte MeCab in einem Mac-OS installiert sein. Danach installiert man auch die IPA Dictionary (mecab-ipadic-2.7.0-20070801):
$ cd ~/Downloads

$ tar xf mecab-ipadic-2.7.0-20070801.tar.gz

$ cd mecab-ipadic-2.7.0-20070801.tar.gz

$ ./configure --with-charset=utf-8

$ make 

$ sudo make install
Ich, Verfasser dieses Beitrages, verwende Windows OS. Deshalb habe ich einfache Variante genommen. Erstens „mecab-0.996.exe“ downloaden. Auspacken mit der Sprache „English“. Für die Zeichencodierung für Japanisch habe ich „Shift JIS“ genommen.
Bei der Installation tauchte bei mir kein Problem auf. ABER, weil mein Rechner in der Schweiz erworben ist, hat Administrative Sprachoption nicht passend eingestellt, was das bekannte Mojibake-Problem verursachte. Dies kann durch die Änderung der Sprachoption behoben werden. Man wählt bei der System-Einstellung „Sprach und Region“, und dort weiter „administrative
Sprachoption“.


Wahrscheinlich steht „Deutsch“ oder Ähnliches dort im Fenster „Sprache für Unicode-inkompatible Programme“. Das muss in „Japanisch (Japan)“ umgewandelt werden. Danach sollte der Rechner neu gestartet werden.
Wenn es alles gut läuft, kann man jetzt das Software „Mecab“ starten und dort im Fenster einen japanischen Satz hinein schreiben.
Als Beispiel habe ich einen japanischen Satz „すもももももももものうち“ eingegeben und von Mecab den Satz analysieren lassen.





Das Mecab gibt die Analyse des Satzes zurück, wie man im linken Bild ansehen kann.
In der einzelnen Linie werden die einzelnen Wörter in diesem Satz morphologisch analysiert. Die Einzel-Linie haben folgendermassen strukturiert:
表層形 (Erscheinungsform) \ t品詞(Wortkategorie),品詞細分類1(feine Wortkategorie 1),品詞細分類2 (feine Wortkategorie 2),品詞細分類3 (feine Wortkategorie 3),活用型 (Deklinationsmuster),活用形 (Deklinationsform),原形 (Infinitiv),読み (Lesung),発音 (Aussprache)
Wenn alles ordentlich installiert worden ist, sind wir bereit für Text mining für Japanisch:)
MeCab kann übrigens nicht nur mit R, sondern auch mit anderen Programmiersprache wie Python verwendet werden. Jedoch demnächst schauen wir einfache Text mining mit R & Mecab.



1)  https://www.r-project.org/ (Stand: 24.07.2018)
2) https://de.wikipedia.org/wiki/R_%28Programmiersprache%29 (Stand: 24.07.2018)
3) https://www.r-project.org/contributors.html (Stand: 24.07.2018)

Kommentare

  1. MeCab für Ubuntu (16.04):
    $ sudo apt-get install mecab libmecab-dev mecab-ipadic-utf8
    Damit wird IPA-Dic auch installiert

    AntwortenLöschen

Kommentar veröffentlichen

Beliebte Posts