RSS2.0

コマンドラインから Sudachi で形態素解析してみる

日本語を品詞に分割する形態素解析器については、以前試してみた Mecab の他に、最近では Sudachi の評判がよいようです。それならばひとまずは触ってみようということで、今日は Sudachi をビルドして日本語の文章を形態素解析してみました。

Sudachi をビルドする

Github にてソースコードが公開されているので、 これを clone してきてビルドしてみます。
$ git clone git@github.com:WorksApplications/Sudachi.git
$ cd Sudachi
リポジトリには辞書をビルドするためのファイルもコミットされているので、サイズはそれなりに大きいです。lex なので字句解析器ですね。辞書自体は UniDic を使っているようで、ビルド時にダウンロードしている様子がビルドログから伺えます。

Sudachi は Maven プロジェクトなので、package ゴールまで実行すればビルドできます。
$ mvn clean package

実際に Sudachi を動かすにはビルドした jar ファイルを叩くのですが、そのままビルドしただけではもろもろの設定が足りていません。必要な設定ファイルのサンプルは src/main/resources/sudachi.jsonsrc/main/resources/sudachi_fulldict.json として置かれているので、これをベースに設定をしていきます。

systemDict 値には Sudachi が利用する辞書のパスを指定します。リポジトリ上では辞書ファイルの名前だけが書かれているので、このパスの辞書にアクセスできるディレクトリで jar ファイルを実行するか、systemDict 値自体を正しく指定し直す必要があります。
Sudachi の辞書自体は、ビルドすると target ディレクトリに system_core.dicsystem_full.dic として生成されます。また同時に、圧縮された zip ファイルとしても、sudachi-0.1.1-SNAPSHOT-dictionary-full.zipsudachi-0.1.1-SNAPSHOT-dictionary-core.zip 等としてビルドされていました。

ここでは以下の内容の sudachi_fulldict.json を my_sudachi_config.json という名前でカレントティディレクトリにコピーし、以下の内容に修正しました。
続きを読む Sudachi  コメント (0) 2018/10/04 20:41:21
プロフィール HN: ももかん
ゲーム作ったり雑談書いたり・・・していた時期が私にもありました。
カレンダー
<<2024, 11>>
272829303112
3456789
10111213141516
17181920212223
24252627282930