コマンドラインから Sudachi で形態素解析してみる
日本語を品詞に分割する形態素解析器については、以前試してみた Mecab の他に、最近では Sudachi の評判がよいようです。それならばひとまずは触ってみようということで、今日はSudachi
をビルドして日本語の文章を形態素解析してみました。Sudachi をビルドする
Github にてソースコードが公開されているので、 これを clone してきてビルドしてみます。$ git clone git@github.com:WorksApplications/Sudachi.git $ cd Sudachiリポジトリには辞書をビルドするためのファイルもコミットされているので、サイズはそれなりに大きいです。lex なので字句解析器ですね。辞書自体は UniDic を使っているようで、ビルド時にダウンロードしている様子がビルドログから伺えます。
Sudachi
は Maven
プロジェクトなので、package
ゴールまで実行すればビルドできます。$ mvn clean package
実際に
Sudachi
を動かすにはビルドした jar
ファイルを叩くのですが、そのままビルドしただけではもろもろの設定が足りていません。必要な設定ファイルのサンプルは src/main/resources/sudachi.json、src/main/resources/sudachi_fulldict.json として置かれているので、これをベースに設定をしていきます。systemDict
値には Sudachi
が利用する辞書のパスを指定します。リポジトリ上では辞書ファイルの名前だけが書かれているので、このパスの辞書にアクセスできるディレクトリで jar
ファイルを実行するか、systemDict
値自体を正しく指定し直す必要があります。Sudachi
の辞書自体は、ビルドすると target
ディレクトリに system_core.dic
、system_full.dic
として生成されます。また同時に、圧縮された zip
ファイルとしても、sudachi-0.1.1-SNAPSHOT-dictionary-full.zip
、sudachi-0.1.1-SNAPSHOT-dictionary-core.zip
等としてビルドされていました。ここでは以下の内容の
sudachi_fulldict.json
を my_sudachi_config.json
という名前でカレントティディレクトリにコピーし、以下の内容に修正しました。続きを読む Sudachi コメント (0) 2018/10/04 20:41:21