janomeのインストール Windowsで分かち書きをしたくて色々調べたが、大道はmecabを使うのだが、インストールが面倒とのこと、次点でjanomeがあるがこちらはpipで手軽にインストールできるけども、速度は 1/10000程度とのこと 、とりあえずhanomeですることに、インストールは簡単、 > pip install janome でOK test.pyを作って from janome.tokenizer import Tokenizer t = Tokenizer() s = 'すもももももももものうち' print(s) for token in t.tokenize(s): print(token) で すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ の 助詞,連体化,*,*,*,*,の,ノ,ノ うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ でOK 。辞書が古いらしいのでNEologdを使えるようにする。 (失敗)NEologdのインストール windows上でもできるようだが、ubuntu上でした方が楽らしいので、仮想マシンにubuntuをインストールしてそこで行うことにした。 とりあえず準備としてgit とcurlが必要なのでまずインストール、その後mecab環境が必要。 sudo apt install git curl$ sudo apt install mecab sudo apt install libmecab-dev sudo apt install mecab-ipadic-utf8 sudo apt install make git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git で環境構築完了。辞書の作成 cd mecab-ipadic-neologd sudo bin/install-mecab-i...