MeCab(形態素解析)をPythonから2分で使えるようにする方法

※サンプル・コード掲載

あらすじ

Javaだと、Kuromojiを使用するまでに必要な手続きは、基本的にjarファイルを追加するだけで完了しますので、形態素解析を使うまでの敷居は高くありません。

しかし、PythonでMeCabを使おうとすると、セットアップに時間を取られてしまうことがあります。

ですので、今回は最小限の労力で、PythonからMeCabを使う方法を紹介致します。

使用した環境

  • Ubuntu 16.04
  • python3、pipはインストールされていると仮定

*インスタンスを用意した直後の、何も手を加えていないインタクトなマシンの状態のままです。

MeCabのインストール(1分以内)

コマンドを打ち間違えなければ、完了まで1分かかららず、ご活用いただけるはずです。

MeCabを使えるようにするという事だけを優先するので、MeCabの詳細等は、別途御確認頂ければと存じます。

MeCab本体のインストール

git clone https://github.com/taku910/mecab.git
cd mecab/mecab
./configure  --enable-utf8-only
make
make check
sudo make install

辞書(ipadic)のインストール

cd ../mecab-ipadic
./configure --with-charset=utf8
make
sudo make install

MeCabの動作確認

% mecab
すもももももももものうち
すもも 名詞,一般,*,*,*,*,すもも, スモモ, スモモ
も   助詞,係助詞,*,*,*,*,も, モ, モ
もも  名詞,一般,*,*,*,*,もも, モモ, モモ
も   助詞,係助詞,*,*,*,*,も, モ, モ
もも  名詞,一般,*,*,*,*,もも, モモ, モモ
の 助詞,連体化,*,*,*,*,の, ノ, ノ
うち 名詞,非独立,副詞可能,*,*,*,うち, ウチ, ウチ

ここまで、1分。

PythonとMeCabの連携(1分以内)

Pythonバインディングのインストール

sudo pip install mecab-python3

Python3からMeCab動作確認

python3
>>> import sys
>>> import MeCab
>>> mecab = MeCab.Tagger("-Ochasen")
>>> print(mecab.parse("今日はいい天気ですね。"))
今日  キョウ   今日  名詞-副詞可能
は ハ は 助詞-係助詞
いい  イイ  いい  形容詞-自立    形容詞・イイ  基本形
天気  テンキ   天気  名詞-一般
です  デス  です  助動詞   特殊・デス 基本形
ね ネ ね 助詞-終助詞
。 。 。 記号-句点
EOS

ここまで合計で2分以内のはずです。これだけ簡単に、PythonからMeCabを使用する事ができれば、セットアップの手間を大きく軽減できますね。