未経験からのNLP(自然言語処理) 入門

MeCab(形態素解析)をPythonから2分で使えるようにする手順

  • このエントリーをはてなブックマークに追加
  • Pocket
MeCab

Javaだと、Kuromojiを使用するまでに必要な手続きは、基本的にjarファイルを追加するだけで完了しますので、形態素解析を使うまでの敷居は高くありません。

しかし、PythonでMeCabを使おうとすると、セットアップに時間を取られてしまうことがあります。

ですので、今回は最小限の労力で、PythonからMeCabを使う方法を紹介致します。

使用した環境

  • Ubuntu 16.04
  • python3、pipはインストールされていると仮定

*インスタンスを用意した直後の、何も手を加えていないインタクトなマシンの状態のままです。

1.MeCabのインストール(1分以内)

コマンドを打ち間違えなければ、完了まで1分かかららず、ご活用いただけるはずです。

MeCabを使えるようにするという事だけを優先するので、MeCabの詳細等は、別途御確認頂ければと存じます。

1-1.MeCab本体のインストール

git clone https://github.com/taku910/mecab.git
cd mecab/mecab
./configure  --enable-utf8-only
make
make check
sudo make install

1-2.辞書(ipadic)のインストール

cd ../mecab-ipadic
./configure --with-charset=utf8
make
sudo make install

1-3.MeCabの動作確認

% mecab
すもももももももものうち
すもも 名詞,一般,*,*,*,*,すもも, スモモ, スモモ
も   助詞,係助詞,*,*,*,*,も, モ, モ
もも  名詞,一般,*,*,*,*,もも, モモ, モモ
も   助詞,係助詞,*,*,*,*,も, モ, モ
もも  名詞,一般,*,*,*,*,もも, モモ, モモ
の 助詞,連体化,*,*,*,*,の, ノ, ノ
うち 名詞,非独立,副詞可能,*,*,*,うち, ウチ, ウチ

ここまで、1分。

2.PythonとMeCabの連携(1分以内)

2-1.Pythonバインディングのインストール

sudo pip install mecab-python3

2-2.Python3からMeCab動作確認

python3
>>> import sys
>>> import MeCab
>>> mecab = MeCab.Tagger("-Ochasen")
>>> print(mecab.parse("今日はいい天気ですね。"))
今日  キョウ   今日  名詞-副詞可能
は ハ は 助詞-係助詞
いい  イイ  いい  形容詞-自立    形容詞・イイ  基本形
天気  テンキ   天気  名詞-一般
です  デス  です  助動詞   特殊・デス 基本形
ね ネ ね 助詞-終助詞
。 。 。 記号-句点
EOS

ここまで合計で2分以内のはずです。これだけ簡単に、PythonからMeCabを使用する事ができれば、セットアップの手間を大きく軽減できますね。

最新記事をSNSでお届けします

よく一緒に読まれている記事

ボットに人間の心を読まれる日も近い... 「空気を読め」という言葉を日本人なら誰もが聞いたことがあるはず。私もなかなか空気の読めない人の一人ですが、そんな空気の読めない人のいい(驚異的な)お知...
ボットが人間のコミュニケーションを活性化する!?... 「ボットは人間ほど賢く無くとも、人間のグループに役に立つ振る舞いができる。」という発表がアメリカのYale大学でありました。 職場などのチームの...
機械学習とは? ディープラーニング、ニューラルネットワークについて解説してきましたが、では、ニューラルネットワークはどのようにつくるのでしょうか? その質問に答...
ニューラルネットワークとは? 今人工知能というワードがホットですが、人工知能の技術と切っても切り離せないニューラルネットワークというモデルについて解説したいと思います。 ニュ...
AI(人工知能)と臨床試験の未来 あなたは、薬が開発されてから販売されるまでの経緯をご存知ですか? 実は、薬が世の中に出るまでには、長い長い時間と費用がかかります。 その中...
  • このエントリーをはてなブックマークに追加
  • Pocket

Leave a Reply

*