未経験からの自然言語処理(NLP) 実践入門

Kuromoji(形態素解析)を2分で使えるようにする方法(Java)

  • このエントリーをはてなブックマークに追加
  • Pocket
Kuromoji(形態素解析)

自然言語処理関連の仕事をする中、絶対に切り離せないのが形態素解析です。

特に、Java、Pythonで使用する事が多いので、ここに記しておきます。

JavaでMeCabをセットアップすると大変ですが、Kuromojiだと使うまでに3分もかからないはずです。

使用した環境

  • Windows or Macを仮定
  • Eclipse(Neon3)を使用
  • Java8.X を使用

1.Kuromojiを使用するための設定(1分以内)

*EclipseでのMavenプロジェクトの作成方法等は、本記事の範囲外として割愛させて頂きます。

pom.xmlファイルへの依存関係の追加

1-1.Kuromojiのリポジトリの追加

<repositories>
	<repository>
		<id>Atilika Open Source repository</id>
		<url>http://www.atilika.org/nexus/content/repositories/atilika</url>
	</repository>
</repositories>

1-2.依存関係の追加

<dependency>
	<groupId>org.atilika.kuromoji</groupId>
	<artifactId>kuromoji</artifactId>
	<version>0.7.7</version>
	<type>jar</type>
	<scope>compile</scope>
</dependency>

基本的にはこれだけです。

2.Kuromojiを使ってみよう(1分以内)

基本的に以下のコードをコピペして頂ければ、そのまま使えます。非常に楽ですね。

import java.util.List;

import org.atilika.kuromoji.Token;
import org.atilika.kuromoji.Tokenizer;

public class KuromojiTest {

	public static void main(String[] args) {
		String str = "これは形態素解析のテストです"; // 形態素解析対象文字列

		Tokenizer tokenizer = Tokenizer.builder().build(); // Kuromojiオブジェクト作成

		List tokens = tokenizer.tokenize(str); // Tokenize

		for (Token token : tokens) {
			System.out.println("----------------------");
			System.out.println("表層:" + token.getSurfaceForm()); // Tokenの表層

			System.out.println("語幹:" + token.getBaseForm()); // Tokenの語幹

			System.out.println("読み:" + token.getReading()); // Tokenの読み

			System.out.println("POS:" + token.getAllFeatures()); // TokenのPOS詳細情報
		}
	}
}

以下は上記のコードの実行結果です。

----------------------
表層:これ
語幹:これ
読み:コレ
POS:名詞,代名詞,一般,*,*,*,これ,コレ,コレ
----------------------
表層:は
語幹:は
読み:ハ
POS:助詞,係助詞,*,*,*,*,は,ハ,ワ
----------------------
表層:形態素
語幹:形態素
読み:ケイタイソ
POS:名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ
----------------------
表層:解析
語幹:解析
読み:カイセキ
POS:名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
----------------------
表層:の
語幹:の
読み:ノ
POS:助詞,連体化,*,*,*,*,の,ノ,ノ
----------------------
表層:テスト
語幹:テスト
読み:テスト
POS:名詞,サ変接続,*,*,*,*,テスト,テスト,テスト
----------------------
表層:です
語幹:です
読み:デス
POS:助動詞,*,*,*,特殊・デス,基本形,です,デス,デス

ご質問等ございましたら、以下コメント欄よりお気軽にお問合せ下さい!

【動画あり】AI店員(人工知能)が小売業・流通業の接客を可能に!ニュースにも登場!

AI店員

お知らせ

2017/12/12 【セミナー】【世界最高レベルの精度のAIチャットボットを開発・導入する方法】 2017/02/18(日) 東京 開催

2017/12/12 【プレスリリース】レッジ、ウェブライダー、SPJが共同で機械学習を用いた文章校正の共同研究を開始

2017/12/08 AI店員がテレ朝に掲載されました!弊社の対話エンジン搭載!(動画あり)

2017/12/05 年末年始休業のお知らせ(2017/12/29-2018/1/3)

2017/12/04 【プレスリリース】【AIが人手不足を解消】小売業に特化したAI接客システムを開発、多言語対応で外国人の接客も可能に!

過去のお知らせ一覧

アクセス・ランキング

人気AI記事 月間ランキングTOP25

詳しくはこちら

よく一緒に読まれているAI記事

MeCab(形態素解析)をPythonから2分で使えるようにする方法... Javaだと、Kuromojiを使用するまでに必要な手続きは、基本的にjarファイルを追加するだけで完了しますので、形態素解析を使うまでの敷居は高くありません。 しかし、PythonでMeCabを使おうとすると、セットアップに時間を取られてしまうことがあります。 ですので、今回は最小限の...
あの!パリのフラワーショップ「MONCEAU FLEURS(モンソーフルール)」銀座マロニエゲート店... あのパリのフラワーショップ、モンソーフルール【MONCEAU FLEURS】銀座マロニエゲート店に新人AIスタッフ(Helene エレーヌ)が登場します。 エレーヌはお花の事を沢山知っているAI店員です。エレーヌはお客様の顔を認識し、会話によってお客様お一人お一人にお好みのアレンジをお奨めしま...
レッジ、ウェブライダー、SPJが共同で機械学習を用いた文章校正の共同研究を開始... ■プロジェクトの目的と経緯 株式会社レッジ、株式会社ウェブライダー、株式会社SPJは、12月12日(火)より、推敲・校閲支援ツール『文賢(ブンケン)』への機能追加・サービス向上を目的とした、共同研究プロジェクトを開始いたします。 AI(機械学習やディープラーニングなど)の技術を使用し、文章校...
【入門】自然言語処理(NLP)の8つの課題と解決策とは?... 1.自然言語とは何か? 言語は、私たちの生活の中に常にあり、また、なくてはならないものです。 そんな日々当たり前に使われる言語を見つめ直し、解析すると、どんな興味深いものが見えてくるのでしょうか。 1-1.言語の世界とは? 「自然言語処理」の「自然言語」とは何か? 言語には、大きく...
対話システムを構成する2つの仕組みと、フレームワークとは?... 1.あらすじ 昨今の人工知能ブームで、Siriに話しかけている人や、店頭にいるpepper等のロボットに話しかけている人、また、Line上でりんなに話しかけて対話を楽しんでいる人等が増えてきていると思います。 また、商業的な観点からは、コンタクトセンタ等の問い合わせ対応の手間を軽減させるため...

最新の人工知能アルゴリズムをSNSでお届けします

Leave a Reply

*