未経験からの自然言語処理(NLP) 実践入門

Kuromoji(形態素解析)を2分で使えるようにする方法(Java)

  • このエントリーをはてなブックマークに追加
  • Pocket
Kuromoji(形態素解析)

自然言語処理関連の仕事をする中、絶対に切り離せないのが形態素解析です。

特に、Java、Pythonで使用する事が多いので、ここに記しておきます。

JavaでMeCabをセットアップすると大変ですが、Kuromojiだと使うまでに3分もかからないはずです。

使用した環境

  • Windows or Macを仮定
  • Eclipse(Neon3)を使用
  • Java8.X を使用

1.Kuromojiを使用するための設定(1分以内)

*EclipseでのMavenプロジェクトの作成方法等は、本記事の範囲外として割愛させて頂きます。

pom.xmlファイルへの依存関係の追加

1-1.Kuromojiのリポジトリの追加

<repositories>
	<repository>
		<id>Atilika Open Source repository</id>
		<url>http://www.atilika.org/nexus/content/repositories/atilika</url>
	</repository>
</repositories>

1-2.依存関係の追加

<dependency>
	<groupId>org.atilika.kuromoji</groupId>
	<artifactId>kuromoji</artifactId>
	<version>0.7.7</version>
	<type>jar</type>
	<scope>compile</scope>
</dependency>

基本的にはこれだけです。

2.Kuromojiを使ってみよう(1分以内)

基本的に以下のコードをコピペして頂ければ、そのまま使えます。非常に楽ですね。

import java.util.List;

import org.atilika.kuromoji.Token;
import org.atilika.kuromoji.Tokenizer;

public class KuromojiTest {

	public static void main(String[] args) {
		String str = "これは形態素解析のテストです"; // 形態素解析対象文字列

		Tokenizer tokenizer = Tokenizer.builder().build(); // Kuromojiオブジェクト作成

		List tokens = tokenizer.tokenize(str); // Tokenize

		for (Token token : tokens) {
			System.out.println("----------------------");
			System.out.println("表層:" + token.getSurfaceForm()); // Tokenの表層

			System.out.println("語幹:" + token.getBaseForm()); // Tokenの語幹

			System.out.println("読み:" + token.getReading()); // Tokenの読み

			System.out.println("POS:" + token.getAllFeatures()); // TokenのPOS詳細情報
		}
	}
}

以下は上記のコードの実行結果です。

----------------------
表層:これ
語幹:これ
読み:コレ
POS:名詞,代名詞,一般,*,*,*,これ,コレ,コレ
----------------------
表層:は
語幹:は
読み:ハ
POS:助詞,係助詞,*,*,*,*,は,ハ,ワ
----------------------
表層:形態素
語幹:形態素
読み:ケイタイソ
POS:名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ
----------------------
表層:解析
語幹:解析
読み:カイセキ
POS:名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
----------------------
表層:の
語幹:の
読み:ノ
POS:助詞,連体化,*,*,*,*,の,ノ,ノ
----------------------
表層:テスト
語幹:テスト
読み:テスト
POS:名詞,サ変接続,*,*,*,*,テスト,テスト,テスト
----------------------
表層:です
語幹:です
読み:デス
POS:助動詞,*,*,*,特殊・デス,基本形,です,デス,デス

ご質問等ございましたら、以下コメント欄よりお気軽にお問合せ下さい!

【動画あり】AI店員(人工知能)が小売業・流通業の接客を可能に!ニュースにも登場!

AI店員

AI関連サービス導入事例

AI導入事例

オージス総研

詳しくはこちら

お知らせ

2018/04/20 【セミナー】【世界最高レベルの精度のAIチャットボットを開発・導入する方法】 2018/05/19(土) 東京 開催

2018/03/12 【プレスリリース】世界初!会話を学習しアナタだけの性格に育つメイド カーナビAIを共同開発

2018/03/03 【セミナー】【世界最高レベルの精度のAIチャットボットを開発・導入する方法】 2018/04/21(土) 東京 開催

2018/02/20 【メディア掲載】Ledge.ai(AI:人工知能特化型メディア)にインタビュー記事が掲載されました

2018/01/24 【セミナー】【世界最高レベルの精度のAIチャットボットを開発・導入する方法】 2018/03/24(土) 東京 開催

過去のお知らせ一覧

アクセス・ランキング

人気AI記事 月間ランキングTOP25

詳しくはこちら

よく一緒に読まれているAI記事

pix2pixで輪郭の線画から、絵画を画像生成する方法... 1.pix2pixとは? 昨年、pix2pixという技術が発表されました。 概要としては、それまでの画像生成のようにパラメータからいきなり画像を生成するのではなく、画像から画像を生成するモデルを構築します。 DCGANと呼ばれる画像生成の技術を使用しており、使い方としては、白黒写真から...
【AIが人手不足を解消】小売業に特化したAI接客システムを開発、多言語対応で外国人の接客も可能に!... 株式会社SPJ(本社:東京都千代田区、代表取締役CEO:江口 天、以下「当社」)は、小売業に特化した高精度 人工知能 接客システムを2017年12月7日(金)にリリース致します。 通常の対話システムは、雑談等幅広い話題に対応出来るようにすることを目標に開発されています。その結果、意図解釈能力が...
対話システムを構成する2つの仕組みと、フレームワークとは?... 1.あらすじ 昨今の人工知能ブームで、Siriに話しかけている人や、店頭にいるpepper等のロボットに話しかけている人、また、Line上でりんなに話しかけて対話を楽しんでいる人等が増えてきていると思います。 また、商業的な観点からは、コンタクトセンタ等の問い合わせ対応の手間を軽減させるため...
MeCab(形態素解析)をPythonから2分で使えるようにする方法... Javaだと、Kuromojiを使用するまでに必要な手続きは、基本的にjarファイルを追加するだけで完了しますので、形態素解析を使うまでの敷居は高くありません。 しかし、PythonでMeCabを使おうとすると、セットアップに時間を取られてしまうことがあります。 ですので、今回は最小限の...
【入門】アンサンブル学習の代表的な2つの手法とアルゴリズム... 1.あらすじ 人工知能ブームがどんどん加速する中、ニューラルネット、SVM、ナイーブベーズ等、様々な機械学習の手法が存在し、その派生系もどんどん増えていって、一体どういう場合にどのアルゴリズムを選ぶといいんだろうと、首を傾げている方も多いと思います。 今回はその中でも、特にアンサンブル学習と...

最新の人工知能アルゴリズムをSNSでお届けします

Leave a Reply

*