未経験からの自然言語処理(NLP) 実践入門

Kuromoji(形態素解析)を2分で使えるようにする方法(Java)

  • このエントリーをはてなブックマークに追加
  • Pocket
Kuromoji(形態素解析)

自然言語処理関連の仕事をする中、絶対に切り離せないのが形態素解析です。

特に、Java、Pythonで使用する事が多いので、ここに記しておきます。

JavaでMeCabをセットアップすると大変ですが、Kuromojiだと使うまでに3分もかからないはずです。

使用した環境

  • Windows or Macを仮定
  • Eclipse(Neon3)を使用
  • Java8.X を使用

1.Kuromojiを使用するための設定(1分以内)

*EclipseでのMavenプロジェクトの作成方法等は、本記事の範囲外として割愛させて頂きます。

pom.xmlファイルへの依存関係の追加

1-1.Kuromojiのリポジトリの追加

<repositories>
	<repository>
		<id>Atilika Open Source repository</id>
		<url>http://www.atilika.org/nexus/content/repositories/atilika</url>
	</repository>
</repositories>

1-2.依存関係の追加

<dependency>
	<groupId>org.atilika.kuromoji</groupId>
	<artifactId>kuromoji</artifactId>
	<version>0.7.7</version>
	<type>jar</type>
	<scope>compile</scope>
</dependency>

基本的にはこれだけです。

2.Kuromojiを使ってみよう(1分以内)

基本的に以下のコードをコピペして頂ければ、そのまま使えます。非常に楽ですね。

import java.util.List;

import org.atilika.kuromoji.Token;
import org.atilika.kuromoji.Tokenizer;

public class KuromojiTest {

	public static void main(String[] args) {
		String str = "これは形態素解析のテストです"; // 形態素解析対象文字列

		Tokenizer tokenizer = Tokenizer.builder().build(); // Kuromojiオブジェクト作成

		List tokens = tokenizer.tokenize(str); // Tokenize

		for (Token token : tokens) {
			System.out.println("----------------------");
			System.out.println("表層:" + token.getSurfaceForm()); // Tokenの表層

			System.out.println("語幹:" + token.getBaseForm()); // Tokenの語幹

			System.out.println("読み:" + token.getReading()); // Tokenの読み

			System.out.println("POS:" + token.getAllFeatures()); // TokenのPOS詳細情報
		}
	}
}

以下は上記のコードの実行結果です。

----------------------
表層:これ
語幹:これ
読み:コレ
POS:名詞,代名詞,一般,*,*,*,これ,コレ,コレ
----------------------
表層:は
語幹:は
読み:ハ
POS:助詞,係助詞,*,*,*,*,は,ハ,ワ
----------------------
表層:形態素
語幹:形態素
読み:ケイタイソ
POS:名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ
----------------------
表層:解析
語幹:解析
読み:カイセキ
POS:名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
----------------------
表層:の
語幹:の
読み:ノ
POS:助詞,連体化,*,*,*,*,の,ノ,ノ
----------------------
表層:テスト
語幹:テスト
読み:テスト
POS:名詞,サ変接続,*,*,*,*,テスト,テスト,テスト
----------------------
表層:です
語幹:です
読み:デス
POS:助動詞,*,*,*,特殊・デス,基本形,です,デス,デス

ご質問等ございましたら、以下コメント欄よりお気軽にお問合せ下さい!

【動画あり】AI店員(人工知能)が小売業・流通業の接客を可能に!ニュースにも登場!

AI店員

AI関連サービス導入事例

AI導入事例

オージス総研

詳しくはこちら

お知らせ

2018/05/15 【イベント】株式会社アイネット様とSPJが、Japan IT Week(東京ビッグサイト)に共同出展

2018/04/20 【セミナー】【世界最高レベルの精度のAIチャットボットを開発・導入する方法】 2018/05/19(土) 東京 開催

2018/03/12 【プレスリリース】世界初!会話を学習しアナタだけの性格に育つメイド カーナビAIを共同開発

2018/03/03 【セミナー】【世界最高レベルの精度のAIチャットボットを開発・導入する方法】 2018/04/21(土) 東京 開催

2018/02/20 【メディア掲載】Ledge.ai(AI:人工知能特化型メディア)にインタビュー記事が掲載されました

過去のお知らせ一覧

アクセス・ランキング

人気AI記事 月間ランキングTOP25

詳しくはこちら

よく一緒に読まれているAI記事

音声アシストとは?4つの音声アシスタント代表的製品を比較... あらすじ 人工知能ブームがますます加速する現在、Siriに代表される音声アシストは、どんどん存在感を増していき、それを追従するような製品が、大手企業やベンチャー企業まで、幅広くリリースされるようになってきました。 音声アシスト・アプリが便利なのは、スマートフォン等の機器にデフォルトで搭載され...
年末年始休業のお知らせ(2017/12/29-2018/1/3)... 平素は格別のご高配を賜り、誠にありがとうございます。 年末年始の休業期間について、以下お知らせ致します。 ご不便をおかけいたしますが、何卒ご了承いただきますようお願い申し上げます。 休業期間:2017年12月29日(金曜日)~2018年1月3日(水曜日) 1月4日(木)より平常通り営...
音声認識の仕組みと、隠れマルコフモデル(HMM)入門... 1.あらすじ Siriや、Google音声アシスタント等、音声アシスタントアプリケーションは、すっかりと日常生活に浸透し、実際に使用している読者の方も多いかと思います。 使用された方はお気づきかと思いますが、そういったアプリの音声認識の精度はかなり素晴らしく、十分実用に達しています。 ...
世界初!会話を学習しアナタだけの性格に育つメイド カーナビAIを共同開発... エディアとSPJがAIを活用した次世代カーナビ・ゲームの共同研究開発を開始! 株式会社エディア(本社:東京都千代田区、代表取締役社長:原尾正紀、以下「エディア」)と、株式会社SPJ(本社:東京都千代田区、代表取締役:江口天、以下「SPJ」)は、2018年3月12日(月)より、AI(人工知能)関連技...
検索エンジンの3つの仕組みと、アルゴリズムを公開します... あらすじ Googleや、Yahoo検索等は、日常のネットライフには切り離せない存在になり、検索エンジンの存在しないネットサーフィン等、殆ど有り得ないかと思います。 そのくらい、今やすっかり日常に馴染んだ検索エンジンですが、最近では、AI技術と組み合わせる事でより高度になってきています。 ...

最新の人工知能アルゴリズムをSNSでお届けします

Leave a Reply

*