未経験からの文章生成 入門

文章生成AI(LSTM)に架空の歴史を書かせた手順とその結果

  • このエントリーをはてなブックマークに追加
  • Pocket
ai typing

AIに文章を作らせる方法概要

架空の名前から架空の人物の歴史概要を作成させてみました。

やり方としては、wikipediaの人物の概要の部分を抜き出してRNNにトレーニングさせます。

そのトレーニングさせたモデルに対して名前を入力すると、その人物の概要を出力してくれるようにします。

RNNとは、Recurrent Neural Networksの略で、時系列の情報を学習させるためのニューラルネットワークのモデルのことです。

 

文章を生成させるようなモデルの場合、多層パーセプトロンのようなモデルだと出力の長さが一定になってしまい、うまく作ることができません。

そこでRNNを使い、入力が単語(文字)、出力が次の単語(文字)として学習させると、そのモデルに次々と出力された単語を入力させることによって文章が生成出来るようになります。

そして、RNNは内部の重みを入力によって更新し、次の入力に備えます。

それによって、前の入力が例えば「僕/の/名前/は」と来たら、次に来るのは男性の名前であり、「私/の/名前/は」ときたら、女性の名前を出すようなモデルが作成出来るようになります。

RNN
引用:http://colah.github.io/posts/2015-08-Understanding-LSTMs/

また、学習時に終了フラグのようなものを定義して置くとそこで自動的に処理をストップさせることが出来るので、永遠に単語が出続けるということもありません。

ここで実際に使うのはLSTMという、RNNの進化版のようなモデルになります。

RNNは情報を長く記憶しておく事が不得意なので、単語を幾つか入力していくと過去の情報を忘れてしまいます。

先程の例で言うと、「私の名前はさやかです。最近は~~~ところで…」など長く入力していくと「ところで」をモデルに入力するタイミングでは、名前がさやか ということは忘れてしまっている可能性が高いということです。

この問題を解決したのがLSTMとなります。

環境構築方法

python3
必要なモジュールのインストール
mecab

sudo apt-get install mecab libmecab-dev mecab-ipadic mecab-ipadic-utf8
pip install mecab-python3

AIライターの実装手順

まずwikipediaの概要を取ってくる必要がありますが、全ページクローリングするのは大変です。

そこで、dbpediaという便利なものがありますのでこれを使います。wikipediaの内容がデータベース上に入っており、SPARQLという言語でクエリを投げることができます。

今回は人物の概要が欲しいので、以下のクエリを投げます。

select distinct ?name ?abstract where {
  ?s a dbpedia-owl:Person .
  ?s rdfs:label ?name .
  ?s <http://dbpedia.org/ontology/abstract> ?abstract .
}

このクエリで全件ダウンロードしたいので、下記のpythonを用意しました。

import csv
from urllib.request import urlopen
import io
import os

f_write = open('ja.txt','w')
url = 'http://ja.dbpedia.org/sparql?default-graph-uri=http%3A%2F%2Fja.dbpedia.org&query=select+distinct+%3Fname+%3Fabstract+where+%7B%0D%0A++%3Fs+a+dbpedia-owl%3APerson+.%0D%0A++%3Fs+rdfs%3Alabel+%3Fname+.%0D%0A++%3Fs+%3Chttp%3A%2F%2Fdbpedia.org%2Fontology%2Fabstract%3E+%3Fabstract+.%0D%0A%7D%0D%0Aoffset+0%0D%0ALIMIT+10000&should-sponge=&format=text%2Fcsv&timeout=0&debug=on'
csv_text = urlopen(url)
cr = csv.reader(io.TextIOWrapper(csv_text))

row_count = 0
for row in cr:
	row_count+=1
    if row_count==1:
        continue
    f_write.write("<BOS>"+row[1]+"<EOS>\n")

BOS =Begin Of Sentence
EOS = End Of Sentence
の意味になります。後ほどモデルに食わせる時のためにこれらを文章の前後に付けます。

このコードだと10,000件しか取れないのですが、あまり多いと学習に時間もかかるため、今回は10,000人のユーザーから学習させてみます。

これで、ja.txtに人物の概要が1人1行で記載されたと思います。

ここでSPJのgithubを使用します。

git clone https://github.com/SPJ-AI/lesson
mv ja.txt lesson/text_generator/text/texts.txt
cd lesson/text_generator/

途中経過のモデルが欲しいので、少し改変します。
train.pyの87行目に以下を追加します。

if epoch % 10 == 0:
	serializers.save_npz('data/epoch_%d.model' % (epoch), model)

では準備が出来たらトレーニングを回しましょう。下記コマンドを実行して下さい。

python make_train_data.py
python train.py --batch_size=30 --epochs=50

実行結果

-=-=-=-=-=-=-=-
酒井北郷(ないとうただまさのり)は、戦国時代の武将。下野巣北条氏の家臣。豊後の乱で夭逝した。
-=-=-=-=-=-=-=-
キム(モット・ザ・フープルあおきのぶいえ)は、下総関宿藩から続いた。寛政2年(1728年)8月16日死去で跡を継いだ。天明元年(1789年)死去。享年58。
-=-=-=-=-=-=-=-
美木ダイアリーピンクニー(りゅうおきょうともゆき)は、岡藩の第6代藩主。藤井松平家初代。

名前(ふりがな)、簡単な説明
という流れは記憶されている事がわかりますね。

今回は10,000件でしたので、件数を増やすともう少し良い結果になると思います。

また、次回の記事では性別・年齢・生まれた時代等のパラメータに応じて概要を変えてくれるようにしてみたいと思います。

最新記事をSNSでお届けします

よく一緒に読まれている記事

AIに職業を奪われないための最大の武器とは?... 近年、ディープラーニングの登場により爆発的なAIブームとなり、10年後は大抵の人間の仕事はAIに奪われてしまうとまで言われていて、多くの人が自分の職は...
ボットに人間の心を読まれる日も近い... 「空気を読め」という言葉を日本人なら誰もが聞いたことがあるはず。私もなかなか空気の読めない人の一人ですが、そんな空気の読めない人のいい(驚異的な)お知...
ボットが人間のコミュニケーションを活性化する!?... 「ボットは人間ほど賢く無くとも、人間のグループに役に立つ振る舞いができる。」という発表がアメリカのYale大学でありました。 職場などのチームの...
MeCab(形態素解析)をPythonから2分で使えるようにする手順... Javaだと、Kuromojiを使用するまでに必要な手続きは、基本的にjarファイルを追加するだけで完了しますので、形態素解析を使うまでの敷居は高くあ...
機械学習とは? ディープラーニング、ニューラルネットワークについて解説してきましたが、では、ニューラルネットワークはどのようにつくるのでしょうか? その質問に答...
  • このエントリーをはてなブックマークに追加
  • Pocket

Leave a Reply

*