ディープラーニングを活かし誤字脱字を自動指摘。レッジ、ウェブライダー、SPJの共同研究結果第一段が『文賢』搭載へ

Ledgeウェブライダー、SPJ の共同研究プロジェクトとして始まり、2017年12月12日のプレスリリースから約4ヶ月。

本取組におけるさまざまな試行錯誤の中からこの度「ディープラーニング利用・機械学習による誤字脱字検出機能」が、ウェブライダー提供の 推敲・校閲支援ツール『文賢(ブンケン)』へ搭載・公開されました。

公式リリースノート

搭載された誤字脱字検出モデルの概要

今回、さまざまな試行錯誤がありましたが、現段階では以下のようなアプローチを採用しました。

ディープラーニングならびに自然言語処理の技術を誤字脱字検出に活用し、実際の『文賢』ツールに組み込まれた形となっています。

・大量のコーパスからRNN言語モデルを作成。誤字検出に最適な複数のハイパーパラメータを探索

・作成された学習済み言語モデルによる単語の予測と、入力文章との比較

・誤字として検出された単語をもとに、レーベンシュタイン距離による正解らしい単語のサジェストを実行

今回はまだ第一段のリリース。現時点では全ての誤字・脱字を完璧に検出するというわけではありませんが、これまでの共同研究成果から見えてきた更なる改善点に向き合い、今後も更にその精度を進化させていく予定です。

誤字・脱字検出モデルが利用するデータについて

なお、今回リリースされた文賢「誤字脱字チェック機能」においては、株式会社ウェブライダー・株式会社レッジの著作データ、ならびに下記データ(の一部)が学習時の教師データとして利用されています。

  • livedoor ニュースコーパス (準拠ライセンス:CC BYND2.1)
  • 内閣府ホームページコンテンツ(準拠ライセンス:CC BY 4.0)
  • 文部科学省ホームページコンテンツ(準拠ライセンス:CC BY 4.0)
  • ウェブライダー提供コンテンツコーパス
  • その他提携メディアコンテンツコーパス