GoodWriting Rater は「日本語ライティング評価の支援ツール開発: 「人間」と「機械」による評価の統合的活用」の一部として開発された,機械学習による日本語ライティングの自動評価システムです。
GoodWriting プロジェクトではホリスティック評価(Holistic scoring)という作文全体の評価と,マルチプルトレイト評価(Multiple-trait scoring)と呼ばれる観点別の評価スコアを定義しています。マルチプルトレイト評価では「目的・内容」「構成・結束性」「日本語」の3つの観点から評価します(ただし,「目的・内容」は与えられたプロンプトを用いて作文をした場合にのみ有効な観点です)。それぞれ1-6の6段階でスコアづけします。公開版のシステムでは,低いレベルである1-2と高いレベルである5-6は区別せず,1-2・3・4・5-6の4段階でスコアを予測します。
GoodWriting Rater はロジスティック回帰という多変量解析手法を用いてスコアを予測します。スコアの予測には,日本語学習者の書いた作文に日本語教師がスコアを付与したデータを使用して,日本語教師の付与するスコアを正しく予測できるように(予測の正解率が最大となるように)予測モデルを推定します。予測モデル構築には,下記の表に示す素性を用いました。ロジスティック回帰モデルはこれらの素性に対する適切な重みを機械学習によって学習します。
使用した素性のリスト
総文字数 | メタ言語表現数 | 助動詞 | 上級前半語 | リーダビリティ・レベル |
総段落数 | メタ言語表現異なり数 | 代名詞 | 上級後半語 | ガイドライン |
総文数 | 終助詞(ね) | 動詞 | 内容語 | 異なり内容語数 |
第1段落の文字数/総文字数 | 終助詞(よ) | 副詞 | 名詞 | 異なり内容語TF-IDF総和 |
第1段落の文数/総文数 | 終助詞(の) | 固有名詞 | その他の品詞 | 異なり内容語TF-IDF中央値 |
第1段落の形態素数/総形態素数 | 終助詞(な) | 普通名詞 | ひらがな | 異なり内容語語彙レベル平均 |
最終段落の文字数/総文字数 | 終助詞(ね・よ・の・な) | 連体詞 | カタカナ | 段落分けの有無 |
最終段落の文数/総文数 | 文あたりの平均文字数 | 平均語数 | 漢字 | 段落あたりの平均文字数 |
最終段落の形態素数/総形態素数 | 感動詞 | 総形態素数 | 和語 | 段落あたりの平均文数 |
異なり形態素数 | 形状詞 | 初級前半語 | 漢語 | 総形態素数 |
総読点数 | 形容詞 | 初級後半語 | 外来語 | 段落あたりの平均形態素数 |
文あたりの平均読点数 | 接続詞 | 中級前半語 | 混種語 | |
助詞 | 中級後半語 | 定型句 |
ロジスティック回帰は 機械学習ライブラリ scikit-learn を使って実装しています。デモシステムは日本語文章難易度判別システム jReadability のソースコードを参考にして作成しています。ロジスティック回帰では出力に確率が付与されるので,確率も一緒に表示します(自動評価システムの出力では,「確信度」として,80%以上の場合を「高」,60%より大きく80%未満の場合を「中」,60%以下の場合を「低」と表示します)。また,ロジスティック回帰に用いた素性のうち,参考のために一部を結果の出力画面に表示します。また,本システムではメタ言語表現のハイライトも行っています。人手で作成したリストの中に入っているメタ言語に相当する表現が見られたとき,正規表現を用いて機械的にハイライトします。
訓練に使用したデータは以下です。 使用データについて
- I-JAS :611作文(ただしスコア0の作文とスコアがつけられなかった作文を除外)
- TK-data:212作文
- 日本・韓国・台湾の大学生による日本語意見文データベース: 134作文
- TSU-data: 39作文
- EU-data (本科研の成果): 60作文
I-JAS と TK-data を検証データに用いて leave-one-out 交差検証を行なった場合,上記のシステムのホリスティック評価スコアの予測精度(平均二乗誤差)は 0.66 です。平均してプラスマイナス 0.8 程度の誤差がある,ということです。このとき,4つのレベルの推定の正解率は 51%,1レベル差まで許容した場合のレベル推定の正解率は 95% です。マルチプルトレイト評価スコアの予測精度(平均二乗誤差)は「目的・内容」「構成・結束性」「日本語」がそれぞれ1.65・1.08・1.00で,4つのレベルの推定の正解率はそれぞれ 34%・39%・36%,1レベル差まで許容した場合のレベル推定の正解率はそれぞれ 72%・80%・74% です。ホリスティック評価に比べて,マルチプルトレイトのレベル推定の信頼度は低いという結果になっています。