コンテンツにスキップ

実装方針

人間が言葉として表現する時間情報は、すべてのパターンを網羅した抽出ルールを作成したり、文脈からの曖昧性を解消することは不可能です。人による解釈の違いも生じることから、ja-timexは以下の実装方針を採用しています。

1. 原理より実用性

人間が発話/認識する時間情報の表現は豊富で、すべての事象を正確に規格化することは不可能です。あくまでルールで規定できる時間情報表現に限定し、実用的な表現を抽出し利用することを重要とします。

2. 適合率より再現率

ルールによる抽出では、どうしても「取りこぼしてしまう時間表現」「間違って取得してしまう表現」が生じます。なるべく前者を少なくするように、適合率(Precision)よりも再現率(Recall)を重要とします。

3. 小さな共通部品

時間情報表現を扱うタスクは実に多様で、そのすべてに対応することは不可能です。後続のタスクの領域をカバーする機能追加をするのではなく、あくまで一つのことをうまくやるシステムとして最小限の処理を行い、ダウンストリームの各種タスクでカスタマイズできることを重要とします。