具体例¶
日付表現 1¶
【2021年1月21日】大統領宣誓を行うジョー・バイデン。 20日、アメリカ合衆国の首都ワシントンD.C.において、大統領就任式が行われた。
<TIMEX3 tid="t0" type="DATE" value="2021-01-21" text="2021年1月21日">,
<TIMEX3 tid="t1" type="DATE" value="XXXX-XX-20" text="20日">
Tips
文中の20日
のように、たとえ前後の文脈から日付が推定できたとしても、ja-timexでは表層表現の情報のみを利用します。
日付表現 2¶
気象庁が大雪とその被害について命名したのは1963年の「昭和38年1月豪雪」(三八豪雪)以外に例が無く、43年ぶり史上二度目の命名となった。
<TIMEX3 tid="t0" type="DATE" value="1963-XX-XX" text="1963年">
<TIMEX3 tid="t1" type="DATE" value="1963-01-XX" text="昭和38年1月">
<TIMEX3 tid="t2" type="DURATION" value="P43Y" text="43年ぶり">
今冬の大雪は『平成18年豪雪』、死者数は戦後2番目に - ウィキニュース
Tips
昭和
といった和暦は、@value
の値では西暦に変換されます。
日付表現 3¶
アルプス山脈の山々に囲まれた深い谷の中にあり、毎年11月中旬から2月初めまでの83日間にわたっては山の陰となって日中でも太陽の光が当たらない。
<TIMEX3 tid="t0" type="SET" value="P1Y" quant="EACH" text="毎年">
<TIMEX3 tid="t1" type="DATE" value="XXXX-11-XX" mod="MID" range_start="True" text="11月中旬">
<TIMEX3 tid="t2" type="DATE" value="XXXX-02-XX" mod="START" range_end="True" text="2月初め">
<TIMEX3 tid="t3" type="DURATION" value="P83D" text="83日間">
陽の当たらない山陰の村に光を─イタリアで巨大鏡設置 - ウィキニュース
Tips
11月中旬
のように日付に付加情報が付いている場合は、@value=XXXX-11-XX
のように月の値だけが入り、付加情報は@mod=MID
のように表現されます。
Tips
XからY
といった範囲表現では、@rangeStart
および@rangeEnd
にbool型True
の値を取ります。
In []: timexes[1].range_start # "11月中旬"
Out[]: True
In []: timexes[2].range_end # "2月初め"
Out[]: True
日付表現 4¶
高松塚古墳は7世紀末から8世紀はじめにかけて造られたと見られる古墳で、雨水の浸入やカビの発生などにより石室内の壁画の劣化が問題になっている。
<TIMEX3 tid="t0" type="DATE" value="06XX" mod="END" range_start="True" text="7世紀末">
<TIMEX3 tid="t1" type="DATE" value="07XX" mod="START" range_end="True" text="8世紀はじめ">
高松塚古墳のカビ拡大、「飛鳥美人」にも被害 - ウィキニュース
Tips
世紀という表現は年単位での幅を持つため、年の下2桁をXX
として表現します。例えば、7世紀は西暦601年から西暦700年までの間を指すため、06XX
と表現します。
時刻表現 1¶
気象庁によれば、大型で非常に強い台風第13号 「タリム」は31日午後10時45分(日本時間、UTC+9)現在、台湾の東海上にあって、西北西に進んでいる。
<TIMEX3 tid="t0" type="DATE" value="XXXX-XX-31" text="31日">
<TIMEX3 tid="t1" type="TIME" value="T22-45-XX" text="午後10時45分">
台風13号、先島諸島から台湾へ−14号も沖縄に向かう - ウィキニュース
Tips
午前
、午後
などが付く12時間表記は、24時間表記に変換されます。
時刻表現 2¶
数学の試験時間は25日午後1時半から同3時半にかけてで、最も早い書き込みでは、午後1時37分に問題を掲載した上で、
<TIMEX3 tid="t0" type="DATE" value="XXXX-XX-25" text="25日">
<TIMEX3 tid="t1" type="TIME" value="T13-30-XX" range_start="True" text="午後1時半">
<TIMEX3 tid="t2" type="TIME" value="T03-30-XX" range_end="True" text="3時半">
<TIMEX3 tid="t3" type="TIME" value="T13-37-XX" text="午後1時37分">
京都大学などで入試問題がネット掲示板に投稿される - ウィキニュース
Tips
午後1時半
のような半
という表現は、30分
と解釈します。
頻度集合表現¶
両リーグで異なっている試合競技方法の調整などの会議を週1回程度行い、10月末までに合意することを目指している
<TIMEX3 tid="t0" type="SET" value="P1W" freq="1X" text="週1回">
<TIMEX3 tid="t1" type="DATE" value="XXXX-10-XX" mod="END" text="10月末">
日本のバスケットボールリーグ一本化へ向けた組織委員会発足 - ウィキニュース
Tips
週1回
の1回
は@freq=1X
と表現します。
持続時間表現 1¶
奈良市環境清美部の男性職員 (42) が、2001年からの5年9カ月余りで8日しか出勤していないのにも関わらず、給与がほぼ満額支給されていたことが明らかになった。
<TIMEX3 tid="t0" type="DATE" value="2001-XX-XX" text="2001年">
<TIMEX3 tid="t1" type="DURATION" value="P5Y9M" text="5年9カ月">
<TIMEX3 tid="t2" type="DATE" value="XXXX-XX-08" text="8日">
奈良市職員、5年間ほとんど出勤せず給与満額 - ウィキニュース
Tips
5年9カ月
といったように持続時間表現で複数の単位の組み合わせた表現の場合は、@value
の値はP5Y9M
のように複数の値が列挙されます。この際、日付表現を表す接頭辞P
または時刻表現を表すPT
は重複しません。
Tips
生物の年齢は、数値表現であって時間情報表現ではないので取得しません
持続時間表現 2¶
12月14日、日本の宇宙航空研究開発機構(JAXA)は、今月6日に地球に帰還した小惑星探査機「はやぶさ2」のカプセルから、リュウグウ由来とみられる砂粒状の粒子を採取することに成功したと発表した
<TIMEX3 tid="t0" type="DATE" value="XXXX-12-14" text="12月14日">,
<TIMEX3 tid="t1" type="DURATION" value="P0M" mod="NOW" text="今月">,
<TIMEX3 tid="t2" type="DATE" value="XXXX-XX-06" text="6日">
はやぶさ2帰還カプセル 小惑星リュウグウ由来の粒子とガスを確認 - ウィキニュース
Warning
今月6日
は今月
,6日
に分割してタグ付けを行います。成澤[2]では1つのまとまりとして扱うように定義されていましたが、ja-timexでは分割します。
その理由として、TIMEX3タグの定義上は日付表現として「いずれかの月」か「そもそも月の情報が不明」かを区別することができません。XXXX-XX-06
という表記しかできず、今回の場合は今月6日
のうちの今月
の情報が表層表現から欠落してしまうため、情報の欠損を防ぐために分割しています。
今月
は、表層表現からではどの月かを推定することが不可能なため、日付表現とは扱わず持続時間表現として扱います。
Tips
持続時間表現としての今月
は、@value=P0M @mod=NOW
という2つの組み合わせで表現します。これは先月
なら@value=P1M @mod=BEFORE
、来月
なら@value=P1M @mod=AFTER
と表現することを踏まえたものです。