コンテンツにスキップ

具体例

日付表現 1

【2021年1月21日】大統領宣誓を行うジョー・バイデン。 20日、アメリカ合衆国の首都ワシントンD.C.において、大統領就任式が行われた。
<TIMEX3 tid="t0" type="DATE" value="2021-01-21" text="2021年1月21日">,
<TIMEX3 tid="t1" type="DATE" value="XXXX-XX-20" text="20日">

バイデン米大統領の就任式が開催される - ウィキニュース

Tips

文中の20日のように、たとえ前後の文脈から日付が推定できたとしても、ja-timexでは表層表現の情報のみを利用します。


日付表現 2

気象庁が大雪とその被害について命名したのは1963年の「昭和38年1月豪雪」(三八豪雪)以外に例が無く、43年ぶり史上二度目の命名となった。
<TIMEX3 tid="t0" type="DATE" value="1963-XX-XX" text="1963年">
<TIMEX3 tid="t1" type="DATE" value="1963-01-XX" text="昭和38年1月">
<TIMEX3 tid="t2" type="DURATION" value="P43Y" text="43年ぶり">

今冬の大雪は『平成18年豪雪』、死者数は戦後2番目に - ウィキニュース

Tips

昭和といった和暦は、@valueの値では西暦に変換されます。


日付表現 3

アルプス山脈の山々に囲まれた深い谷の中にあり、毎年11月中旬から2月初めまでの83日間にわたっては山の陰となって日中でも太陽の光が当たらない。
<TIMEX3 tid="t0" type="SET" value="P1Y" quant="EACH" text="毎年">
<TIMEX3 tid="t1" type="DATE" value="XXXX-11-XX" mod="MID" range_start="True" text="11月中旬">
<TIMEX3 tid="t2" type="DATE" value="XXXX-02-XX" mod="START" range_end="True" text="2月初め">
<TIMEX3 tid="t3" type="DURATION" value="P83D" text="83日間">

陽の当たらない山陰の村に光を─イタリアで巨大鏡設置 - ウィキニュース

Tips

11月中旬のように日付に付加情報が付いている場合は、@value=XXXX-11-XXのように月の値だけが入り、付加情報は@mod=MIDのように表現されます。

Tips

XからYといった範囲表現では、@rangeStartおよび@rangeEndにbool型Trueの値を取ります。

In []: timexes[1].range_start  # "11月中旬"
Out[]: True

In []: timexes[2].range_end  # "2月初め"
Out[]: True

日付表現 4

高松塚古墳は7世紀末から8世紀はじめにかけて造られたと見られる古墳で、雨水の浸入やカビの発生などにより石室内の壁画の劣化が問題になっている。
<TIMEX3 tid="t0" type="DATE" value="06XX" mod="END" range_start="True" text="7世紀末">
<TIMEX3 tid="t1" type="DATE" value="07XX" mod="START" range_end="True" text="8世紀はじめ">

高松塚古墳のカビ拡大、「飛鳥美人」にも被害 - ウィキニュース

Tips

世紀という表現は年単位での幅を持つため、年の下2桁をXXとして表現します。例えば、7世紀は西暦601年から西暦700年までの間を指すため、06XXと表現します。


時刻表現 1

気象庁によれば、大型で非常に強い台風第13号 「タリム」は31日午後10時45分(日本時間、UTC+9)現在、台湾の東海上にあって、西北西に進んでいる。
<TIMEX3 tid="t0" type="DATE" value="XXXX-XX-31" text="31日">
<TIMEX3 tid="t1" type="TIME" value="T22-45-XX" text="午後10時45分">

台風13号、先島諸島から台湾へ−14号も沖縄に向かう - ウィキニュース

Tips

午前午後などが付く12時間表記は、24時間表記に変換されます。


時刻表現 2

数学の試験時間は25日午後1時半から同3時半にかけてで、最も早い書き込みでは、午後1時37分に問題を掲載した上で、
<TIMEX3 tid="t0" type="DATE" value="XXXX-XX-25" text="25日">
<TIMEX3 tid="t1" type="TIME" value="T13-30-XX" text="午後1時半">
<TIMEX3 tid="t2" type="TIME" value="T03-30-XX" text="3時半">
<TIMEX3 tid="t3" type="TIME" value="T13-37-XX" text="午後1時37分">

京都大学などで入試問題がネット掲示板に投稿される - ウィキニュース

Tips

午後1時半のようなという表現は、30分と解釈します。


頻度集合表現

両リーグで異なっている試合競技方法の調整などの会議を週1回程度行い、10月末までに合意することを目指している
<TIMEX3 tid="t0" type="SET" value="P1W" freq="1X" text="週1回">
<TIMEX3 tid="t1" type="DATE" value="XXXX-10-XX" mod="END" text="10月末">

日本のバスケットボールリーグ一本化へ向けた組織委員会発足 - ウィキニュース

Tips

週1回1回@freq=1Xと表現します。


持続時間表現 1

奈良市環境清美部の男性職員 (42) が、2001年からの5年9カ月余りで8日しか出勤していないのにも関わらず、給与がほぼ満額支給されていたことが明らかになった。
<TIMEX3 tid="t0" type="DATE" value="2001-XX-XX" text="2001年">
<TIMEX3 tid="t1" type="DURATION" value="P5Y9M" text="5年9カ月">
<TIMEX3 tid="t2" type="DATE" value="XXXX-XX-08" text="8日">

奈良市職員、5年間ほとんど出勤せず給与満額 - ウィキニュース

Tips

5年9カ月といったように持続時間表現で複数の単位の組み合わせた表現の場合は、@valueの値はP5Y9Mのように複数の値が列挙されます。この際、日付表現を表す接頭辞Pまたは時刻表現を表すPTは重複しません。

Tips

生物の年齢は、数値表現であって時間情報表現ではないので取得しません


持続時間表現 2

12月14日、日本の宇宙航空研究開発機構(JAXA)は、今月6日に地球に帰還した小惑星探査機「はやぶさ2」のカプセルから、リュウグウ由来とみられる砂粒状の粒子を採取することに成功したと発表した
<TIMEX3 tid="t0" type="DATE" value="XXXX-12-14" text="12月14日">,
<TIMEX3 tid="t1" type="DURATION" value="P0M" mod="NOW" text="今月">,
<TIMEX3 tid="t2" type="DATE" value="XXXX-XX-06" text="6日">

はやぶさ2帰還カプセル 小惑星リュウグウ由来の粒子とガスを確認 - ウィキニュース

Warning

今月6日今月,6日に分割してタグ付けを行います。成澤[2]では1つのまとまりとして扱うように定義されていましたが、ja-timexでは分割します。

その理由として、TIMEX3タグの定義上は日付表現として「いずれかの月」か「そもそも月の情報が不明」かを区別することができません。XXXX-XX-06という表記しかできず、今回の場合は今月6日のうちの今月の情報が表層表現から欠落してしまうため、情報の欠損を防ぐために分割しています。

今月は、表層表現からではどの月かを推定することが不可能なため、日付表現とは扱わず持続時間表現として扱います。

Tips

持続時間表現としての今月は、@value=P0M @mod=NOWという2つの組み合わせで表現します。これは先月なら@value=P1M @mod=BEFORE来月なら@value=P1M @mod=AFTERと表現することを踏まえたものです。