わさっきhb

大学(教育研究)とか ,親馬鹿とか,和歌山とか,とか,とか.

TEIガイドラインに準拠すると何ができるのか

 何を目的,そして主な対象として書かれた本なのかは,Amazonのページのほか,人文学のためのテキストデータ構築入門 | 版元ドットコムに記されています.もっと具体的に,TEIガイドラインを活用すると何ができるのかについては,p.25の図4のタグ付けを見るといいでしょう.この図はテキストを画像化したものと思われますが,書き出してみました.

「<persName corresp="#メロス">メロス</persName>、
<rs corresp="#セリヌンティウス">私</rs>を殴れ。
同じくらい音高く<rs corresp="#セリヌンティウス">私</rs>の頬を殴れ。
私はこの三日の間、たった一度だけ、ちらと
<rs corresp="#メロス">君</rs>を疑った。生れて、はじめて
<rs corresp="#メロス">君</rs>を疑った。
<rs corresp="#メロス">君</rs>が
<rs corresp="#セリヌンティウス">私</rs>を殴ってくれなければ、
私は君と抱擁できない。」

 『走れメロス』の有名シーンです.「<」と「>」で挟まれたところが,タグです*1.タグをすべて取り除くと次のようになり,改行をなくせば,太宰治 走れメロス - 青空文庫デジタル小説 - 太宰ミュージアムの記述と同一なのが確認できます.

「メロス、
私を殴れ。
同じくらい音高く私の頬を殴れ。
私はこの三日の間、たった一度だけ、ちらと
君を疑った。生れて、はじめて
君を疑った。
君が
私を殴ってくれなければ、
私は君と抱擁できない。」

 そしてタグ付きのテキストデータを見ると,「私」「君」がそれぞれ誰を指すかが分かります.上記はセリヌンティウスの発言ということもあり,「私」はすべてセリヌンティウスで,「君」はメロスですが,『走れメロス』の原文で少し前の「私を殴れ。ちから一ぱいに頬を殴れ。私は、途中で一度、悪い夢を見た。君が若し私を殴ってくれなかったら、私は君と抱擁する資格さえ無いのだ。殴れ。」については,「私」と「君」が反対になります.それらも適切にタグ付けしておけば,例えば,『走れメロス』全体でメロスを指す表記が何種類あって,それぞれ何回出現するかを,知るには,「corresp="#メロス"」に着目して集計すればよいというわけです.
 なお,「persName」と「rs」は,TEIガイドラインの日本語版ではそれぞれここここに詳しく書かれています.前者はpersonal nameに由来し「人物の固有名詞」,後者はreference stringに基づき「参照文字列」を表します.


 『人文学のためのテキストデータ構築入門』は,まだすべてを読み通せていません. 第1部の第2章(日本におけるテキストデータ構築の歴史)を読んでいくと,p.36に何度か,「情報知識学会」が出現します.1980年代に関してです.またp.200では,EAJ分科会(TEI協会 東アジア/日本語分科会)の活動の後援として,3つの学会・研究会の2番目に,情報知識学会が挙げられています.
 歴史資料をXMLで記述して管理するというのが,情報知識学会の第1回論文賞の一つだったはず,と思いながら,論文を読み直しました.受賞論文の一覧は情報知識学会誌より見ることができ,https://doi.org/10.2964/jsik_KJ00001039481にてPDFを閲覧できました…
 内容は,TEIガイドラインと異なっていました.本文に「TEI」は出現しませんし,図5の続きや図6を見ると,記録史料記述をXMLで行う(XML文書にする)ためのタグです.そこからタグをすべて除去すると,意味のあるテキストデータになってくれません.図5の続きについて,タグなしテキストは「【記録史料の概観】国立史料館山城国京都徳大寺文書寛永...」となります.

*1:「<」の直後に「/」があるタグと,ないタグがあります.これについてはXMLを自習してください.自分の担当科目では,第4クォーターのプログラミング科目で,今年度も,SVG画像生成を通じて,XMLや機械可読なコード生成について学習してもらう予定です.