明日の授業では,テキストデータについて話します.
およそ1年前に書いた授業計画では,「マークアップ」と表記していました.TEIについて話す予定でした.
でしたが,年明けに情報収集をしまして,「テキストデータをどのように作って活用するか」で1コマの半分くらいをとり,残り半分でTEIにかいせつすることにしました.
スライドを8割ほど作ったところで,Dublin Coreのことを思い出しました.12月のある回の授業のRDFの例にも「dc」と書かれていたのでした.
TEIと,Doblin Coreとを関連付けて話すのがいいのかなと思いながら,検索すると,一つページを見つけました.
ページ内検索で「ダブリンコア」が2箇所に出現しました.具体的には…
4. コンテナ要素はxenoDataとタグ付けされ、非TEIスキーム(すなわち、TEI名前空間の要素以外の)からのメタデータを容易に含めることを可能にする。例えば、エンコードされた文書のMARCレコードは、MARCXMLやMODSを使用して含めることができる。ハーベスティングのための単純なメタデータのセットは、ダブリンコアでエンコードされたものを含む可能性もある。
プロジェクトは、TEI文書に関するメタデータを複数の形式やシステムで維持することが多い。例えば、プロジェクトは、エンコードしようとする文書セットの書誌情報のデータベースを持っているかもしれない。このデータベースから、MARCレコードとteiHeaderの両方が生成される。その後、文書はエンコードされ、その間に追加の情報が手動でteiHeaderに追加される。その後、文書がウェブ上で公開されると、リソースを発見するためのダブリンコアレコードが生成される。TEI以外のメタデータの一部または全部をTEIファイルに格納することが有利な場合もある。
そして後者の引用の少し後の,<xenoData>と</xenoData>ではさまれた記述例を見ることで,「dc:~」を含むタグは,非TEI形式のメタデータであることが分かりました.
wikipedia:Text_Encoding_Initiativeとwikipedia:Dublin_Coreとを読み比べることで,前者のほうが古いということも,知りました.
明日の授業でDoblin Coreは話さないのがよさそうです.
もう少し情報の整理を行い,準備稿と称するPowerPointのファイルを,受講者がダウンロードできるようにしました.