バチカン秘密文書館に眠る中世文書、新方式のOCRでデータ化
バチカンの秘密文書にどんなミステリーが隠されているかは誰も分からない。現在、文書のデータ化が進められているが、中世文字特有の合字や略語に、従来の光学文字認識アルゴリズムは使えなかった。だが、イタリアの研究チームが試行錯誤の末、ある方法を考案した。 by Emerging Technology from the arXiv2018.04.05
バチカン秘密文書館には伝説が詰まっている。伝えられているところでは、バチカン市国にある長さ85キロメートルにもおよぶ書棚に所蔵されている文書には、過去の教皇の個人的な手紙やその他の書類が含まれており、その中には8世紀にまでさかのぼるものもある。
この文書館は厳重に警備されている。だが1881年以降、学者は限定的にそれらの文書の一部にアクセスできるようになり、それだけでも非常に多くのことが明らかになってきた。
たとえば、1307年に始まり、その後数年間続いたテンプル騎士団の宗教裁判についての詳細は所蔵されている60メートルの巻物に書かれている。歴代の教皇に宛てられたミケランジェロからの手紙、ヘンリー8世からの離婚嘆願書、そして斬首前の仲裁を乞うスコットランド女王メアリー1世からの書簡もある。
この文書館には比較的最近の書簡も含まれている。たとえば、エイブラハム・リンカーンとジェファーソン・デイヴィスがそれぞれ教皇ピウス9世に対して北軍または南軍に味方してくれるように懇願している書簡がある。また、教皇ピウス12世に関する記録や、ピウス12世と第二次世界大戦中のナチス政権との取引に関する文書も含まれているが、まだ公開されていない。実際のところ、1939年以降、現在までのすべての文書は完全に機密となっている。
文書の公開は禁じられているものの、文書館には独自の撮影・保存作業室がある。世界中の多くの歴史的アーカイブと同様に、この文書館でも保全やさらなる研究を可能にする目的で、特定文書の画像保存が進められている。
だが、バチカンの記録はあまりに膨大で、合理的な期間内に手作業で文字をデータ化することは非現実的である。マシン・ビジョンを活用できないだろうか。
今日、イタリアにあるローマ・トレ大学のドナテッラ・フィルマーニ博士とそのチームのおかげで答えが得られた。研究チームはイン・コーディチェ・ラティオ(In Codice Ratio、ラテン語で「コードシステム」の意)と呼ばれるプロジェクトを開始した。プロジェクト …
- 人気の記事ランキング
-
- It’s pretty easy to get DeepSeek to talk dirty 「お堅い」Claude、性的会話に応じやすいAIモデルは?
- Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
- Google’s new AI will help researchers understand how our genes work グーグルが「アルファゲノム」、遺伝子変異の影響を包括的に予測
- When AIs bargain, a less advanced agent could cost you 大規模モデルはやっぱり強かった——AIエージェント、交渉結果に差
- OpenAI can rehabilitate AI models that develop a “bad boy persona” AIモデル「問題児」、わずか100件のデータで更生=オープンAI