これは「語学・言語学・言語創作 Advent Calendar 2023」の 19 日目の記事です。
Kajero(https://vortaro.jp/)とは、主にエスペラント語、日本語、イド語、英語、中国語に対応した多言語辞書です。インターネット上にすでに公開されているデータソースを主に利用し、訳語およそ20万対のデータから語彙間の関連を推定。多言語辞書引きを実現します。使い方、出典はこちらをご覧ください。
Kajeroは、データとして直接には保持していない訳語も導出できます。今回はその原理についてお話しします。
Kajeroの辞書データは次のような形式をしています。
t(['forkomerci',eo],['売り払う',ja],[pejv],''). t(['forkomerci',eo],['売りとばす',ja],[pejv],''). t(['forkomerci',eo],['forvendi',eo],[pejv],''). t(['forkomerci',eo],['to buy',en],['ESPDIC'],''). t(['forkomerci',eo],['purchase',en],['ESPDIC'],''). t(['forkomerci',eo],['take over',en],['ESPDIC'],'').
この形式のエントリが連なって辞書データをなします。内蔵データは約20万行です。
Kajeroは、まずこの辞書データのとおりに訳語を出力します。実際の画面で確かめてみてください。
しかしこのページには、
という、元のデータでは関連付けられていない訳語が提示されています。これらは、forkomerci の同義語としてデータに掲載されている forvendi の訳語としてデータが存在しており、ここから採用されたものです。
t(['forvendi',eo],['売り払う',ja],[pejv],''). t(['forvendi',eo],['売りとばす',ja],[pejv],''). t(['forvendi',eo],['to sell off',en],['ESPDIC'],''). t(['forvendi',eo],['liquidate',en],['ESPDIC'],'').
ザメンホフのあまり表立って評価されない成果のひとつに、Universala Vortaro があります。Universala Vortaro とは、見出しにエスペラントの単語を、内容に他の言語の単語を並べた辞書で、複数の言語が一度に引けるようになっている多言語辞書です。
実際にこれを作ってみるとわかりますが、見出し語はエスペラントでないとうまくいきません。中心語義がはっきりした単語でないと、見出しとして役立たず、徐々にずれた意味へと迷い込んでいく辞書ができあがるからです。この点、エスペラントは(接辞や語尾は多分に多義的である一方)一般の語彙の多義語はきわめて少なく抑制されており、この用途に適します。
Kajero はもちろんこの原理を応用しています。プログラムコードは Prolog で書かれたスクリプトで、核心コードはわずか15kBほどとなっています。
エスペラントが Ponta Lingvo として作動する Kajero は、言語をつなぐ機械のエスペランティストです。どうぞ自由に遊んでみてください。
2023年12月19日夜
2025年2月11日 改訂
Kajero
Per Rapida Logik-Rezonada Sistemo 高速度推論システム Cainia0 高速度邏輯推理系統
De Sato kaj Cainiao
Funkciigata de SWI-Prolog
2019-03-14 ver. 1; 2023-09-01 ver. 2; 2024-11-25 ver. 3; 2025-04-25 ver. 3.1
Babilejo