ライセンスの緩いMigemo用辞書を提供するプロジェクト。
C/Migemoで用いられているMigemo用辞書は、SKKプロジェクトの辞書から生成しているため、ファイルはGPLライセンス下であると考えられます。 この場合、Migemoを利用するプロジェクトでは、辞書ファイルをプログラムに同梱して配布しづらくなります。
そこで本プロジェクトでは、BSDライセンスであるMozcと、GPL/LGPL/BSDライセンスであるUniDicからMigemo用辞書を生成することで、ライセンス的に利用しやすい辞書を提供します。
| ファイル | プロジェクト | ライセンス | バージョン |
|---|---|---|---|
| single_kanji.tsv | Mozc | 3-clause BSD | Jul 26, 2024 |
| lex*.csv | UniDic | GPL / LGPL / 3-clause BSD | 2025-12-31 |
- UniDicから現代書き言葉フルパッケージ(例:
unidic-cwj-202512_full.zip)をダウンロード - ダウンロードしたZIPに格納されている
lex*.csv(*は任意の0文字以上の文字列)を、このフォルダ内にコピー python build.pyを実行し、migmeo-dictファイルを生成
生成されたファイルの単語は、読みの辞書順に並んでいます。
なお、python build.py 実行時に、skip for surrogate pair: しか - 𠮟 のような出力がされますが、これは省メモリ版Migemoはサロゲートペアを含む文字を正しく処理できないため、生成途中で除外しているというメッセージであり、正常な動作です。
single_kanji.tsv に格納されている漢字と読みの対応はすべて格納対象としています。
一方、lex*.csv からは、漢字のみか、漢字にひらがなが並んだ単語、英字のみの単語を対象としています。
(例:朝、謝まる)
ただし、サロゲートペアを含む文字(例:𠮟・𧘱)は除外しています。
辞書元はどちらもBSDライセンスで配布されているため、本プロジェクトで生成した辞書もBSDライセンスとなります。 ライセンスの条項に従いご利用ください。
- 漢字の間にひらがながある単語のサポート(例:歩み行く)
- mecab-ipadic-NEologdの適用による最新用語のサポート