英辞郎 https://www.eijiro.jp/ のテキストデータに関する次の機能を提供します。
なお、このアプリケーションはバージョン136に対応しています。
- P-Study System
https://www.takke.jp/用の問題集データを作成します。 - Shift JISフォーマットをUTF-8フォーマットに変換します。
- 英辞郎データに含まれる文字のコードポイントを分析します。
- アプリケーション
eijiro-utilコマンドをいいます。
- アプリケーションオプション
eijiro-utilに指定するオプションをいいます。- アプリケーションオプションは通常形および短縮形があります。
- 例)
./eijiro-util --verboseoreijiro-util -v
- アプリケーションコマンド
- P-Study System用の問題集データ作成のためのコマンド
pstudyや、英辞郎テキストデータのエンコーディングをUTF-8に変換するためのコマンドutf8など、個別の機能を指定するためのコマンドをいいます。 - 例)
./eijiro-util pstudy、./eijiro-util utf8
- P-Study System用の問題集データ作成のためのコマンド
- コマンドオプション
- アプリケーションコマンドに対するオプションをいいます。
- アプリケーションオプションと同様にコマンドオプションは通常形および短縮形があります。
- 例)
./eiiro-util pstudy --help、./eijiro-util pstudy -h
- 市販の英辞郎またはダウンロード販売の英辞郎データを購入してください。
- 商品の指示にしたがってデータを解凍し、任意の場所に解凍されたテキストデータを保存してください。このアプリケーションを実行する際に、この解凍されたテキストデータを指定することになります。
./eijiro-util --helpコマンドでアプリケーションオプションおよびコマンドの一覧を確認できます。- 各アプリケーションコマンドについては、
./eijiro-util アプリケーションコマンド名 --helpコマンドで各アプリケーションコマンドのヘルプを確認できます。
すべてのSVLを対象に指定したファイルにShift JISで結果を出力する場合:
./eijiro-util pstudy 【英辞郎テキストデータのパス】 --file ./my_pstudy_data.csv
SVL 1のみを対象に標準出力にUTF-8で結果を出力する場合で、さらに、実行過程および実行結果の情報を表示する場合:
./eijiro-util -v pstudy 【英辞郎テキストデータのパス】 --level 1 --dest_encoding UTF-8
SVL 1のみを対象にJSON形式で標準出力にUTF-8で結果を出力する場合:
./eijiro-util pstudy 【英辞郎テキストデータのパス】 --format json --level 1 --dest_encoding UTF-8
utf8コマンドのヘルプを参照してください。
targetの値がheaderならば、見出し語に含まれる文字とそのコードポイントを分析します。英辞郎のデータは「■みだし語 : 〜」というフォーマットになっており、このうち"■"と" : "に挟まれた部分の文字を抽出して、コードポイントを表示します。targetの値がlabelならば、ヘッダーに含まれる{}で囲まれたラベルを分析します。targetの値がattrならば、【】でかこまれた属性名を分析します。
- 英辞郎データの内容については
https://www.eijiro.jp/version.htmを参照してください。 - 英辞郎データの仕様概要については
https://www.eijiro.jp/spec.htmを参照してください。
- Ubuntu 22.04.1 LTS
- Stack 2.9.3
ビルド前に次の依存を解決してください。
- ユニコードライブラリ
- 圧縮ライブラリ
sudo apt-get install libicu-dev zlib1g-devstack build
stack install
stack run -- [コマンド] [コマンドオプション]
stack test