SAラン広域セン支の覚え書き

・ボダブレ辞書 ・各種日本語入力ソフトの辞書解説 ・実用Excel VBA

Simeji for Androidのユーザー辞書をタブ区切りテキスト形式(Google, ATOK, POBoxなど)に変換する手順

Simeji for Androidからエクスポートしたユーザー辞書の形式は独自のテキスト形式で、その他の日本語入力アプリへ変換するのが難しい。ここではテキストエディタ表計算ソフトを使って多くの日本語入力アプリで採用されているタブ区切りテキスト形式への変換手順を解説します。

目次

使用するツール

ここではテキストエディタとしてgPadを、表計算ソフトはExcel2013を使用しています。

なお、MacExcelLibreOffice等およびテキストエディタでも変換可能です。

表計算ソフトについて注意点

LibreOffice CALCやApache OpenOffice CALCでは列が1,024列しか扱えません。そのため、これから紹介する方法での変換は1,024個の単語までしか出来ません。Excel2007~2016では16,384列扱えます。

 

変換手順

多少くどい部分があると思いますがこまかく説明していきます。

ファイル操作の手順(1)

Simeji for AndroidからエクスポートしてPCにコピーしたユーザー辞書ファイルです。

f:id:dz_dzone:20170607230533j:plain

念のためファイルを複製します。

f:id:dz_dzone:20170607230803j:plain

テキストエディタでの手順(1)

テキストエディタで開きました。

f:id:dz_dzone:20170608015019j:plain

まず、先頭の「{"EN_KEY":,"EN_VALUE":,"JAJP_VALUE":[」の部分を削除します。

f:id:dz_dzone:20170608015300j:plain

次に検索をします。

f:id:dz_dzone:20170608015501j:plain

検索文字列は「JAJP」として検索します。

f:id:dz_dzone:20170608015528j:plain

単語とよみの境の部分である「],"JAJP_KEY":[」を削除します。

f:id:dz_dzone:20170608015611j:plain

境の部分で改行します。

f:id:dz_dzone:20170608015759j:plain

改行されました。

f:id:dz_dzone:20170608015840j:plain

文末の「]}」を削除します。

f:id:dz_dzone:20170608015915j:plain

ファイルを上書き保存します。

f:id:dz_dzone:20170608020117j:plain

ファイル操作の手順(2)

上書きされたファイルです。

f:id:dz_dzone:20170608020316j:plain

拡張子を「csv」に変更します。警告ダイアログが出てくるので「はい」をクリックします。変更したら、表計算ソフトで開いて下さい。

f:id:dz_dzone:20170608020414j:plain

表計算ソフトでの手順

エクセル2013で開きました。

f:id:dz_dzone:20170608020627j:plain

データ範囲を選択して下さい。A1セルを選択した状態で「Shift+Ctrl+End」を押すことで一発で選択できます。

f:id:dz_dzone:20170608020646j:plain

コピーします。

f:id:dz_dzone:20170608021300j:plain

セル「A4」に移動して、コンテキストメニュー(右クリック)から「形式を選択して貼り付け>行列を入れ替える」をクリックします。

f:id:dz_dzone:20170608021427j:plain

行と列が入れ替わって貼り付けられました。

f:id:dz_dzone:20170608021608j:plain

1~3行目は不要になったので行削除します。行番号1~3をドラッグ選択して右クリック>削除です

f:id:dz_dzone:20170608021743j:plain

次にA列を選択して切り取ります。

f:id:dz_dzone:20170608021939j:plain

C列を選択して、右クリックから「切り取ったセルの挿入」を選択します。

f:id:dz_dzone:20170608022012j:plain

これでA列に「よみ」、B列に「単語」のシートが完成です。

f:id:dz_dzone:20170608022200j:plain

ここで一端、表計算ソフトの形式で保存しておきます。(後で加工が可能なためです)

f:id:dz_dzone:20170608022341j:plain

次に再度「名前を付けて保存」で「テキスト(タブ区切り) (*.txt)」で保存します。

f:id:dz_dzone:20170617113740j:plain

元のファイルに上書きしないよう注意して下さい。

f:id:dz_dzone:20170617114116j:plain

警告ダイアログが出ますが、「はい」をクリックして下さい。

f:id:dz_dzone:20170617114345j:plain

これで保存されました。Excelを閉じて下さい。警告ダイアログは「保存しない」をクリックします。(4つ上の画像のところで既に保存してあるのでここでは保存しないでOKです)

f:id:dz_dzone:20170617114601j:plain

 

テキストエディタでの手順(2)

さきほど保存したタブ区切りテキスト形式のファイルをテキストエディタで開きます。

f:id:dz_dzone:20170617114828j:plain

文字コードが「Shift-JIS」になっていますので、変換先の日本語入力ソフトの様式に合わせて保存し直して下さい。

f:id:dz_dzone:20170617115042j:plain

以上です。

補足

POBoxのユーザー辞書には「品詞」はないので、このまま文字コードと改行コードを合わせればインポートできますが、Google日本語入力(Mozc系を含む)やATOKの場合は「品詞」を追加する必要があります。その場合、Excel上のC列を編集するのが楽です。品詞を入力後にタブ区切りテキスト形式で保存して下さい。

 

関連リンク