sed
Tue, August 4, 2009
ひらがなの濁音を清音に変換するには
ドキュメントの最後につける索引ページ、その索引タームのソート問題で、 今回は、濁音は清音に変換した状態でソートする必要がある。 どうすればいいか。
索引ソートの実際の全体の作業ステップとしては以下のようになります・・・
- 索引タームを抽出
- 索引タームが漢字カタカナひらがな混じりなので、ひらがなだけのよみに変換
- 濁音を清音に変換
- ソート
これだけが必要になります。
索引ターム自体の「漢字カタカナひらがな混じり」を「よみ(カタカナ・ひらがな)」に変換するには、 たとえば、YahooWebAPIを使います。(茶筅や和布蕪、KAKASIなどでもできると思いますが)
その後、YahooWebAPIで得た「よみ」はカタカナも含まれているので、カタカナをひらがなに変換します。
さらにひらがな中に含まれる濁音を清音に変換します。
すべて準備ができたらソートします。 (ソートはJavaやPythonを使えば簡単です。)
今回は、このステップのうちの濁音を清音に変換する部分の説明です。