Index > sed

sed

Tue, August 4, 2009

ひらがなの濁音を清音に変換するには

ドキュメントの最後につける索引ページ、その索引タームのソート問題で、 今回は、濁音は清音に変換した状態でソートする必要がある。 どうすればいいか。

索引ソートの実際の全体の作業ステップとしては以下のようになります・・・

  1. 索引タームを抽出
  2. 索引タームが漢字カタカナひらがな混じりなので、ひらがなだけのよみに変換
  3. 濁音を清音に変換
  4. ソート

これだけが必要になります。

索引ターム自体の「漢字カタカナひらがな混じり」を「よみ(カタカナ・ひらがな)」に変換するには、 たとえば、YahooWebAPIを使います。(茶筅や和布蕪、KAKASIなどでもできると思いますが)

その後、YahooWebAPIで得た「よみ」はカタカナも含まれているので、カタカナをひらがなに変換します。

さらにひらがな中に含まれる濁音を清音に変換します。

すべて準備ができたらソートします。 (ソートはJavaやPythonを使えば簡単です。)

今回は、このステップのうちの濁音を清音に変換する部分の説明です。

続きを読む

 Twitter
follow me on Twitter
 Categories
 Archives