underconst
Wed, December 31, 2008
ネット上でメモをとるウェブアプリ 'memotoru' を Google Code Project Hosting にて公開(Google App Engine用アプリ)(gae,google,markdown)
ネット上でメモをとるツール memotoru を公開しました。
※このエントリは書きかけです。
Sun, December 7, 2008
'持ち運べるウィキペディア'のためのツール wpindex.jar
これは、wpdb で作成したデータベースをもとに、検索用インデックスを作成するプログラムです。
使い方は '持ち運べるウィキペディア'をつくる のエントリーをご覧ください。
※このエントリーは書きかけです。
Sun, December 7, 2008
'持ち運べるウィキペディア'のためのツール wpsearch.jar
Luceneを使ってwikipediaコンテンツの検索インデックスの作成と 検索機能を提供します。
※このエントリーは書きかけです。
Wed, December 3, 2008
wiki2html ...ウィキペディア(Wikipedia)のデータ(wikitext)をHTMLに変換するツール
WikipediaのXMLファイル (http://download.wikimedia.org/) から抽出したテキストをHTMLに変換するツール。
※このエントリーは書きかけです。
Wed, December 3, 2008
データベース(RDBMS)をもっと簡単に使うためのライブラリ jgadfly(SQLiteJDBC版)
SQLIteJDB というデータベースを含んだJDBCドライバがあったので、これを機会に、 jgadfly を手直しました。
特徴
- データベース(PureJava版のSQLite)を含んでいるので、jgadfly.jar 単体で、使用できる.
- フラットファイルでデータを管理するにはちょっと手間だが、RDBMSを使うまでもない、というケース(テストやテンポラリのデータ処理など)に便利.
制約
- テーブルのデータタイプは文字列(String)しか扱えません.
- クエリの結果をArrayList
として返すので、大量のデータを返すクエリはOutOfMemoryになります.
※このエントリは書きかけです。
Fri, June 15, 2007
ウィキペディアコンテンツの活用 XML形式のWikipediaデータからJavaを使って記事だけを取り出す方法
Wikipediaのコンテンツを活用して自前のアプリケーションを書くために、 今回Javaで処理する方法を調べました。
まず下準備として、 以下のWikimediaのダウンロードページからコンテンツを 入手します。
XML,SQL,StaticHTMLの形式が選択できますが、今回は、XMLデータをダウンロードして それを活用することにします。
StaticHTMLは便利そうですが、データが古いのと、 HTML中にこちらが意図しない情報も含まれていると取り除くのが面倒です。 XMLであれば、直接wiki textで書かれたコンテンツデータを入手できるので、 このwiki textをこちらの都合のよいように変換して使うことができます。