クローラー関連論文
http://matu.cc.kyushu-u.ac.jp/papers.html
自己学習型トピッククローラーの開発と評価
リンク情報とWeb データの半構造性を融合した高品質コンテンツ・マイニング
P2Pによるカスケード検索システムの構築
大規模テキストからの意見・評判情報の抽出手法
サイト品質管理のためのリンク不整合検出
http://bio-crawler.dna.affrc.go.jp/about.html
http://www.hackdiary.com/archives/000030.html
調べてみると先輩が言われていたとおり、九州大学さんが頑張ってやられているようですな〜。
まあ、特定の分野に関するクローラーがいいかも。