概要

独断で価値がありそうなツイートをひたすら集め、DBに保存する

  • Streaming APIから
    • Fav・RT数が一定以上
    • フォロワー数が一定以上の人のツイート
    • toptweets_ja, favstar100_jaなどのツイート
    • 自分がフォローしてる人のツイート?

  • Webクローラから
    • favstar, favotter上位

  • パクリbotから
    • ワロスbotなどのツイートをググり、オリジナルをDBに追加
    • GoogleとTwitter検索を併用すると精度が上がりそう

  • クラウドソース
    • コピペのオリジナルを見つけたら、投稿できるサイトを作る
      • 1000favs_RTのユーザーなどに協力してもらう

実装

  • クローラはHerokuに置き、できるだけ稼働率を高く
  • 定期的にDBにアクセスして自宅鯖に取り込み、削除
    • 取り込み先はDBだったり、groongaだったり

用途

  • パクリツイートのオリジナル検索
  • 有名なネタがいつごろbuzzったか検索
  • 自分が過去に見た覚えのあるツイートを全文検索