OriginFinder

ツイートの文面から、元ツイートを探し出すツール

コピペツイート・非公式RT・tumblr・@1000favs・@500favs・@1000Retweetsなど、
行儀の悪い人たちへのアンチテーゼ

アルゴリズム

その1

  • できるだけたくさんのツイートを収集してDBに登録
  • 入力内容で全文検索
  • 投稿時刻が最も早いものを返す

その2

  • 入力内容をsearch APIに投げる
    • 入力内容を適当に分かち書きするといいかも
    • 助詞とか、頻出ワードを削除
  • 投稿時刻が最も早いものを返す

その2.5

同、google検索 site:twitter.com に投げる。
アカウント名が分かっている場合はand検索すると効果的

その3

100%一致のコピペに限定するなら

  • ツイート内容のハッシュ値, TweetIDのペアを保存
  • group by hash
  • 処理速度重視でCRC32とかの方がいいかも

よるほーとかすごいたまりそう

ツイート収集

  • ある程度話題になっているツイートを優先するべき
  • 元発言をできるだけ早く拾うべき

  • 数回以上RTされたツイートをStreamAPIで できなかった
    • 指定したユーザーの発言がRTされたことはfollowで取れる。悪くない

  • Streaming API
    • 検索ワードにひらがなとカタカナ全部を一文字ずつ入れたら日本語ツイートに絞れそう
      • クリリンノコトカー、とかは漏れるけど
    • 全体の1%くらいしか取れないみたいだけど
    • Mentionは対象外にするといいかも
    • sampleで、RTのみを拾う
      • 優れたツイートは短時間に数百RTされるから、1つも拾えないということはなさそう
      • 拾った時刻も押さえられたら、リアルタイム検索みたいなグラフが描けそう
    • "RT"でtrackするとどうなる?
      • 非公式RTのみ?公式も含む?
      • 元発言をたどるのはしんどいけど、人気のバロメータとしては精度が高そう

  • よくRTされてるユーザーのツイートをかたっぱしから
    • ユーザーリストを作り、その人たちのツイートをStreaming APIで
      • 5000人までOKみたい
    • 隠しアカウントで50000人ほどフォローし、そのUserStreamを取るという手もある
      • 公式に書いてある。いいのかな

  • よくRTされてるユーザーのRTされ、ふぁぼられをクロール

  • ユーザー登録
    • アカウント名を送信してもらえると、あなたのツイートを優先してクロールします

PR文

  • コピペの嵐をかき分けて、元発言者に栄光を
  • コピペツイートに死を、元発言者に栄光を

おまけ機能

  • コピペユーザーランキング
    • 検索時に、元発言を一字一句コピーした発言があったら、そのアカウントに1票入れる
    • きっと1000favTweetが堂々一位
  • 1000favRTボット
    • 1000favTweetの発言から元発言を検索し、RTするボット
    • 公式サイトには、本家とRTボットを並べたウィジェット置いとくと面白いかも
  • コピペお知らせbot
    • 空リプ or フォローしておくと、誰かにコピペされたときに@投げる
    • 「@higaisha @kagaishaがあなたのツイートをパクりました! http://t.co/...
    • 犯人にはフォローしてなくてもリプが届く
      • 悪気のない引用もあるだろうから、100%同じ内容の場合だけがいいかも
      • 被害者側が設定できるようにしたほうがいいかも
      • 被害者には知らせず、犯人に警告だけする設定もいいかも
    • アルファな人は届きすぎるだろうから、何回以上パクられたらって設定がいるかも
  • 元発言に飛ぶブックマークレット
    • パクリツイートを単独で開き、ブックマークレットを叩くとオリジナルのツイートにリダイレクト
  • コピペ通報ブックマークレット
    • ツイートを通報してもらう
    • オリジナルは、こちらで調査する。オプションで記入できてもいいかも

類似サービス

http://0-oo.appspot.com/rt/