OriginFinder

ツイートの文面から、元ツイートを探し出すツール
コピペツイート・非公式RT・tumblr・@1000favs・@500favs・@1000Retweetsなど、
行儀の悪い人たちへのアンチテーゼ
アルゴリズム

その1

- できるだけたくさんのツイートを収集してDBに登録
- 入力内容で全文検索
- 投稿時刻が最も早いものを返す
その2

- 入力内容をsearch APIに投げる
- 入力内容を適当に分かち書きするといいかも
- 助詞とか、頻出ワードを削除
- 投稿時刻が最も早いものを返す
その2.5

同、google検索 site:twitter.com に投げる。
アカウント名が分かっている場合はand検索すると効果的
その3

100%一致のコピペに限定するなら
- ツイート内容のハッシュ値, TweetIDのペアを保存
- group by hash
- 処理速度重視でCRC32とかの方がいいかも
よるほーとかすごいたまりそう
ツイート収集

- ある程度話題になっているツイートを優先するべき
- 元発言をできるだけ早く拾うべき
- 人気のツイートを取り上げるサイトをクロール
- favstar
- favotter
- botが上記に上がることも良くあるので、ユーザーのブラックリストが必要
数回以上RTされたツイートをStreamAPIで できなかった
- 指定したユーザーの発言がRTされたことはfollowで取れる。悪くない
- Streaming API
- 検索ワードにひらがなとカタカナ全部を一文字ずつ入れたら日本語ツイートに絞れそう
- 全体の1%くらいしか取れないみたいだけど
- Mentionは対象外にするといいかも
- sampleで、RTのみを拾う
- 優れたツイートは短時間に数百RTされるから、1つも拾えないということはなさそう
- 拾った時刻も押さえられたら、リアルタイム検索みたいなグラフが描けそう
- "RT"でtrackするとどうなる?
- 非公式RTのみ?公式も含む?
- 元発言をたどるのはしんどいけど、人気のバロメータとしては精度が高そう
- よくRTされてるユーザーのツイートをかたっぱしから
- ユーザーリストを作り、その人たちのツイートをStreaming APIで
- 隠しアカウントで50000人ほどフォローし、そのUserStreamを取るという手もある
- よくRTされてるユーザーのRTされ、ふぁぼられをクロール
- ユーザー登録
- アカウント名を送信してもらえると、あなたのツイートを優先してクロールします
PR文

- コピペの嵐をかき分けて、元発言者に栄光を
- コピペツイートに死を、元発言者に栄光を
おまけ機能

- コピペユーザーランキング
- 検索時に、元発言を一字一句コピーした発言があったら、そのアカウントに1票入れる
- きっと1000favTweetが堂々一位
- 1000favRTボット
- 1000favTweetの発言から元発言を検索し、RTするボット
- 公式サイトには、本家とRTボットを並べたウィジェット置いとくと面白いかも
- コピペお知らせbot
- 空リプ or フォローしておくと、誰かにコピペされたときに@投げる
- 「@higaisha @kagaishaがあなたのツイートをパクりました! http://t.co/...」
- 犯人にはフォローしてなくてもリプが届く
- 悪気のない引用もあるだろうから、100%同じ内容の場合だけがいいかも
- 被害者側が設定できるようにしたほうがいいかも
- 被害者には知らせず、犯人に警告だけする設定もいいかも
- アルファな人は届きすぎるだろうから、何回以上パクられたらって設定がいるかも
- 元発言に飛ぶブックマークレット
- パクリツイートを単独で開き、ブックマークレットを叩くとオリジナルのツイートにリダイレクト
- コピペ通報ブックマークレット
- ツイートを通報してもらう
- オリジナルは、こちらで調査する。オプションで記入できてもいいかも
類似サービス

http://0-oo.appspot.com/rt/