差分表示

  • 最後の更新で追加された行はこのように表示します。
  • 最後の更新で削除された行はこのように表示します。

*OriginFinder
ツイートの文面から、元ツイートを探し出すツール

コピペツイート・非公式RT・tumblr・@1000favs・@500favs・@1000Retweetsなど、
行儀の悪い人たちへのアンチテーゼ
*アルゴリズム
**その1
-できるだけたくさんのツイートを収集してDBに登録
-入力内容で全文検索
-投稿時刻が最も早いものを返す

**その2
-入力内容をsearch APIに投げる
--入力内容を適当に分かち書きするといいかも
--助詞とか、頻出ワードを削除
-投稿時刻が最も早いものを返す

**その2.5
同、google検索 site:twitter.com に投げる。
アカウント名が分かっている場合はand検索すると効果的
**その3
100%一致のコピペに限定するなら

-ツイート内容のハッシュ値, TweetIDのペアを保存
-group by hash
-処理速度重視でCRC32とかの方がいいかも

よるほーとかすごいたまりそう
*ツイート収集
-ある程度話題になっているツイートを優先するべき
-元発言をできるだけ早く拾うべき

-人気のツイートを取り上げるサイトをクロール
--favstar
---http://ja.favstar.fm/recent_most_faved/100-favorites
--favotter
--botが上記に上がることも良くあるので、ユーザーのブラックリストが必要

-%%数回以上RTされたツイートをStreamAPIで%% できなかった
--指定したユーザーの発言がRTされたことはfollowで取れる。悪くない

-Streaming API
--検索ワードにひらがなとカタカナ全部を一文字ずつ入れたら日本語ツイートに絞れそう
---クリリンノコトカー、とかは漏れるけど
--全体の1%くらいしか取れないみたいだけど
--Mentionは対象外にするといいかも
---経験上、Mention入りがパクられてるのをあまり見たことがない
---一方で、全ツイートの50%近くがMention http://hide.dnsalias.net/tweetcounter/misc.cgi
--sampleで、RTのみを拾う
---優れたツイートは短時間に数百RTされるから、1つも拾えないということはなさそう
---拾った時刻も押さえられたら、リアルタイム検索みたいなグラフが描けそう
--"RT"でtrackするとどうなる?
---非公式RTのみ?公式も含む?
---元発言をたどるのはしんどいけど、人気のバロメータとしては精度が高そう

-よくRTされてるユーザーのツイートをかたっぱしから
--ユーザーリストを作り、その人たちのツイートをStreaming APIで
---5000人までOKみたい
--隠しアカウントで50000人ほどフォローし、そのUserStreamを取るという手もある
---[[公式>https://dev.twitter.com/docs/streaming-api/concepts#language-country]]に書いてある。いいのかな

-よくRTされてるユーザーのRTされ、ふぁぼられをクロール

-よくRTされてるユーザーを集める
--@toptweets_ja, @favstar100_ja, @RT_report とかにRTされた回数でランキング
--http://www.followjp.com/ はAPIがある
--フォロワー数ランキング http://twittercounter.com/pages/100?time_zone=Tokyo
--Kloutの評価値使えるかな
--QRUSTというのもあるらしい http://qru.st/twitter/chokudai

-ユーザー登録
--アカウント名を送信してもらえると、あなたのツイートを優先してクロールします
*PR文
-コピペの嵐をかき分けて、元発言者に栄光を
-コピペツイートに死を、元発言者に栄光を
*おまけ機能
-コピペユーザーランキング
--検索時に、元発言を一字一句コピーした発言があったら、そのアカウントに1票入れる
--きっと1000favTweetが堂々一位
-1000favRTボット
--1000favTweetの発言から元発言を検索し、RTするボット
--公式サイトには、本家とRTボットを並べたウィジェット置いとくと面白いかも
-コピペお知らせbot
--空リプ or フォローしておくと、誰かにコピペされたときに@投げる
--「@higaisha @kagaishaがあなたのツイートをパクりました! http://t.co/...」
--犯人にはフォローしてなくてもリプが届く
---悪気のない引用もあるだろうから、100%同じ内容の場合だけがいいかも
---被害者側が設定できるようにしたほうがいいかも
---被害者には知らせず、犯人に警告だけする設定もいいかも
--アルファな人は届きすぎるだろうから、何回以上パクられたらって設定がいるかも
-元発言に飛ぶブックマークレット
--パクリツイートを単独で開き、ブックマークレットを叩くとオリジナルのツイートにリダイレクト
-コピペ通報ブックマークレット
--ツイートを通報してもらう
--オリジナルは、こちらで調査する。オプションで記入できてもいいかも
*類似サービス
http://0-oo.appspot.com/rt/