ユーザーの収集

- twitcmap.jp, webcatalog.circle.msのURLを貼った人
- スペース番号が書いてあるけど、非公式RTなどで必ずしも本人とは限らない
- 各ユーザーに、スペース番号を複数持てる構造がいいかも
- プロフィールに C83 とか 3日目 とか 日曜日 とかを含む人
- ツイートに 3日目 and 東 とかを含む人
- ログインしてくれた人のフォロイー
- スペース番号を頭から順にTwitter/Google検索
流動性は低そうなので、去年のデータも使えると思う
不参加の人は告知はしないだろうから、false positiveはOK
むしろ、委託の告知を拾えていいかも
ツイートの収集

"#c84ann" をつけると拾いますよ!とサイトでアナウンス
収集したユーザーをfollowし、それっぽい単語を拾う
- #twitcmap #twitcomike #comike #c84 #C84WebCatalog
- 夏コミ・冬コミ
- イベント情報
- サークル情報
- 【定期】
- 告知
- 頒布
- 限定
- 委託
- 試聴
- 当選・落選・参加・不参加
- サイト・ブログ更新
- 出します
- 新刊
新曲
体験版
受かりました
スペース
- soundcloudのURL
- スペース番号っぽい文字列を正規表現で
- 貼られたURLをクロールし、その中からもスペース番号など拾う
ビュー

- フォローしている/リストに登録しているアカウントすべて
- アカウント指定
- スペース番号指定
- twitcmap, circle.msのURLがあればそれをデコード
- 曖昧な表記もできるだけ拾う
ユーザ向けまとめページ

- アカウント単位のまとめページ
- サークル名・スペース番号などは、「自動収集なので参考までに」と但し書き
サークル向けマイページ

- 自動収集の仮情報が表示される
- 「これでOK!」ボタンを用意。押すと認証アイコンが付く
- サークル名、スペース番号など登録(修正)できる
- まとめページのツイートボタン
マーケティング

- アカウントごとのツイートまとめページにツイートボタン
- 自分の告知を勝手にまとめてくれるページとして拡散してもらう
雑多メモ

DB設計
Tweet
集めたツイートを単純に保存する
マスターデータとして、あとでユーザーに振り分け直したりすることが可能
ノイズが多くてもいい。告知を取りこぼさないことを重視する
精度アップ
機械学習で告知ツイートかどうか判定
ツイートごとに「告知じゃない」ボタンを設置。報告可能に
サークルさんは、削除権限を持つ
間違ってツイートしたもの
情報が古い物
告知じゃない、載せたくないもの
RT数、ふぁぼ数が相対的に高い物は告知の確率が高いかも
キーワードで検索 → ユーザーがDBにいるか確認 の流れのほうがよさそう
多すぎて取りこぼすかなー
キーワードにヒットしたツイートはとりあえず保存しておく
キーワードごとにヒット数をカウントするといいかも
Streaming API一本で済むと嬉しい
新規サークル開拓
1日目
東
などなど
既存サークル告知収集
キーワード検索 or サークルをfollowしてフィルタ