ユーザーの収集

  • twitcmap.jp, webcatalog.circle.msのURLを貼った人
    • スペース番号が書いてあるけど、非公式RTなどで必ずしも本人とは限らない
    • 各ユーザーに、スペース番号を複数持てる構造がいいかも

  • プロフィールに C83 とか 3日目 とか 日曜日 とかを含む人
  • ツイートに 3日目 and 東 とかを含む人
  • ログインしてくれた人のフォロイー
  • スペース番号を頭から順にTwitter/Google検索

流動性は低そうなので、去年のデータも使えると思う
不参加の人は告知はしないだろうから、false positiveはOK
むしろ、委託の告知を拾えていいかも

ツイートの収集

"#c84ann" をつけると拾いますよ!とサイトでアナウンス

収集したユーザーをfollowし、それっぽい単語を拾う

  • #twitcmap #twitcomike #comike #c84 #C84WebCatalog
  • 夏コミ・冬コミ
  • イベント情報
  • サークル情報
  • 【定期】
  • 告知
  • 頒布
  • 限定
  • 委託
  • 試聴
  • 当選・落選・参加・不参加
  • サイト・ブログ更新
  • 出します
  • 新刊
  • 新曲
    体験版
    受かりました
    スペース
  • soundcloudのURL
  • スペース番号っぽい文字列を正規表現で
  • 貼られたURLをクロールし、その中からもスペース番号など拾う

ビュー

  • フォローしている/リストに登録しているアカウントすべて
  • アカウント指定
  • スペース番号指定
    • twitcmap, circle.msのURLがあればそれをデコード
    • 曖昧な表記もできるだけ拾う

ユーザ向けまとめページ

  • アカウント単位のまとめページ
  • サークル名・スペース番号などは、「自動収集なので参考までに」と但し書き
    • サークルが確認登録をしたら注意書きが消える

サークル向けマイページ

  • 自動収集の仮情報が表示される
    • 「これでOK!」ボタンを用意。押すと認証アイコンが付く
  • サークル名、スペース番号など登録(修正)できる
  • まとめページのツイートボタン

マーケティング

  • アカウントごとのツイートまとめページにツイートボタン
    • 自分の告知を勝手にまとめてくれるページとして拡散してもらう

雑多メモ

DB設計
	Tweet
		集めたツイートを単純に保存する
		マスターデータとして、あとでユーザーに振り分け直したりすることが可能
		ノイズが多くてもいい。告知を取りこぼさないことを重視する

精度アップ
	機械学習で告知ツイートかどうか判定
	ツイートごとに「告知じゃない」ボタンを設置。報告可能に

	サークルさんは、削除権限を持つ
		間違ってツイートしたもの
		情報が古い物
		告知じゃない、載せたくないもの

	RT数、ふぁぼ数が相対的に高い物は告知の確率が高いかも

キーワードで検索 → ユーザーがDBにいるか確認 の流れのほうがよさそう
	多すぎて取りこぼすかなー
	キーワードにヒットしたツイートはとりあえず保存しておく
	キーワードごとにヒット数をカウントするといいかも

Streaming API一本で済むと嬉しい
	新規サークル開拓
		1日目
		東
		などなど

	既存サークル告知収集
		キーワード検索 or サークルをfollowしてフィルタ