概要

  • 地デジ・BS放送の字幕・番組表・(データ放送?)のテキストデータを取得
  • 検索やデータマイニングして、価値を生み出す

実装

  • TSを受信して、関連するパケットをDBに保存
  • 保存されたパケットを解析し、抽出したテキストを別のDBに保存
  • 活用

各段階は別のプロセス。
段階を分けるのは、

  • リアルタイムに処理する範囲をできるだけ少なくするため。少なく・単純な方がバグが入りにくい
  • 運用上のトラブルや開発時にターンアラウンドを繰り返す場合も停止時間が短くなる
  • できるだけオリジナルのデータを保存することで、後からバグに気づいても対処しやすいようにする