注文確認メールで自動家計簿

  • ユーザ登録すると、固有のメアドが発行される
  • そのメアドに注文確認メールを転送する
  • メール内容を解析し、日時・店名・品名・価格を抽出
  • データベースに登録
  • 結果はWebで見たり、OFX/CSVファイルでダウンロード可能

重複登録回避

  • 注文確認・注文完了で同じ内容が2通来るのがよくある
  • 2通とも転送しても、1回しか登録されないようにする

解析アルゴリズム

  • 日時は単にメールの送信時刻
  • 店名はSubjectに多い
  • \がついてたら価格
  • 価格の近くにあるのが商品名
  • 数字の羅列は商品番号と思われるので除外
    • JANコードなら利用するのもアリ
  • 品名が無理でも、価格だけでも抽出
  • 価格を合計して合計額になるか確認する
  • 送料の相場は300〜2000円くらい

  • 特定の店に特化したアルゴリズム
    • Fromで店は特定できる
    • Amazon, 楽天など、利用者が多そうなサイト
    • やたら解析しにくいフォーマットの店

解析エンジンの強化

  • 品名から解析元のメールを確認し、誤認識か判定できるUI
  • 完全に解析不可能だったメールを確認できるUI
  • それらのメールを通報できるUI
  • 通報されたメールを元に、解析エンジンを改良

  • エンジンに手を入れるときは、レグレッションテストを行う
    • メール → 解析結果 のテストデータを用意しておく
    • 完全に一致するかは微妙なので、不一致一覧を出力して目視するといいかも
    • Amazon, 楽天など、利用者の多いサイトは完全一致しないと合格しないようにする

  • エンジンに手を入れたら、通報されたメールは自動で再解析すると親切かも

Twitter連携

  • 「これ買ったなう」
  • ハッシュタグをつければ宣伝になる

問題点

  • 届いたメールの内容が完全に読めると、フリーメールサービスとして使われてしまう
    • タイトルだけとか工夫が必要
  • 発行されたメアドでメールサーバから送信できないように気をつける