freedom-man.com

ブログは俺のセーブポイント

Tag: Hadoop

Spark/PySparkでツイート分析してみた

Twitter Streaming APIでかき集めたツイートをSparkで分析してみました。

Hadoop版はこちら→Hadoop Streamingでアイドルツイート分析

Hive版はこちら→Hiveでツイート分析

Continue reading

Hiveでツイート分析

今度はHiveを使ってツイートを分析しました。1行1JSONのファイル(Fluentd+Twitter Streaming API)がS3にGZIP形式で格納されているので、このファイルをHiveで処理していきます。環境はMac OS Xです。

Hadoopバージョンはこちら→Hadoop Streamingでアイドルツイート分析

Continue reading

Hadoop Streamingでアイドルツイート分析

Fluentd+ElasticSearch+Kibanaでアイドルデータ分析基盤を作ってみたの回で、FluentdとTwitter Streaming APIを使ってS3にツイートデータを保存したので、このデータをHadoopを使って解析してみます。

今回はMeCabを使って形態素解析してワードカウントを取るような教科書的なMapReduceを試してみました。Hadoop Streamingを使ってPythonでMapper、Reducerを書いていきます。

Continue reading

© 2017 freedom-man.com

Theme by Anders NorenUp ↑