杏仁豆腐の家

杏仁豆腐が描いたイラストや、備忘録などを公開しているサイトです。

スレを自動収集するものを作成中

作成日:2017/12/30 00:45 最終更新日:2017/12/30 00:45

コンテンツが少な過ぎてヤバイなと思ったけど、これといって更新する事もない状況だしどうしたものかと考えた結果、まとめのような事をすればいいか思い至ってみる。

ただまあ、読んで取捨選択するのも面倒だなぁと面倒臭がり炸裂。
とりあえず自動で収集することにした。

現段階の機能としては

1. いくつかのカテゴリを選んでおいて、ランダムで板を選択する。 2. 選んだ板からスレをランダムで選択する。
スレの基準は新し過ぎず古過ぎず、ある程度レス数があるもの。
スレ名に「無断転載禁止」があれば除外。 3. レスをDBに保存
名前に「無断転載禁止」があれば除外。
と、まあここまで作った。
・・・半分も終わっていない。
収集部分はサクッと出来るかと思ったけど、なかなか面倒だ。

ここまででハマった事。

取得したHTMLのパースにHTML::TreeBuilderを使用して、文字がas_textだと普通だけど、as_HTMLだと参照文字に変換されているのが文字化けだと勘違い。

DBとのやりとりを(自分基準で)上手い事出来ないかとやったら、妙に時間掛かっている割にう〜んな出来。

実装する事、改善する事

スレの選択基準がざっくり過ぎて動きが遅いものを拾ってしまうから、速度は重視したい。
ただ板によってはゆっくりなのが普通だったりするだろうから考慮。
見易いか分からないけどページに表示する時にアンカーをツリー状にする。
レスが多い時の表示をどうするか考え中。
備忘録の方もだがコメント機能の追加。
画像は取得して残すか考え中。

現時点で考えている機能だとまとめブログのような「分かりやすい」って部分が無く無差別に広く拾っているだけになっちゃうから、表示部分でなんとか少しでも面白くならないかなぁ。

当サイトではやれない?

コンテンツが少ないから安易に増やそうと思ったけど、よくよく考えるとサイトの趣旨に沿わない。
イラストがゼロの状態だが一応イラストサイトなんだよなぁ。
まあ、1年近く何も無い状態で放置してたから新規一転でもいいのかもしれないが・・・
カテゴリとか板とか絞ってテスト的に当サイトでやってみるのが妥当かなぁ。

カテゴリ別とかでいくつかドメインを取得してやるのもいいかもしれない。