はてなブックマークのサムネイルはどうやって拾っているのだろう?
自分でもスクレイピングで画像を含む記事を複数のサイトから引っこ抜いたりしているのですが、サムネに適した画像のみを取得対象とするために、サイトごとに個別処理をいれたりしています。
ライブドアとかfc2とか、大手プラットフォーム上のブログ記事などは記事画像のURLがRSSからも、記事中のタグからも簡単に判別可能なので、共通の処理で困りません。動画のサムネイルも決まりきってるので容易です。
上記に該当しない、自前のサイトなどはRSSに画像情報が載っていなかったり、記事ページ中のimgタグに振られているクラスが記事画像以外にも使用されていたりして、正確にこれだと判断するには、サイトごとのタグ構造を調べるしかありません。
はてなブックマークには特定の範囲のサイトしか上がってこないというわけではないので、サイトごとに個別処理をしているようには思えないですが、それではどのようにして記事画像と判断しているのか。簡単に思いつくのは画像サイズなんですが、よく分かりません。誰か教えてください。