タイトルというのがよくわかりませんが
トップページからのリンク先を片っ端から取得しているはずです。
file_get_htmlであればのタグを取得してhrefの先に対して
file_get_htmlを繰り返します。画像であればimgタグののsrc属性とか。
従ってどこからもリンクがない直接アドレス指定でないと取得できないデータは見つからないと思います。
ダウンローダ的なソフトはリンクをたどる階層の数や外部サーバへのリンクを取得するかなどの設定が大抵あります。
基本的にHTTP GETで取得できるデータで
データベースのデータを全て取得するのは無理だとは思いますが
掲示板などでURLに連番が推測できるような場合は連番での取得を試みているがもしれません。
一般にクローラは、既知のHTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録する。また、既知のファイルが存在しないことを検出した場合はデータベースから削除する。
クローラ - Wikipedia
ノードを辿ります。
それかipアドレスにpingを投げて、その応答を見ます。