
Table of Contents
SEOスパムに疲れたソフトウェアエンジニア、新しい検索エンジンを開発
ニューヨーク在住のソフトウェアエンジニア Wilson Lin 氏は、既存の検索エンジンにあふれるSEOスパムに不満を抱き、自ら新しい検索エンジンを開発しました。わずか2か月でデモ版を公開し、その過程で得られた知見は検索の未来を考える上で大きな示唆を与えます。
開発のアプローチと技術的工夫
1. ニューラル埋め込み(Neural Embeddings)
Wilson氏は文章レベルでの埋め込みを採用。これにより、文脈を保ちながら最も関連性の高い回答を抽出できるようにしました。さらに DistilBERTベースの分類器 を利用し、間接的な参照(例: “it”や“the”)の文脈を追跡可能に。
2. メインコンテンツの抽出
検索品質を高めるため、Googleが「Main Content」と呼ぶ部分の抽出を重視。<p>, <ul>, <ol>, <table> など限られたHTMLタグを頼りに、広告や不要部分を除外して主要な本文のみをインデックス化しました。
3. クローリングの課題
- DNS解決の失敗や異常なURL形式(ftp:, data:, javascript: など)は除外。
- 正規化(Canonicalization) により重複URLを整理。
- HTTPSのみ対応とし、セキュリティを確保。
4. ストレージとスケーリング
- 初期は Oracle Cloud を利用(低コストのデータ転送が魅力) → しかしスケールに難あり。
- PostgreSQL → RocksDB に移行し、64シャードでの分散処理を実現。
- 最大で 1秒あたり20万件の書き込みを処理可能に。
5. GPUによるコスト削減
- 当初は OpenAI APIの埋め込みを使用 → コスト増大。
- RunpodのGPU(RTX 4090など) を活用した自前の推論環境に移行し、コスト効率を大幅改善。
成果:スパムの少ない検索体験
Wilson氏の新しい検索エンジンは、既存検索エンジンに比べ SEOスパムが少ない のが特徴。
- 「best programming blogs」といったクエリで質の高い結果を提示。
- 段落単位の複雑なクエリにも対応し、関連する記事を見つけることが可能。
学んだ4つの教訓
- インデックスの規模は品質を決める
→ カバレッジ(網羅性)が検索の質を左右。 - クロールとフィルタリングは最難関
→ 無限に存在する低品質コンテンツをどう排除するかが課題。 - 小規模検索エンジンの限界
→ 全ウェブをカバーできないため、どうしても情報の抜けが発生。 - 信頼性・オリジナリティの自動判定は困難
→ 今後はTransformerを用いた新しい評価手法に可能性。
まとめ
Wilson Lin氏の試みは、「個人でも検索エンジンを作れる時代」を象徴すると同時に、SEOスパム問題に対する一つの解決策を提示しました。
検索の未来は大手企業だけでなく、こうした独立系の実験からも形作られていく可能性があります。













