# Keywords Extrahieren

W├Ąhrend es oft ausreicht, Inhalte zu scrapen, m├╝ssen Sie manchmal wichtige Begriffe und Phrasen (Keywords) aus diesen Inhalten extrahieren. PHPScraper erm├Âglicht es Ihnen, die Keywords der Website direkt zu extrahieren. Hierf├╝r verwendet er:

  • den Titel der Website,
  • die Meta-Tags,
  • alle ├ťberschriften,
  • die Abs├Ątze auf der Seite,
  • Link-Anker und Link-Titel sowie
  • Titelattribute bei Bildern

Auch wenn diese Schl├╝sselw├Ârter extrahiert werden, bedeutet dies nicht, dass die Seite tats├Ąchlich f├╝r diese Schl├╝sselw├Ârter rangiert. Die endg├╝ltige Entscheidung dar├╝ber, f├╝r welche Schl├╝sselw├Ârter eine Webseite rangiert, liegt bei der Suchmaschine.

Das folgende Beispiel gibt eine Liste aller aus der Webseite extrahierten Keywords zur├╝ck:

$web = new \Spekulatius\PHPScraper\PHPScraper;

// Navigation zur Testseite.
// Diese enth├Ąlt 3 Abs├Ątze aus dem englischen Wikipedia-Artikel zu "lorem ipsum".
$web->go('https://test-pages.phpscraper.de/content/keywords.html');

// ├ťberpr├╝fen der Anzahl der Schl├╝sselw├Ârter.
$keywords = $web->contentKeywords;
echo "Diese Seite enth├Ąlt mindestens" . count($keywords) . " Schl├╝sselw├Ârter/Phrasen.\n\n";

// Schleife durch die Schl├╝sselw├Ârter
foreach ($keywords as $keyword) {
    echo " - " . $keyword . "\n";
}

/**
 * Ausgegeben wird:
 *
 * Diese Seite enth├Ąlt mindestens 40 Schl├╝sselw├Ârter/Phrasen.
 *
 * [...]
 * - graphic
 * - improper latin
 * - introduced
 * - keyword extraction tests
 * - letraset transfer sheets
 * - lorem ipsum
 * - lorem ipsum    php rake library  lorem ipsum
 * - lorem ipsum text
 * - make
 * - malorum
 * - microsoft word
 * - mid-1980s
 * - nonsensical
 * - page
 * - paragraphs
 * - philosopher cicero
 * - php rake library
 * - popular word processors including pages
 * - popularized
 * - removed
 * - roman statesman
 * - source
 * [...]
 */

Tipp

Die Standardsprache (Gebietsschema) hierf├╝r ist "en_US". Andere Sprachen, wie Deutsch, k├Ânnen als Parameter ├╝bergeben werden. Dies funktioniert derzeit nur f├╝r eine Auswahl von Sprachen. Weitere Informationen finden Sie in dieser list (opens new window).

# Bewertung von Schl├╝sselw├Ârtern

Nicht jedes Keyword hat in den Ranking-Algorithmen der Suchmaschinen das gleiche Gewicht. Ein Mix aus verschiedenen Faktoren und SEO-Signalen entscheidet ├╝ber die Gewichtung, die eine Suchmaschine einem Wort zuweist. H├Ąufigkeit der W├Ârter, L├Ąnge der Texte und Variationen wie Synonyme k├Ânnen zu einer unterschiedlichen Gewichtung f├╝hren.

PHPScraper erm├Âglicht es Ihnen, einen Hinweis auf die Gewichtung der Keywords in Form von Scores zu erhalten:

$web = new \Spekulatius\PHPScraper\PHPScraper;

// Navigation zur Testseite.
// Diese enth├Ąlt 3 Abs├Ątze aus dem englischen Wikipedia-Artikel zu "lorem ipsum".
$web->go('https://test-pages.phpscraper.de/content/keywords.html');

// ├ťberpr├╝fen der Anzahl der Schl├╝sselw├Ârter.
$keywords = $web->contentKeywordsWithScores;
echo "Diese Seite enth├Ąlt mindestens " . count($keywords) . " Schl├╝sselw├Ârter/Phrasen.\n\n";

// Schleife durch die Schl├╝sselw├Ârter
foreach ($keywords as $keyword => $score) {
    echo sprintf(" - %s (%s)\n", $keyword, $score);
}

/**
 * Ausgegeben wird:
 *
 * Diese Seite enth├Ąlt mindestens 40 Schl├╝sselw├Ârter/Phrasen.
 *
 * [...]
 *  - 1960s (1.0)
 *  - added (1.0)
 *  - adopted lorem ipsum (11.0)
 *  - advertisements (1.0)
 *  - aldus employed (4.0)
 *  - corrupted version (4.0)
 *  - graphic (1.0)
 *  - improper latin (4.0)
 *  - introduced (1.0)
 *  - keyword extraction tests (9.0)
 *  - test (1.0)
 *  - microsoft word (5.3333333333333)
 *  - english wikipedia (4.0)
 *  - lorem ipsum (8.0)
 *  - lorem ipsum text (11.0)
 * [...]
 */

Tipp

Die PHP-Funktionen similar_text (opens new window) und levenshtein (opens new window) k├Ânnen Ihnen helfen, ├Ąhnliche Schl├╝sselw├Ârter sowie Tippfehler-Varianten von Schl├╝sselw├Ârtern zu identifizieren und zusammenzuf├╝hren. Keyword Merge (opens new window) ist ein Composer-Paket, das beim Aussortieren ├Ąhnlicher Schl├╝sselw├Ârter hilft.