PHP 크롬 웹브라우저를 이용한 크롤링 > PHP
PHP

PHP 크롬 웹브라우저를 이용한 크롤링

조회 159회 댓글 0건

다른 언어에선 셀레리움을 많이 사용하는듯 한데 PHP에서 페이스북에서 만든 웹드라이브를 사용합니다.

설치는 어렵지 않으며 여기선 윈도우용 PHP가 이미 설치 되어 있다고 가정하고 웹드라이브 설치 하는것 부터 진행 합니다.


▷ 윈도우용 컴포저 다운로드

https://getcomposer.org/Composer-Setup.exe


▷ 필요한 라이브러리 설치

composer require php-webdriver/webdriver

composer require facebook/webdriver


▷ 웹드라이브 설치 하기

https://chromedriver.chromium.org/downloads

https://googlechromelabs.github.io/chrome-for-testing/


▷ 버전이 맞지 않으면 아래와 같은 메시지를 만나게 된다.

PHP Fatal error:  Uncaught Facebook\WebDriver\Exception\SessionNotCreatedException: session not created: This version of ChromeDriver only supports Chrome version 112



  <?php

  require_once('vendor/autoload.php');
  use Facebook\WebDriver\Remote\RemoteWebDriver;
  use Facebook\WebDriver\Chrome\ChromeOptions;
  use Facebook\WebDriver\WebDriverBy;

  $options = new ChromeOptions();
  // Chrome 옵션 설정
  // 필요한 추가 옵션이 있다면 여기에 추가
  // 헤드리스 옵션을 주지 않으면 브라우저 실행을 볼 수 있다.
  // $options->addArguments(['--headless']);
  $options->addArguments(['--window-size=1920,1080']);
  $userAgent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36';
  $options->addArguments(["--user-agent={$userAgent}"]);

  $host = 'http://localhost:9515'; // ChromeDriver 기본 포트

  // ChromeDriver와 연결
  $driver = RemoteWebDriver::create($host, $options->toCapabilities());

  // Google 홈페이지에 접속
  // $driver->get('https://www.google.com');
  // $searchBox = $driver->findElement(WebDriverBy::name('q'));
  // $searchBox->sendKeys('PHP WebDriver');
  // $searchBox->submit();
  // sleep(2);

  $driver->get('https://ifconfig.me/');
  sleep(2);

  // 결과 페이지의 타이틀 출력
  echo "Page title is: " . $driver->getTitle();

  // 스크린샷 저장
  $screenshotPath = __DIR__ . '/screenshot.png';
  $driver->takeScreenshot($screenshotPath);
  echo "Screenshot saved to: " . $screenshotPath . "\n";

  // HTML 소스 저장
  $htmlSource = $driver->getPageSource();
  $htmlSourcePath = __DIR__ . '/page_source.html';
  file_put_contents($htmlSourcePath, $htmlSource);
  echo "HTML source saved to: " . $htmlSourcePath . "\n";


  // 브라우저 종료
  $driver->quit();
 

여기서 실행할때 다른 언어는 웹브라이브를 백그라운드로 실행 시키는데 여기선 그런것이 없기 때문에
수동으로 먼저 하나 실행 시켜야 합니다. 그리고 9515 포트가 활성화 되었는지 확인한 다음 위 PHP를 실행하면 됩니다.
아니면 스크립트를 하나 만들어 윈도우 start 명령으로 웹드라이브 실행 시키는것 만들고 위 PHP 실행 되도록 하나 만들면 되겠습니다.


  • 페이스북으로 공유
  • 트위터로  공유
  • 구글플러스로 공유
전체 194건 1 페이지
  • profile_image 앞으로 @ 사용하지 말라고 하니 새로 만드는 프로그램은 try-catch 감싸서 처리 하는 것이 좋다.그래서 필요한 것으로 아래를 참고하면 된다. 그리고 아래 복원하는 함수면 한 줄이기 때문에 함수가 왜? 필요할까 싶지만 이런 경우도 함수로 만들어 사용하면 후에 어려운 일이 발생 했을 때 해결 할 수 있는 좋은 일이 생기게 되기도 한다.  # 사용자 오류처리기   convertErrorsToExceptions();   #   try {    $…
  • profile_image 내장함수에 strip_tags 라는 것이 있습니다.HTML을 삭제하고 txt만 남기죠. 그리고 나서 공백이 2개 이상이거나 줄바꿈이 필요 없거나 탭 같은것은 별도 삭제를 해줘야 합니다. 여기서 다루는 함수는 자바스크립트등 몇가지를 더 삭제해 주는 기능입니다.결과 확인 후 본인에게 맞지 않으면 좀 더 추가 해야 될 수 있는데 요즘은 GPT4 이용하면 도움이 많이 됩니다.  /**   * html2txt    *    * @param mixed $…
  • profile_image 사이트의 페이지를 소켓방식으로 수집할때 많이 사용하는 curl 클래스 입니다.본인의 상황에 따라서 좀더 조건을 줘서 처리를 하면 되며 쿠키를 저장해서 다시 보내줘야 한 다면 이 부분에 대한 주석 처리 된것을 풀어서 테스트 해보면 됩니다.중요한것은 HTTP 프로토콜에 대한 명확한 이해가 가장 중요합니다.원리를 모르는 상태에서 사용을 하다보면 헛발질을 많이 할 수 밖에 없기 때문이죠~코딩을 잘 한다는 것은 깔끔하게 재사용가능하게 하는 것도 중요하지…
  • profile_image AWS SES API를 활용하면서 PEAR 라이브러리 활용할 필요가 있을 때 사용하면 되지만 일반적으로는 사용할 필요는 없습니다.하지만 필요한 분이 있을 수 있어 예전 소스중에 있어 올립니다. 1) PEAR 설치 사용하는 PHP 버전의 경로를 지정해서 설치 해야 한다. wget https://pear.php.net/go-pear.phar /usr/local/php82/bin/php go-pear.phar /usr/local/php82/bin/p…
  • profile_image AWS에서 메일을 발송하는 방법에는 SMTP 설정을 통한 방법이 있고 다른 하나는 API를 이용한 방법이 있는데여기에선 API를 이용한 방법에 대한 예 입니다.보통 간단하게 조금 보낼때는 관계 없는데 많이 보내게 되면 AWS 비용이 비싸고 반송 메일에 따라 좋지 않으면 패널티도 받기 때문에 AWS 이용은 많이 안하는 편입니다.대량메일 발송서비스만 전문으로 해주는곳을 이용하거나 직접 구축하여 발송을 하게 됩니다.한달 몇 천건 정도면 이것 이용해도…
  • profile_image 간혹 PHP만 설치해서 사용하고 최대한 라이브러리 설치 하지 않게 사용하면서 간단하게 암호화할 필요가 있을 경우 사용 합니다. 가능하면 OpenSSL 라이브러리 사용하는 암호화 방식을 추천 합니다.  그리고 어떤 방식이든 대칭형 암호화에서 키는 가능하면 길게 만들고 여기선 md5 사용 했지만 sha512 같은것 사용하면 더 좋고 시간, 또는 일마다 같은 문자도 암호화 결과가 다르게 만드는것이 좋습니다. 그 부분은 개인의 상황에 맞게 별도의 메소…