UFO ET IT

GOOGLE로 HTML 소스에서 검색 하시겠습니까?

ufoet 2021. 1. 8. 20:57
반응형

GOOGLE로 HTML 소스에서 검색 하시겠습니까?


웹 사이트가 여러 개 있는데 어디서 코드를 작성했는지 기억이 나지 않습니다. 내 페이지는 Google에 의해 색인이 생성되므로 Google이 페이지 의 시각적 인 렌더링 된 부분에서 검색을 허용하는 대신 HTML 소스 코드 / 마크 업 자체 내에서 검색 할 수 있는 기능을 제공하는지 알고 싶습니다 .

감사


HTML / CSS / JS 소스 코드를 검색 할 수있는 NerdyData 라는 새로운 검색 엔진 이 있습니다.

그들은 1 억 6 천만 개가 넘는 공개 도메인을 인덱싱했으며 데이터가 유용하다는 것을 알게되었습니다.


여행 중에 다음 리소스를 발견했습니다 (일부는 위에서 이미 언급했습니다).

HTML 마크 업 중심 검색 엔진

또한 다음을 던지고 싶습니다.

거대한 웹 사이트 크롤링 데이터 아카이브

이 크롤링 데이터를 어떻게 분석 할 수 있습니까?

이 방대한 데이터 중 일부를 분석하는 방법에 대한 아이디어는 BigData / Map-reduce-type 프레임 워크를 참조하십시오 .

Google은 Apache의 Spark 프로젝트 를 사용하여 Common Crawl의 덤프 를 분석 하는 방법에 대한 몇 가지 아이디어를 나열합니다 . 일반 크롤링 에서 사용하는 파일 형식 을 이해하려면 다음을 참조하세요.

기사, 액세스 - 공통 크롤링-데이터 집합-에-S3 에 액세스 개요 일반적인 크롤링의 250TB + 덤프 (들) 저렴한 비용 방식을 없이 아마존의 AWS / S3 네트워크의 데이터로드 외부 transfering. 물론, 가정 당신이 하는 일부 조합의 사용하려고 / EC2 / S3 AWS를 등 크롤링 데이터를 analysise 할 수 있습니다.

마지막으로 Patrick Durusau흥미로운 Common-Crawl-usage 관련 블로그 페이지를 관리 합니다.

개인적으로이 주제가 흥미 롭다고 생각합니다 .이 크롤링 데이터가 뜨거울 때 가져 오는 것이 좋습니다 ! ;-)


소스 / 마크 업 검색을 위해 PublicWWW시도 할 수 있습니다 . 1 억 6 천 6 백만 개 이상의 웹 사이트에서 웹 페이지 소스 코드에서 HTML, JavaScript, CSS 및 일반 텍스트를 찾을 수 있습니다.

PublicWWW를 사용하면 다음을 수행 할 수 있습니다.

  • 공유하는 고유 한 HTML 코드 (예 : 위젯 및 게시자 ID)를 통해 관련 웹 사이트를 찾습니다.

  • 특정 이미지 또는 배지를 사용하여 사이트를 식별합니다.

  • 누가 당신의 테마를 사용하고 있는지 알아보십시오.
  • 귀하를 언급하는 사이트를 식별하십시오.
  • 경쟁사의 계열사를 찾으십시오.
  • 경쟁자가 개인적으로 협력하거나 상호 작용하는 사이트를 식별하십시오.
  • 라이브러리 또는 플랫폼을 사용하기위한 참조.
  • 인터넷에서 코드 예제를 찾으십시오.
  • 사이트에서 누가 어떤 JS 위젯을 사용하고 있는지 파악하십시오.
  • ...

물론 일부 코드 / 마크 업 스 니펫을 사용하는 웹 사이트를 찾을 수 없습니다.


Google은 사이트에서 귀하의 코드를 검색 할 수 없습니다. Yoy는 http://nerdydata.com/ 을 사용할 수 있습니다 . 제가 사용한 최고의 코드 검색 엔진입니다! 이 사이트에서 정확한 코드를 얻을 것이라고 생각합니다.

참조 URL : https://stackoverflow.com/questions/4265748/search-in-html-source-with-google

반응형