본문 바로가기
재미있는 이야기

유출된 Google Search API 문서 분석 (sparktoro.com)

by lovelykorean 2024. 6. 12.

목차

    유출된 Google Search API 문서 분석 (sparktoro.com)

    구글, 검색 API 문서 대량 유출 의혹 인정 - 디지털투데이(DigitalToday)
     

    구글, 검색 API 문서 대량 유출 의혹 인정 - 디지털투데이 (DigitalToday)

    [디지털투데이 AI리포터] 구글이 수집하는 데이터에 대한 세부 정보가 담긴 구글의 검색 API 문서 2500건이 대량으로 유출됐다는 의혹을 공식 인정했다.29일(현지시간) IT매체 더 버지에 따르면 데

    www.digitaltoday.co.kr

    • 얼마전 익명의 소스로부터 구글의 검색 API 문서가 대량으로 유출되었다는 이메일을 받음
    • 문서의 진위는 전 구글 직원들에 의해 확인되었고, 일부 전직 구글 직원들과의 대화로 추가 정보도 포함됨

    주요 주장

    • 구글은 클릭 기반 사용자 신호를 사용하지 않는다고 반복적으로 부인해왔으나, 유출된 문서들은 이를 반박함
    • 서브도메인을 별도로 평가하지 않으며, 새로운 웹사이트에 대한 샌드박스가 없고, 도메인 연령을 고려하지 않는다는 구글의 주장도 부정됨
    • 구글 검색팀은 초기부터 검색 결과 품질을 향상시키기 위해 많은 웹 사용자의 클릭스트림 데이터(브라우저에서 방문한 모든 URL)를 필요로 했음
    • DoJ에서 인용된 NavBoost 시스템은 구글 툴바 페이지랭크에서 데이터를 수집하고, 더 많은 클릭스트림 데이터를 얻기 위해 Chrome 브라우저를 개발하게 된 주요 동기였음
    • NavBoost는 특정 키워드에 대한 검색 수, 검색 결과 클릭 수, 짧은 클릭과 긴 클릭을 분석하여 사용자 의도를 평가하고, 동영상이나 이미지에 대한 클릭이 많으면 NavBoost 관련 쿼리에 대한 동영상 또는 이미지 기능을 트리거함
    • 클릭 데이터 활용: 구글은 쿠키 기록, 로그인된 Chrome 데이터, 패턴 감지 등을 사용하여 수동 및 자동 클릭 스팸을 방지하고, 사용자의 클릭 및 참여도를 분석하여 검색 결과에 반영함
    • 사이트 품질 평가: NavBoost 데이터는 사이트의 전체 품질을 평가하는 데 사용되며(Panda라고 불리는), 이 평가에 따라 순위가 상승/강등
    • NavBoot는 클릭 데이터를 지리적 데이터도 고려하여 국가 및 주/도 수준으로 구분하여 평가함
    • 코로나19 및 선거 관련 검색 결과에 화이트리스트를 적용하여 특정 사이트를 우선적으로 표시함

    문서의 신뢰성 검증

    • 이 중 일부는 Google/DOJ 사건에서 밝혀진 정보와 겹치지만, 대부분은 새로운 내용
    • 익명의 소스는 5/28에 자신을 공개했고, 그는 Erfan Azimi(SEO 전문가)임
    • 전 구글 직원의 확인: 세 명의 전 구글 직원 중 두 명이 문서의 신뢰성을 확인함
    • 기술적 검토: 기술 SEO 전문가 Mike King이 문서를 검토하고 신뢰성을 확인함

    Google API Contents Warehouse ?

    • API 문서의 목적: 구글 팀원들이 프로젝트에 사용 가능한 데이터 요소를 이해하도록 돕기 위한 문서임
    • 유출 경로: GitHub에 잠시 공개되었고, 이 기간 동안 문서가 유출됨

    주요 발견 사항

    #1: Navboost와 클릭 데이터 활용

    • 클릭 데이터 필터링: 구글은 랭킹 시스템에서 고려할 클릭 데이터를 필터링하고, 클릭 길이와 인상을 측정함.
    • 순위 시스템에 포함시키고 싶지 않은 클릭은 걸러내고, 포함시키고 싶은 클릭은 포함시키는 방법을 가지고 있음
    • 클릭 길이(예: 검색자가 검색 결과를 클릭했다가 찾은 답변에 만족하지 못해 뒤로 버튼을 빠르게 클릭하는 경우)와 노출 횟수를 측정하는 것으로 보임

    #2: Chrome 브라우저 클릭스트림 활용

    • Chrome 클릭스트림 데이터: 구글은 Chrome 브라우저의 클릭 데이터를 사용하여 Sitelinks(해당 웹사이트의 인기 있는 URL)을 결정함

    #3: 여행, 코로나, 정치 관련 화이트리스트

    • 화이트리스트 존재: 여행, 코로나, 선거 관련 검색 결과에 특정 도메인을 우선적으로 표시함

    #4: 품질 평가자 피드백 활용

    • 품질 평가자 데이터: 품질 평가자의 평가가 검색 시스템에 직접적으로 사용될 가능성이 있음

    #5: 링크 랭킹 가중치 결정에 클릭 데이터 사용

    • 링크 인덱스 분류: 클릭 데이터를 사용하여 링크 인덱스를 고품질, 중간 품질, 저품질로 분류함

    마케터를 위한 주요 시사점

    • 브랜드 중요성: 구글은 큰 브랜드를 우선적으로 랭킹에 반영함
    • E-E-A-T 요소의 중요성 감소: 일부 SEO가 강조하는 경험, 전문성, 권위, 신뢰성 요소가 직접적으로 랭킹에 반영되지 않을 가능성이 있음
      • Experience, Expertise, Authoritativeness, Trustworthiness
    • 사용자 의도와 클릭 패턴이 콘텐츠와 링크보다 더 중요한 랭킹 요소임
    • 페이지랭크, 앵커 텍스트 등 전통적인 랭킹 요소의 중요성이 감소하고 있음
    • SEO의 어려움: 중소기업과 새 창작자/퍼블리셔에게 SEO는 큰 브랜드와 경쟁하기가 더 어려워짐
    원문 출처 : ▲ 유출된 Google Search API 문서 분석 - 기크뉴스(GeekNews)

    소문인 줄만 알았던 화이트리스트의 존재가 사실이었다니 놀라운 일이네요...!

    게임 코딩하다가 실수로 덮어쓰기해서 전부 날려버린 아이.txt
     

    게임 코딩하다가 실수로 덮어쓰기해서 전부 날려버린 아이.txt

    게임 코딩하다가 실수로 덮어쓰기해서 전부 날려버린 아이.txt10살 아들이 학교 컴퓨터에 있는 Scratch(교육용 프로그래밍 언어)로 축구 PK 게임을 처음 만들고는 신이 나 있더니또 뭔가 새로 만

    beautifulkorean.tistory.com

    2024.05.21 - [재미있는 이야기] - 너무나도 무서운 저주받은 비디오 ㅎㄷㄷ

     

    너무나도 무서운 저주받은 비디오 ㅎㄷㄷ

    너무나도 무서운 저주받은 비디오 ㅎㄷㄷ" data-ke-type="html">HTML 삽입미리보기할 수 없는 소스비디오를 본 적 없는 요즘 세대들은 모를 수도 있지! 비디오가 대체 뭔데요?비디오 공익광고 - 옛날 어

    lovelykorean.tistory.com

    반응형