AI는 실제 사람들을 모방하여 웹 사이트를 평가하고 심지어는이를 능가합니다. 어떻게 되나요?

오늘날 지능형 웹 사이트 재 설계 시스템 인 uKit AI의 구성 요소 중 하나가 공개되고 있습니다. 웹 페이지의 아름다움을 평가하기위한 프로토 타입 모듈입니다. 신경망과 의사 결정 트리를 결합하여 웹 사이트 디자인에 대한 일반 방문자의 반응을 모방합니다.

앞으로 이러한 모듈은 uKit AI의 핵심 요소 인 생성 디자인 알고리즘의 작업을 평가할 것이며, 이는 이용 가능한 콘텐츠에 의존하지 않고 비효율적 인 웹 사이트와 전환율을 높이는 것을 목표로합니다.

현재 WebScore AI 버전은 웹 사이트 모양에 대한 일반 인터넷 사용자의 견해를 반영합니다. 예를 들어 웹 사이트 유용성을 평가할 수있는 다른 옵션도 만들 수 있습니다.

시스템 교육에 사용되는 웹 사이트 우선, 우리는 다양한 플랫폼과 언어로 다른 해에 12,000 개의 사이트와 온라인 상점을 수집했습니다. 주요 임무는 꽤 나쁜 웹 사이트에서 아주 좋은 웹 사이트에 이르기까지 충분한 시각적 그라데이션 예제를 얻는 것입니다. 이런 식으로, 우리는 시스템이 현대 웹에서 얻을 수있는 것을 보여주었습니다.

교육 샘플의 두 웹 사이트.

각 계조는 척도로 측정되며이 척도는 우리가 모형화하려는 평범한 사람에 의해 이해되어야합니다. 그래서 우리는 서비스에 사용되는 '1에서 10까지'척도에 대한 아이디어를 얻었습니다.

WebScore AI에 의해 모방 된 사람들. 다양한 웹 사이트에서 데이터 집합 (훈련 모델의 데이터 집합)을 구성하려면 다음 두 가지가 필요했습니다.

  • 시스템이 웹 사이트가 매력적인지를 판단하는 표시;
  • 특정 양의 웹 사이트에 대한 규모의 도움으로 작성된 평가 (표시). 그것들은 시스템의 모델이 될 것입니다.

누군가 이러한 초기 평가를해야합니다. 보다 구체적으로 말하면, 이러한 "교사"또는 "교사"그룹은 모델의 작동 방식에 큰 영향을 미칩니다.

웹 사이트 평가 인터페이스 : 곧 GitHub에서 가져 와서 사용하십시오.

포커스 그룹을 모으기 위해 1500 개의 웹 사이트 예제에서 예비 후보를 선발했습니다. 일상적인 작업이지만 책임감있는 작업이며 집중해야합니다. 예비 선정은 우리가 부적합한 후보자를 제거하고 샘플에서“논쟁적인”(누군가가 1로, 다른 사람이 10으로 평가할 때) 웹 사이트를 제외시키는 데 도움이되었습니다.

처음에는 평가 방법을 실험했습니다.

예를 들어 한 번에 하나의 웹 사이트를 평가 한 다음 동시에 두 개의 웹 사이트를 평가하거나 가장 매력적인 두 사이트 중 하나를 선택하도록 제안했습니다. 응답자가 단일 웹 사이트를보고 가장 잘 평가 한 접근 방식. 나머지 웹 사이트 중 10.000 개를 평가하는 데 사용했습니다.

사람은 웹 사이트가 아름다운지 여부를 평가했습니다. 기계는 어떻게이 작업을 수행합니까? 당신과 나는 무언가의 전반적인 아름다움에 대한 의견을 제시하기 위해 하나의 모습 만 필요합니다. 그러나 우리는 악마가 세부 사항에 있다는 것을 알고 있습니다.

모델을 안내 할 웹 사이트 시각적 매력 표시는 전체 프로젝트의 핵심 순간입니다. 우리는 uKit 웹 사이트 제작자 디자인 팀에게 손을 요구했고, 그들의 작업은 수십만 웹 사이트의 기초로 사용되었으며 수백만의 사람들이 그것을 보았습니다. 우리는 함께 웹 사이트 디자인을 개발할 때 전문가가주의를 기울이는 확장 된 기능 목록을 작성했습니다. 그런 다음 가장 중요한 것만 남기고 자르려고했습니다.

uKit.com 디자인 팀.

결과적으로 우리는 15 개의 범주로 분류 된 125 개의 상당히 다르지만 중요한 기준에 대한 점검 목록을 얻었습니다. 예를 들어, 목록에는 인기있는 화면에 대한 적응, 다양한 글꼴 크기, 색상 순도, 제목 길이, 전체 페이지의 이미지 비율 등이 있습니다. 남은 것은이 규칙을 사용하여 모델을 훈련시키는 것입니다.

알고리즘을 만듭니다. '교수 모델'이란 정확히 무엇입니까? 주어진 특성을 기반으로 선택한 웹 사이트를 평가할 수있는 알고리즘을 구성합니다. 시스템의 평가와 평균 교사의 평가는 최종 평가에서 최소한의 차이를 공유하는 것이 바람직합니다.

가장 인기 있고 효과적인 방법 중 하나이기 때문에 의사 결정 트리에 그래디언트 부스팅 방법을 사용하기로 결정했습니다. 기본 알고리즘을 사용하여 전체 결과가 별도의 알고리즘 결과를 초과하는 세트를 구성합니다.

또한 각 후속 기본 알고리즘을 추가하여 전체 세트의 응답 품질을 향상시킵니다.

프로세스를 가속화하고 용이하게하기 위해 Yandex의 CatBoost 라이브러리를 사용하여 이른바 "명백한 의사 결정 트리"에 그라디언트 기반 부스터를 구축하여 모델의 우수한 교육 기능을 보장하고 예측 (예상치)으로의 빠른 전환을 보장합니다. )를 새 객체에 적용합니다.

신경망 추가. 기본 알고리즘이 준비되면 실험을하기로 결정했습니다. 신경망을 추가하면 결과가 향상됩니까? 실제로 웹 사이트와 디자인을 '보는'방법을 이미 알고 있었으므로 이제는 시스템에 더 자세한 정보를 제공하는 데 사용할 수있는 일종의 '돋보기'를 제공하기로 결정했습니다.

우리는 가장 인기있는 네트워크 중 하나 인 resnet50을 선택했습니다.이 기능은 고급 기능을 추출하기위한 훌륭한 알고리즘으로 알려져 있습니다. 그리고 웹 사이트 평가를 위해 1000 개의 추가 속성을 얻는 방법을 배웠습니다. 결과적으로, 시스템은 이제 총 1125 개의 기능으로 URL을 특성화하고 10 점 척도로 웹 사이트의‘장소’를 찾습니다. 이 프로세스는 수십 초가 걸리므로 평가 품질을 동일하게 유지하면서 부호 수를 줄임으로써 모델 속도를 높이는 것이 좋습니다.

첫 결과. 이 방법으로 훈련 된 모델은 개별 '교사'에 비해 3 배 더 정확한 추정치를 만들 수 있습니다.

포커스 그룹 추정치가 신경망 추정치보다 평균치보다 크게 다르기 때문에이 모델이 첫 번째 교사를 능가했다고 말할 수 있습니다. 이제 우리는 추가 훈련을 위해 알고리즘을 네트워크에 넣었습니다. 그리고 선생님도 될 수 있습니다.