Knowledge graph на собеседовании Data Scientist

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Зачем разбирать на собесе

KG — ключ для structured knowledge (LLM augmentation, search). На собесе DS: «отличие от relational», «KG embeddings».

Что такое knowledge graph

Граф из сущностей (nodes) и отношений (edges).

(Apple) ─[founded_by]→ (Steve Jobs)
(Apple) ─[is_a]→ (Company)
(Steve Jobs) ─[born_in]→ (San Francisco)

Похоже на graph DB, но с emphasis на семантику и связи.

Triples и schemas

Triple. (subject, predicate, object).

RDF. Resource Description Framework — стандартный format triples.

<Apple> <foundedBy> <SteveJobs> .
<Apple> <typeOf> <Company> .

Ontology / schema. Описывает types and predicates.

  • OWL — Web Ontology Language.
  • schema.org — common schema для web.
  • Wikidata — большой open KG.

SPARQL. Query language.

SELECT ?company WHERE {
  ?company foundedBy ?ceo .
  ?ceo bornIn <SanFrancisco> .
}

Knowledge graph embeddings

Учим vectors для каждой entity и relation.

TransE. head + relation ≈ tail. Простейшая модель.

ComplEx, RotatE. Complex space — moglieer моделирует non-symmetric relations.

Graph Neural Networks. Modern — GCN, GAT, R-GCN на KG для embeddings + reasoning.

# pseudo
embedding(Apple) + embedding(foundedBy) ≈ embedding(SteveJobs)

Использования:

  • Link prediction (suggested missing edges).
  • Question answering.
  • Recommendation.
Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Применения

Search. Google's Knowledge Graph — те ответы вверху, которые ты видишь. Bing, Yandex — same.

Recsys. Items связаны через categories / tags / authors → graph traversal для recommendations.

LLM augmentation. RAG over KG — вместо документов retrieve факты.

Drug discovery. Drug-target-disease graphs.

Fraud detection. Connections между accounts / transactions.

Tools

Neo4j. Property graph DB. Cypher query.

Amazon Neptune. Managed.

RDF stores. Stardog, Apache Jena, Virtuoso.

Wikidata, DBpedia, ConceptNet. Public knowledge graphs.

LangChain + KG. Trend — LLM на KG.

Связанные темы

FAQ

KG vs property graph?

KG — concept (semantic emphasis). Property graph — implementation pattern (Neo4j-style with attributes on nodes / edges). Иногда взаимозаменяемы.

Это официальная информация?

Нет. Статья основана на classics (W3C standards для RDF/OWL/SPARQL).


Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.