Knowledge graph на собеседовании Data Scientist
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
Зачем разбирать на собесе
KG — ключ для structured knowledge (LLM augmentation, search). На собесе DS: «отличие от relational», «KG embeddings».
Что такое knowledge graph
Граф из сущностей (nodes) и отношений (edges).
(Apple) ─[founded_by]→ (Steve Jobs)
(Apple) ─[is_a]→ (Company)
(Steve Jobs) ─[born_in]→ (San Francisco)Похоже на graph DB, но с emphasis на семантику и связи.
Triples и schemas
Triple. (subject, predicate, object).
RDF. Resource Description Framework — стандартный format triples.
<Apple> <foundedBy> <SteveJobs> .
<Apple> <typeOf> <Company> .Ontology / schema. Описывает types and predicates.
- OWL — Web Ontology Language.
- schema.org — common schema для web.
- Wikidata — большой open KG.
SPARQL. Query language.
SELECT ?company WHERE {
?company foundedBy ?ceo .
?ceo bornIn <SanFrancisco> .
}Knowledge graph embeddings
Учим vectors для каждой entity и relation.
TransE. head + relation ≈ tail. Простейшая модель.
ComplEx, RotatE. Complex space — moglieer моделирует non-symmetric relations.
Graph Neural Networks. Modern — GCN, GAT, R-GCN на KG для embeddings + reasoning.
# pseudo
embedding(Apple) + embedding(foundedBy) ≈ embedding(SteveJobs)Использования:
- Link prediction (suggested missing edges).
- Question answering.
- Recommendation.
Применения
Search. Google's Knowledge Graph — те ответы вверху, которые ты видишь. Bing, Yandex — same.
Recsys. Items связаны через categories / tags / authors → graph traversal для recommendations.
LLM augmentation. RAG over KG — вместо документов retrieve факты.
Drug discovery. Drug-target-disease graphs.
Fraud detection. Connections между accounts / transactions.
Tools
Neo4j. Property graph DB. Cypher query.
Amazon Neptune. Managed.
RDF stores. Stardog, Apache Jena, Virtuoso.
Wikidata, DBpedia, ConceptNet. Public knowledge graphs.
LangChain + KG. Trend — LLM на KG.
Связанные темы
- Vector databases на собесе DS
- RAG на собесе DS
- Embeddings на собесе DS
- NLP на собесе DS
- Подготовка к собесу Data Scientist
FAQ
KG vs property graph?
KG — concept (semantic emphasis). Property graph — implementation pattern (Neo4j-style with attributes on nodes / edges). Иногда взаимозаменяемы.
Это официальная информация?
Нет. Статья основана на classics (W3C standards для RDF/OWL/SPARQL).
Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.