IPS is Doel en functies van systemen voor het ophalen van informatie

Inhoudsopgave:

IPS is Doel en functies van systemen voor het ophalen van informatie
IPS is Doel en functies van systemen voor het ophalen van informatie

Video: IPS is Doel en functies van systemen voor het ophalen van informatie

Video: IPS is Doel en functies van systemen voor het ophalen van informatie
Video: SUSTAINABLE POWER FROM GERMANY: Electric Locomotiv - High-Tech on Rails | WELT Documentary 2024, April
Anonim

Het is moeilijk voor een moderne persoon om zich een leven voor te stellen zonder internet en bijna onmiddellijke toegang tot informatiebronnen. De gebruiker denkt zelden na over hoe het zoeken naar de gewenste inhoud op het netwerk wordt uitgevoerd. Maar dit is erg interessant.

Een information retrieval system (IPS) is een complex software- en hardwaresysteem dat op verzoek van de gebruiker informatie selecteert. Informatie wordt in digitale vorm op servers opgeslagen, zoals boeken vroeger in de schappen van bibliotheken stonden. Het systeem bestaat uit vele subsystemen. Elk voert zijn taak uit bij het verwerken van het verzoek van de gebruiker en het verstrekken van informatie in tekst- of geluidsvorm. De veelheid aan op te lossen taken bepa alt de complexiteit van de architectuur van moderne information retrieval systems (een afkorting van het information retrieval system). Een soort "black box": bij de invoer - de tekst van het verzoek, wat erin staat - is onbekend, bij de uitvoer - uitgebreide informatie.

Kaartbestand in het echt
Kaartbestand in het echt

Invoerstromen

Verzoeken om informatie die een persoon in tekstvorm op het scherm van zijn gadget,vormen een klein deel van de verzoeken die door de zoekmachine worden verwerkt. De belangrijkste arrays van zoekopdrachten worden gevormd door robots die een menselijk verzoek accepteren en een zoekopdracht in meerdere stappen en feedback met de gebruiker uitvoeren. Systemen voor het ophalen van informatie omvatten bekende Google, Yandex en anderen, die dagelijks miljoenen verzoeken verwerken.

Bron zoekobjecten

De reeks initiële objecten die van belang zijn voor de zoekopdracht zijn documenten, records, video's, afbeeldingen en meer. Ze worden buiten de IPS gemaakt. Het systeem voor het opslaan en ophalen van algemene informatie zou een ingebouwd bibliografisch systeem moeten hebben - een soort catalogus waarmee u naar elk soort objecten kunt zoeken.

Objecten of hun digitale transformaties worden een "invoerbron" in het IPS. Onder hen wordt de informatie geselecteerd die de gebruiker nodig heeft.

Zoeken naar informatie
Zoeken naar informatie

Externe bronnen

Informatieselectieweergave maakt gebruik van externe kennisbronnen. Dit is de informatie die de gebruiker zoekt. De titel van de film, een citaat uit het boek en meer. Voor een computerzoekopdracht moet deze informatie worden vertaald in een zoekopdracht in een algoritmische taal. In de IPS wordt dit gedaan met behulp van het blok voor het maken, indexeren en ontwikkelen van query's.

Idealiter zouden deze drie processen - representatie, indexering en query-ontwikkeling - op identieke kennisbronnen moeten vertrouwen, maar in de praktijk is dit niet haalbaar.

Kennisbronnen moeten voortdurend worden herzien en bijgewerkt, en de update moet identiek zijn engesynchroniseerd. En een externe bron van kennis gaat altijd chronologisch vooraf aan het gebruik ervan in zoekmachines voor een zoekopdracht, soms met meerdere jaren.

Systeem voor het ophalen van informatie
Systeem voor het ophalen van informatie

Optredens

Representaties van de originele objecten zijn samengesteld uit invoergegevens in een of andere combinatie of getransformeerd in overeenstemming met de regels en algoritmen van een bepaald systeem voor het ophalen van informatie.

Views zijn min of meer getransformeerde kopieën van het originele zoekobject. In de verzameling onbewerkte volledige teksten is elke tekst zijn eigen representatie. In de verzameling objecten van museumstukken en kunstvoorwerpen kan de representatie een getransformeerde beschrijving zijn van het object met zijn afbeelding. In sommige gevallen kan de representatie deels afgeleid zijn van het originele object en deels van de beschrijving: in bibliografische zoekmachines worden representaties afgeleid van het object - bijvoorbeeld titel, auteursnaam worden gecombineerd met de annotatie van het werk.

Vinden wat je nodig hebt
Vinden wat je nodig hebt

Doorzoekbare index

Omdat informatie in systemen voor het ophalen van informatie wordt opgeslagen in de vorm van een weergave, is het logisch om aan te nemen dat de zoekopdracht wordt uitgevoerd volgens de weergave en, na selectie, aan de gebruiker wordt gegeven. In de praktijk is dit niet het geval. De huidige online bibliotheekcatalogi beperken bijvoorbeeld zoekopdrachten doorgaans tot een paar velden: auteur, titel en ondertitels binnen een weergave die andere velden bevat waarnaar niet wordt gezocht. Dit is voldoende reden om onderscheid te maken:een weergave en een doorzoekbare index, het zoekgedeelte van de weergave. Het definieert alles wat doorzoekbaar moet zijn. Een doorzoekbare index, zoals de view en het bronobject, kan worden opgesplitst in afzonderlijke subindexen voor nauwkeurigere, gerichte zoekopdrachten

Zoekmachines hebben intern meestal een synthetische structuur voor het matchen van geldige zoekresultaten. Deze structuur is het tweede onderdeel van de doorzoekbare index.

Procedureel kan het indexeringsproces op verschillende manieren worden geïmplementeerd: een doorzoekbare index kan worden verkregen door:

  • letterlijk een doorzoekbare representatie kopiëren;
  • door de weergavedetails te kopiëren. Dit kan een deel of alle weergaven zijn die fysiek alleen als fragmenten bestaan, gedistribueerd volgens de regels voor het maken van een index voor zoeken, die indien nodig wordt verzameld.
Zoekbeheer
Zoekbeheer

Verzoek ontwerpregels en formele verzoeken

Query-engineering is een functie die bemiddelt tussen een gebruikersquery en een formele query. Het transformeert de zoekopdracht van de gebruiker en matcht deze met de ophaalopdrachtwoordenboeken, indexspecificatie en index voorafgaand aan het ophalen. Aan het begin van de ontwikkeling van IPS werd deze rol traditioneel toegewezen aan gekwalificeerde IT-specialisten.

Het ontwikkelen van computerquery's die woordenboekquery's kunnen matchen in een doorzoekbaar indexsysteem wordt gewoonlijk de "woordenboekinvoer"-module genoemd. Automatisering van deze functie is veelbelovend en biedt kansen voor deskundige en probabilistische zoekmethoden.

Een formeel verzoek wordt een formeel verzoek nadat het verzoek van de gebruiker is omgezet. Voorbeelden van dergelijke formele transformaties zijn onder meer truncatie, substitutie, normalisatie, vectorisatie en andere transformaties van de "externe" representatie in de "interne" representaties van computer IPS (decryption - information retrieval system).

Extracted Document Link Sets

De resulterende set informatiebronnen is logischerwijs een subset van de weergaven die zijn gemaakt door de overeenkomstregels die worden toegepast op de formele zoekopdracht door een doorzoekbare index.

Meestal, maar niet noodzakelijk, is er een apart sorteerproces voor de herstelde set informatie. Online bibliotheekcatalogi ordenen ontvangen sets meestal alfabetisch op auteur voordat ze worden weergegeven. In systemen voor het ophalen van informatie die strikte rangschikkingen produceren, gaat de rangorde vooraf aan elke herschikking.

Gegevensanalyse
Gegevensanalyse

Uitvoerstreams

De uitvoer van zoekresultaten wordt traditioneel gedaan op het scherm, vaker in de vorm van een stroom objecten die elders of voor een ander doel worden gebruikt, waarmee de hoofdzoeklus wordt voltooid. Dergelijke streams kunnen naar visualisatie-apparaten worden verzonden, opslag voor verdere verwerking of gebruik als invoerstromen naar andere selectiediensten.

Informatie-ophaalsystemen maken feedback mogelijk vande output van een selectieproces. De output van elk proces kan feedback zijn naar andere processen. Feedback kan in elk stadium de basis vormen voor een deskundig oordeel.

Aanbevolen: