jueves, 7 de diciembre de 2023

Google y su algoritmo PageRank

Google es una empresa de tecnología multinacional estadounidense que se centra en inteligencia artificial, publicidad en línea, tecnología de motores de búsqueda, computación en la nube, software, computación cuántica, comercio electrónico y electrónica de consumo.

Sus fundadores Larry Page y Sergey Brin fundaron la empresa en 1998 que comenzó como un proyecto universitario en 1996 con el objetivo de crear un buscador que pudiera organiza toda la información que existiera en la Web. El nombre de Google está basado en la palabra “gúgol”, que hace referencia al número 10 elevado a 100. La idea de este nombre viene de que su motor de búsqueda debía ser capaz de encontrar y organizar miles de millones de páginas de información en unos pocos segundos.

El algoritmo que desarrollaron, y cuya familia de algoritmos derivados se conoce como PageRank, optimiza la búsqueda entre las páginas web de Internet ordenándolas según el número de enlaces que apuntan a cada una de ellas. El resultado es un valor que indica la importancia de cada página de Internet y cuya fórmula inicial era la siguiente:

$$PR(A)=(1-d)+d\sum_{i=1}^n{PR(i)}{C(i)}$$

donde PR(A) es el PageRank de la página A, d es un factor de amortiguación entre 0 y 1, PR(i) son los valores de PageRank que tienen cada una de las páginas i que enlazan a A y C(i) es el número total de enlaces salientes de la página i (vayan o no a A).

La idea de los algoritmos de PageRank que tan famosos han hecho a Google es predecir cuál es la acción más probable que va a realizar un usuario a continuación y darle como resultados de sus búsquedas las páginas más probables que salgan de este algoritmo.

Si nos encontramos en una página cualquiera, el usuario tiene dos opciones: pulsar un link de esa página que nos lleva a otra página de Internet que tiene relación con la página en la que estabamos o escribir una URL directamente en la página de direcciones para llevarnos a una página de Internet cualquiera.

El factor de amortiguación, es decir, el número d representa estas dos opciones. Un usuario va a seguir un enlace de la página en la que se encuentra con una probabilidad d y va a saltar a otra página cualquiera de Internet con una probabilidad 1-d.

Explicado este concepto, y si volvemos a visualizar la fórmula, nos damos cuenta que el PageRank de una página A se define recursivamente al depender del PageRank de todas las páginas i que la enlazan. De esta forma, una página enlazada por muchas páginas con un PageRank alto, también acabará teniendo un PageRank alto, mientras que si una página web no tiene ningún enlace que la enlaza, su valor va a ser constante. Estas páginas con valor PageRank constante serán las que irán generando el PageRank de las páginas web a las que enlazan. De manera sucesiva, cada una de las páginas web tendrá un valor de PageRank determinado según el cual se ordenará su resultado cuando se busque algo en Google.

Obviamente, el algoritmo sobre el que se sustenta Google ahora mismo es mucho más complicado. No solo se modelan las acciones que pueden realizar los usuarios al pinchar una página u otra según la búsqueda que han realizado, sino que muchas empresas pagan para que páginas se encuentre entre los primeros resultados del buscador. Estas manipulaciones tienen que estar presentes en el algoritmo e influirán al cálculo del PageRank del resto de páginas.

Es imposible dilucidar todas las ramificaciones y posibilidades se pueden añadir a una fórmula de este estilo para sesgar y dirigir los resultados. Lo que si es obvio es que la formulación de este algoritmo ha permitido a Google convertirse en una de las empresas tecnológicas más importantes del sector y que muchos otros buscadores han copiado sus ideas para intentar llegar a una ínfima parte del negocio del que forma parte Google actualmente.

Casos de la Semana 5

Elabora un argumento para el siguiente caso: Caso 5. Público.   Los agujeros negros no emiten ningún tipo de radiación, por eso se llama...